mardi 15 mars 2016

Bloquer des URL avec un fichier robots.txt En savoir plus sur les fichiers robots.txt



Bloquer des URL avec un fichier robots.txt
En savoir plus sur les fichiers robots.txt

SUIVANT: CRÉER UN FICHIER ROBOTS.TXT
Un fichier robots.txt est un fichier situé à la racine de votre site qui indique aux robots d'exploration des moteurs de recherche de ne pas explorer certaines parties de votre site. Le fichier utilise le protocole d'exclusion des robots. Il comporte un ensemble de commandes qui permettent d'indiquer quelles parties de votre site peuvent être explorées et par quels types de robots d'exploration (tels que les robots d'exploration du Web ou du Web mobile).

À quoi sert le fichier robots.txt ?
Fichiers autres que des images

Pour les fichiers qui ne sont pas des images (c'est-à-dire, pour les pages Web) le fichier robots.txt ne doit être utilisé que pour contrôler le trafic d'exploration, généralement pour éviter que le serveur soit submergé par le robot d'exploration Google ou l'exploration de pages non importantes ou similaires à d'autres sur votre site. N'utilisez pas le fichier robots.txt pour masquer votre page Web des résultats de recherche Google. En effet, d'autres pages peuvent rediriger les internautes vers votre page, ce qui peut entraîner l'indexation de votre page, en évitant le fichier robots.txt. Si vous voulez empêcher l'affichage de votre page dans les résultats de recherche, utilisez une autre méthode, telle que la protection par mot de passe, ou les instructions ou balises noindex.

Fichiers image

Le fichier robots.txt empêche l'apparition des fichiers image dans les résultats de recherche Google. Cependant, il n'empêche pas les autres pages ni les autres internautes d'utiliser des liens vers votre image.

Fichiers de ressource

Vous pouvez utiliser le fichier robots.txt pour bloquer les fichiers de ressource tels que les images, scripts ou fichiers de style non importants, si vous pensez que l'absence de ces ressources n'affectera pas le chargement des pages. Cependant, si l'absence de ces ressources rend la page plus compliquée à comprendre pour le robot d'exploration Google, vous ne devez pas les bloquer, car cela nous empêche d'analyser correctement les pages dépendant de ces ressources.

Comprendre les limites du fichier robots.txt
Avant de créer votre fichier robots.txt, vous devez connaître les risques liés à l'utilisation de cette méthode de blocage d'URL. Il est parfois possible d'envisager d'autres solutions pour vous assurer que vos URL sont introuvables sur le Web.

Les instructions des fichiers robots.txt sont des consignes et non des règles

Les instructions des fichiers robots.txt ne sont pas des règles que tout robot d'exploration doit suivre. Il est préférable de les considérer comme des consignes destinées aux robots d'exploration qui accèdent à votre site. Googlebot et les autres robots d'exploration sérieux respectent les instructions des fichiers robots.txt, mais il est possible que d'autres robots ne le fassent pas. Par conséquent, si vous souhaitez protéger vos informations en empêchant leur récupération par les robots d'exploration, nous vous conseillons d'utiliser d'autres méthodes de blocage, comme la protection par mot de passe des fichiers privés sur votre serveur.
Les robots d'exploration peuvent interpréter la syntaxe différemment

Même si les robots d'exploration sérieux suivent les instructions du fichier robots.txt, d'autres peuvent les interpréter différemment. Il est recommandé de connaître la syntaxe appropriée pour vous adresser à différents robots d'exploration, car certains ne comprendront pas forcément toutes vos instructions.
Les instructions d'un fichier robots.txt ne peuvent pas empêcher les références à vos URL sur d'autres sites

Même si nous n'explorons pas ni n'indexons le contenu bloqué par le fichier robots.txt, nous pouvons détecter et indexer des URL bloquées ailleurs sur le Web. Par conséquent, l'adresse URL et, potentiellement, d'autres informations accessibles au public, comme le texte d'ancrage dans les liens qui redirigent vers le site, peuvent s'afficher dans les résultats de recherche Google. Vous pouvez empêcher complètement l'apparition de votre URL dans les résultats de recherche Google à l'aide d'autres méthodes de blocage d'URL, telles que la protection par mot de passe des fichiers sur votre serveur, ou l'insertion de la balise Meta noindex ou d'un en-tête de réponse.
Remarque : La combinaison de plusieurs instructions d'exploration et d'indexation risque de créer des interférences entre instructions. Apprenez à configurer correctement ces instructions en consultant la rubrique Combiner les instructions d'exploration avec les instructions d'indexation/d'affichage de la documentation Google Developers.






Aucun commentaire:

Enregistrer un commentaire