Bien gérer son indexation par les moteurs de recherche, une histoire de robots🔗

Posted by Médéric Ribreux 🗓 2008-05-29 In blog/ Blog/

Introduction

Maintenant que mon blog est public, je me suis posé la question de savoir qui venait le visiter et surtout comment il se faisait indexer par les différents moteurs de recherche. À ce sujet, il faut savoir que tout cela n'arrive pas comme par magie: les moteurs de recherche utilisent des programmes dont le seul but est de naviguer de pages en pages en "scannant" tout le réseau internet. Ces programmes sont appelés robots dans le langage consacré.

En regardant mes logs de serveurs, je me suis rendu compte que j'avais eu de la visite de la part de quelques-uns de ces robots: ils demandaient tous à consulter le fichier robots.txt à la racine du site. Mais, je n'avais pas prévu ce fichier, ils sont donc rentrés bredouilles (ou plutôt brocouilles comme on dit dans le Bouchonnois).

Quel est donc ce fichier robots.txt et à quoi sert-il ?

Gérer les moteurs d'indexation

Une petite recherche sur Internet m'apprend qu'il existe un fichier robots.txt qui indique quel robot peut consulter telle ou telle page. Cela permet à certaines parties de serveurs Web de ne pas être indexées par défaut. Ce fichier n'est pas une norme mais un standard de fait. Certains robots (celui de Google par exemple) supportent un jeu plus étendu d'instructions.

Le site de référence donne uniquement deux instructions:

User-agent: c'est le nom du robot (signature laissée dans l'entête HTTP). \* signifie tous.
Disallow: c'est le fichier ou le répertoire qu'on ne souhaite pas voir indexé par le robot.

Pour plus d'infos: http://www.robotstxt.org/orig.html.

Mon fichier robots.txt

Dans mon cas, j'ai plusieurs pré-requis:

Je n'aime pas Microsoft et c'est mon droit le plus strict…
La partie Gallery du site n'a pas à être indexée: c'est de l'ordre du quasi-privé.
Toutes les références aux fichiers de config (pages de setup, etc.) ne doivent pas être référencées.
Réflexion faite du point précédent, c'est mieux de ne pas mettre l'info en public.
Je répète que je n'aime pas Microsoft et c'est mon droit le plus strict…

Voici le fichier /var/www/robots.txt qui en découle:

User-agent: MSNbot
Disallow: /

User-agent: *
Disallow: /gallery/

Bien sur, on crée ce fichier avec les droits de l'utilisateur www-data et on le code avec Vim et ses propres petits doigts !

Références

http://www.robotstxt.org Le site de référence.
http://www.commentcamarche.net/web/robots-txt.php3 Une explication simple et en français.
http://www.robotstxt.org/db.html La liste des User-Agent.