Bien gérer son indexation par les moteurs de recherche, une histoire de robots 🔗
Introduction¶
Maintenant que mon blog est public, je me suis posé la question de savoir qui venait le visiter et surtout comment il se faisait indexer par les différents moteurs de recherche. À ce sujet, il faut savoir que tout cela n'arrive pas comme par magie: les moteurs de recherche utilisent des programmes dont le seul but est de naviguer de pages en pages en "scannant" tout le réseau internet. Ces programmes sont appelés robots dans le langage consacré.
En regardant mes logs de serveurs, je me suis rendu compte que j'avais
eu de la visite de la part de quelques-uns de ces robots: ils
demandaient tous à consulter le fichier robots.txt
à la racine du
site. Mais, je n'avais pas prévu ce fichier, ils sont donc rentrés
bredouilles (ou plutôt brocouilles comme on dit dans le Bouchonnois).
Quel est donc ce fichier robots.txt
et à quoi sert-il ?
Gérer les moteurs d'indexation¶
Une petite recherche sur Internet m'apprend qu'il existe un fichier
robots.txt
qui indique quel robot peut consulter telle ou telle page.
Cela permet à certaines parties de serveurs Web de ne pas être indexées
par défaut. Ce fichier n'est pas une norme mais un standard de fait.
Certains robots (celui de Google par exemple) supportent un jeu plus
étendu d'instructions.
Le site de référence donne uniquement deux instructions:
User-agent:
c'est le nom du robot (signature laissée dans l'entête HTTP). * signifie tous.Disallow:
c'est le fichier ou le répertoire qu'on ne souhaite pas voir indexé par le robot.
Pour plus d'infos: http://www.robotstxt.org/orig.html.
Mon fichier robots.txt¶
Dans mon cas, j'ai plusieurs pré-requis:
- Je n'aime pas Microsoft et c'est mon droit le plus strict…
- La partie Gallery du site n'a pas à être indexée: c'est de l'ordre du quasi-privé.
- Toutes les références aux fichiers de config (pages de setup, etc.) ne doivent pas être référencées.
- Réflexion faite du point précédent, c'est mieux de ne pas mettre l'info en public.
- Je répète que je n'aime pas Microsoft et c'est mon droit le plus strict…
Voici le fichier /var/www/robots.txt
qui en découle:
User-agent: MSNbot
Disallow: /
User-agent: *
Disallow: /gallery/
Bien sur, on crée ce fichier avec les droits de l'utilisateur www-data
et on le code avec Vim et ses propres petits doigts !
Références¶
- http://www.robotstxt.org Le site de référence.
- http://www.commentcamarche.net/web/robots-txt.php3 Une explication simple et en français.
- http://www.robotstxt.org/db.html La liste des User-Agent.