Bien gérer son indexation par les moteurs de recherche, une histoire de robots 🔗

Posted by Médéric Ribreux 🗓 In blog/Blog/

#web

Introduction

Maintenant que mon blog est public, je me suis posé la question de savoir qui venait le visiter et surtout comment il se faisait indexer par les différents moteurs de recherche. À ce sujet, il faut savoir que tout cela n'arrive pas comme par magie: les moteurs de recherche utilisent des programmes dont le seul but est de naviguer de pages en pages en "scannant" tout le réseau internet. Ces programmes sont appelés robots dans le langage consacré.

En regardant mes logs de serveurs, je me suis rendu compte que j'avais eu de la visite de la part de quelques-uns de ces robots: ils demandaient tous à consulter le fichier robots.txt à la racine du site. Mais, je n'avais pas prévu ce fichier, ils sont donc rentrés bredouilles (ou plutôt brocouilles comme on dit dans le Bouchonnois).

Quel est donc ce fichier robots.txt et à quoi sert-il ?

Gérer les moteurs d'indexation

Une petite recherche sur Internet m'apprend qu'il existe un fichier robots.txt qui indique quel robot peut consulter telle ou telle page. Cela permet à certaines parties de serveurs Web de ne pas être indexées par défaut. Ce fichier n'est pas une norme mais un standard de fait. Certains robots (celui de Google par exemple) supportent un jeu plus étendu d'instructions.

Le site de référence donne uniquement deux instructions:

Pour plus d'infos: http://www.robotstxt.org/orig.html.

Mon fichier robots.txt

Dans mon cas, j'ai plusieurs pré-requis:

Voici le fichier /var/www/robots.txt qui en découle:

User-agent: MSNbot
Disallow: /

User-agent: *
Disallow: /gallery/

Bien sur, on crée ce fichier avec les droits de l'utilisateur www-data et on le code avec Vim et ses propres petits doigts !

Références