fichier robots.txt - Webmaster

Qu'est ce qu'un fichier robots.txt

robots.txt

Le fichier robots.txt (fichier d'exclusion des robots) va vous permettre de donner des informations sur les ressources qui ne doivent pas être prises en compte par les moteurs de recherche (robots d'indexation) quand ils viennent sur votre site indexer vos pages.

Le fichier robots.txt n'est pas lu par tous les robots d'indexation.
Il n'est là que pour donner des informations d'indexation, ce n'est en aucun cas un ficher qui va sécuriser vos répertoires.
Pour sécuriser vos ressources utilisez le fichier .htaccess

Eviter une erreur 404 sur le fichier robots.txt
Les métas tag pour les robots dans l'entête HTTP

Création du fichier robots.txt

Informations

Pour créer le fichier robots.txt, vous pouvez utiliser n'importe quel l'éditeur de texte, du moment que celui-ci encode en ASCII le fichier texte.
Le nom du fichier robots.txt doit être en minuscule.

Le fichier robots.txt doit être placé à la racine de votre site : http://www.monsite.fr/robots.txt.
Il n'est pas utile de mettre un robots.txt dans chaque répertoire de votre site.

Les propriétés listées ci-dessous sont insensibles à la casse. L'espace qui les suit est facultatif.

Mettre des commentaires

Informations

Vous pouvez commenter votre fichier robots.txt pour le rendre plus lisible.
Pour mettre en commentaires des lignes, faites les précéder d'un "#" :
Exemple de code :
# cette ligne est en commentaire
ouille cette ligne n'est pas en commentaire

La propriété User-agent

Définition

Dans votre fichier robots.txt vous pouvez utiliser la propriété User-agent qui permet de spécifier le nom du robot auquel on veut appliquer une ou des règles.

La propriété User-agent peut prendre la valeur de :
- *, étoile soit tous les robots
- nom du robot.
Exemple de code :
User-agent: *
User-agent: Googlebot

Liste des robots : Liste des robots(en)

La propriété Disallow

Définition

Dans votre fichier robots.txt vous pouvez utiliser la propriété Disallow qui permet de spécifier les interdictions pour l'User-agent spécifié.

La propriété Disallow peut prendre la valeur de :
- rien, rien n'est interdit,
- /, tout est interdit,
- /unnom/, répertoire "unnom" est interdit.
- /unnom, répertoire ou fichier nommé "unnom" ou commençant par "unnom" est interdit.
Exemple de code :
Disallow:
Disallow: /unnom/
Disallow: /unnom/page.htm
Disallow: /unnom

La propriété Allow

Informations

Dans votre fichier robots.txt vous pouvez utiliser la propriété Allow qui permet de spécifier les autorisations pour l'User-agent spécifié.

La propriété Allow peut prendre la valeur de :
- /unnom/, répertoire "unnom" est autorisé.
- /unnom, répertoire ou fichier nommé "unnom" ou commençant par "unnom" est autorisé.
Exemple de code :
Allow : /monrepertoire/

La propriété Sitemap

Définition

Dans votre fichier robots.txt vous pouvez utiliser la propriété Sitemap qui permet de spécifier l'url de votre site sitemap.

La propriété Sitemap peut prendre la valeur :
- url absolue de votre site sitemap.
Exemple de code :
Sitemap: http://www.monsite.com/sitemap.xml

Les liens utiles :
Specifying the Sitemap location (en)
Aide à la création d'un sitemap par google

Exemple de fichier robots.txt

fichier robots.txt

Exemple d'un fichier robots.txt :
Exemple de code :
# robots.txt du site www.monsite.com

User-agent: * # tous les robots
Disallow: / # n'ont aucun droit d'indexer tous les répertoires

# mais pour les robots suivant :
User-agent: GoogleBot # le robot google
User-agent: MSNBot # le robot msn
User-agent: VoilaBot #le robot Voila
Disallow: # ils ont droit de tout indexer

# mais le robot suivant :
User-agent: VoilaBot # le robot Voila
Disallow: /voilou/ # il n'a pas le droit d'indexer le repertoire voilou
Allow : /voilou/voula # il a le droit cependant d'indexer le répertoire "voula" dans "voilou".

Les liens utiles

Les liens