Fichier robots.txt
Ce fichier robots.txt est important pour les moteurs de recherche, car c’est le première élément, qu’ils vont analyser.
Ce fichier doit se trouver à la racine de votre site et être accessible comme ceci: http://www.guismai.fr/robots.txt
Si on veut bloquer l’accès aux moteurs de recherche, nous avons 2 solutions, un fichier vide ou un fichier avec ce contenu :
User-agent: * Disallow: /
Au contraire, si on veut que les moteurs de recherche indexent le site sauf les fichiers, dossiers sensibles …
User-agent: * Disallow: /wp-login.php Disallow: /*.php Disallow: /wp-*.php Disallow: /wp-admin
Ensuite, on peut aussi donner des instructions spécifiques pour tel ou tel robot :
User-agent: Googlebot User-agent: Googlebot-Image User-agent: Mediapartners-Google* User-agent: bingbot
De plus, on peut modifier toutes les instructions pour tel ou tel robot :
User-agent: * Disallow: / User-agent: bingbot Disallow: #on supprime toutes les anciennes règles de Disallow Allow: /*
On peut aussi spécifier le sitemap directement dans le robots.txt :
Sitemap: http://www.guismai.fr/sitemap.xml
Enfin, il est préférable de ne pas avoir un fichier physique à la racine de votre site, mais un fichier virtuel et ça fera l’objet d’un article prochainement…