Améliorer le référencement de votre site web grâce au sitemap.xml et le robots.txt

Savez-vous qu’un moteur de recherche utilise des méthodes discrètes pour référencer votre site web ? En effet, il ne se contente pas de venir visiter toutes les pages de votre site internet. Pour gagner du temps, il commence par chercher deux fichiers (robots.txt et sitemap.xml). Si vous ne lui donnez pas ce qu’il cherche, il ira voir ailleurs et votre visibilité risque d’en pâtir.

A travers ce billet, je vous propose de vous donner quelques pistes pour bien utiliser ces deux fichiers souvent négligés malgré leur efficacité.

Avant tout, quelques précisions pour mieux comprendre les termes utilisés :

Vous rencontrerez souvent les termes « bot » et « crawler » :

  • Un «bot» désigne le programme informatique issu des moteurs de recherche qui va venir consulter votre site web.
  • «Crawler» désigne l’action de parcourir le web à la recherche de contenus à référencer (textes, images, vidéos, …).

 

Qu’est-ce qu’un robots.txt ?

Le fichier robots.txt vous permet d’indiquer très finement quels sont les dossiers ou les pages que les moteurs de recherche sont autorisés à indexer.

Vous pouvez, par exemple, décider qu’une partie de votre site web reste privée, non visible par les bots des moteurs de recherche grâce au fichier robots.txt. Attention, cette méthode ne garantit pas le secret de ces pages mais le fichier robots.txt dit simplement aux bots :
« Vous n’êtes pas autoriser à parcourir le contenu de ce dossier » : rien de plus.

Un peu de code ?

Le fichier robots.txt est un simple fichier texte dans lequel vous aller simplement donner quelques indications aux bots. Il comporte une instruction par ligne et n’utilise aucun caractère spécifique pour indiquer la fin de ligne/instruction.
Un exemple ?

User-Agent : Googlebot
Disallow : /admin

Dans cet exemple, vous interdisez l’indexation de votre dossier « admin » à Google.

Le principe du robots.txt est de préciser les dossiers ou fichiers que vous ne souhaitez pas autoriser l’indexation par les bots des moteurs de recherche. Vous ne préciserez pas les dossiers et fichiers autorisés au crawle.

 

Qu’est-ce qu’un sitemap.xml ?

Un sitemap est une page de votre site web qui présente l’organisation du site : c’est le plan qui permet à vos visiteurs de « visualiser » la segmentation de votre site. On y retrouve la liste des pages mais également la structure du site (catégories, mots clés, …).

Le fichier sitemap.xml reprend la même philosophie que le plan de votre site web. Il est généralement stocké à la racine de de votre site et liste toutes les pages et leurs adresses associées (lien HTML).

Sous sa forme XML, ce plan de site est à destination des moteurs de recherche qui l’utilisent pour indexer toutes les pages de votre site web.

Comment indiquer un sitemap.xml dans un robots.txt ?

Étant donné que les robots d’indexation des moteurs de recherche, les « bots », vont rechercher en priorité le fichier robots.txt de votre site internet, vous devez indiquer dans ce fichier l’adresse du sitemap.xml,
Ainsi les robots d’indexation vont trouver le plan de site sans trop d’effort…

Dans le fichier robots.txt qui doit se trouver à la racine de votre site, ajoutez la ligne suivante :

Sitemap: http://exemple.com/sitemap.xml

Pensez à remplacer « exemple.com » par votre nom de domaine. Sauvegarder le fichier.

Vous pouvez utiliser cette technique pour tous les moteurs de recherche (Google, Yahoo, Bing, Ask… ).

Avez-vous déjà pensé à mettre à disposition un plan de site à destination des moteurs de recherche ? Quelles sont vos meilleures astuces pour optimiser votre fichier robots.txt ?


Claude BUENO

J’aide les équipes à développer leurs pratiques agiles et collaboratives.
Je blogue depuis 2008 sur la transformation numérique, le développement d'applications web et mobile et les pratiques pour les réaliser dans les meilleures conditions.
Sujets de prédilection : agilité, coaching, digital, management, marketing, développement web et mobile

1 commentaire

  1. Un Article bref mais très pratique. Merci infiniment pour le partage

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *