
Résumé des épisodes précédents :
Bot dit le Crawler récupère des pages sur le web en les suivant de lien en lien. Il se démène ainsi de site en site en suivant les meilleurs liens. Il essaie d’imiter son maître le grand Humphrey Bogart qui lui, suit toujours la bonne piste. Ce n’est pas le genre de type à se laisser embarquer n’importe où.
Mais Bot est perfectionniste. Il a le sentiment qu’il ne fait pas son travail à fond. Quand il s’arrête de travailler sur un site qu’on lui a confié, il n’est jamais sûr d’avoir fait le tour du sujet et d’avoir récupéré l’ensemble des pages du site.
C’est le genre de trucs qui énerve son client Ted dit le Webmaster. Lui, il aimerait qu’on s’occupe de son affaire à fond.
Pour régler tout cela, Bot a une idée : il va demander à Ted de tout lui raconter, tout ce qu’il sait sur lui, ainsi Bot pourra mieux faire son job.
Bot est un type qui se tient au courant des choses et il sait que dans le milieu maintenant, on parle beaucoup de Sitemaps. Il va maintenant le proposer à ses clients.
La méthode est simple et sans bavure : cela consiste à mettre en place un fichier sur son site qui indique toutes les urls que son site contient ainsi que des meta-données sur ces urls comme leur fréquence de changement, etc.
Ce fichier est en xml et ressemble à cela :
<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>
<url>
<loc>http://www.example.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/catalog?item=12&desc=vacation_hawaii</loc>
<changefreq>weekly</changefreq>
</url>
<url>
<loc>http://www.example.com/catalog?item=83&desc=vacation_usa</loc>
</url>
</urlset>
Essentiellement, une grande liste d’urls.
Pour indiquer à Bot où ce fichier se trouve, Ted va aussi rajouter dans son fichier robots.txt, la ligne suivante :
Sitemap: http://www.example.com/sitemap.xml
Mais Bot sait que tous ses clients ne sont pas aussi clean que Ted. Il sait qu’il y en a des véreux, des qui vous emmènent sur une fausse piste pour vous détourner de la défense de la veuve et de l’orphelin.
Bot est un gars sympa mais faut pas lui raconter de crasses. Quand on lui file une liste d’urls, il la vérifie. Et si on essaye de lui refourguer des trucs en double, des trucs qui n’ont rien à voir avec la semoule, eh bien, il dit “Stop Bot” et passe à une autre affaire.
Sitemaps est un protocole historiquement proposé par Google, puis discuté par MSN, Yahoo et Ask. Il est aujourd’hui devenu un standard qui est implémenté par Google, Yahoo, Ask et maintenant Exalead depuis juillet 2007.
Plus d’informations sur http://www.sitemaps.org/fr/
Sébastien

Comments
Leave a comment 8
Alexis B. says: 24 août 2007
Exalead supporte le sitemap.xml depuis juillet 2007 ? Je n’est pourtant pas réussi à “pinguer” comme il est dit sur sitemap.org (ping?sitemap=sitemap_url).
Pour info, celà a fonctionné avec Ask, tandis que Yahoo et google offre une interface pour le gerer. Comment faire pour signaler un sitemap chez exalead ? merci
Ilsa Lund says: 24 août 2007
Sitemaps et Exalead, the beginning of a beautiful friendship ?
Diablo150 says: 26 août 2007
Concrètement, qu’est ce que ça apportera au moteur ?
Une meilleur qualité/quantité d’indexation, des pages plus fraîches ?
Ilsa Lund says: 27 août 2007
Humphrey s’est fait descendre par John ???
ExaleadGuy says: 27 août 2007
Alexis, le ping servait surtout a indiquer au moteur ou se trouvait le fichier sitemaps avant que path du sitemaps soit intégré dans le robots.txt.
Si cette ligne ne figure pas dans le robots.txt, il suffit de soumettre l’url du sitemap dans le formulaire classique: http://www.exalead.fr/search/submitYourSitePage
ExaleadGuy says: 27 août 2007
Diablo, concretement, ca sert essentiellement d’outil de dialogue webmaster/moteur et permet a un webmaster avec un site a la navigation difficile de fournir au moteur une aide sur sa liste de pages. Plus le moteur a d’infos fiables sur un site, mieux il le crawle et donc in fine ca se traduit de facon indirecte sur les resultats qui seront plus frais et plus nombreux (meme si rappelons le l’inclusion d’une url dans un sitemaps ne garantit pas son inclusion inconditionnelle dans le moteur)
Alexis B. says: 28 août 2007
ExaleadGuy: Merci pour l’info
Bigou says: 31 août 2007
DEPUIS JUILLET 2007 ? Pourquoi ne pas l’avoir dit avant ?
En tout cas, voici les liens vers les suggestions qui le demandais :
http://feedback.exalead.fr/feedbacks/820
http://feedback.exalead.fr/feedbacks/1197
http://feedback.exalead.fr/feedbacks/3647