Author Archives: Sébastien

About Sébastien

Sébastien est Responsable de l'Equipe Web. Avec elle, il manipule tous les jours les indexes Web d'Exalead.com pour les rendre plus performants et pertinents mais travaille également sur toutes les nouvelles fonctionnalités du Moteur Web. Il est aussi en charge des services Web On demand d'Exalead qui permettent de mettre à disposition de portails externes des résultats de recherche web/images/vidéos, moteurs verticaux... Sébastien est diplômé de l'Ecole Polytechnique et de Télécom Paris, il rejoint l'Equipe d'Exalead en 2001. Il est le spécialiste du web et des techniques de crawl et connait bien sa bête noire qui est, naturellement, le SPAM.
  • Episode 4 : Sitemaps (based on a true story)

    24 août 2007 by Sébastien Non classé 8

    Humphreybogart
    Résumé des épisodes précédents :

    Bot dit le Crawler récupère des pages sur le web en les suivant de lien en lien. Il se démène ainsi de site en site en suivant les meilleurs liens. Il essaie d’imiter son maître le grand Humphrey Bogart qui lui, suit toujours la bonne piste. Ce n’est pas le genre de type à se laisser embarquer n’importe où.

    Mais Bot est perfectionniste. Il a le sentiment qu’il ne fait pas son travail à fond. Quand il s’arrête de travailler sur un site qu’on lui a confié, il n’est jamais sûr d’avoir fait le tour du sujet et d’avoir récupéré l’ensemble des pages du site.

    C’est le genre de trucs qui énerve son client Ted dit le Webmaster. Lui, il aimerait qu’on s’occupe de son affaire à fond.

    Pour régler tout cela, Bot a une idée : il va demander à Ted de tout lui raconter, tout ce qu’il sait sur lui, ainsi Bot pourra mieux faire son job.

    Bot est un type qui se tient au courant des choses et il sait que dans le milieu maintenant, on parle beaucoup de Sitemaps. Il va maintenant le proposer à ses clients.

    La méthode est simple et sans bavure : cela consiste à mettre en place un fichier sur son site qui indique toutes les urls que son site contient ainsi que des meta-données sur ces urls comme leur fréquence de changement, etc.

    Ce fichier est en xml et ressemble à cela :

    <urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>
    <url>
    <loc>http://www.example.com/</loc>
    <lastmod>2005-01-01</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
    </url>
    <url>
    <loc>http://www.example.com/catalog?item=12&desc=vacation_hawaii</loc>
    <changefreq>weekly</changefreq>
    </url>
    <url>
    <loc>http://www.example.com/catalog?item=83&desc=vacation_usa</loc>
    </url>
    </urlset>

    Essentiellement, une grande liste d’urls.

    Pour indiquer à Bot où ce fichier se trouve, Ted va aussi rajouter dans son fichier robots.txt, la ligne suivante :

    Sitemap: http://www.example.com/sitemap.xml

    Mais Bot sait que tous ses clients ne sont pas aussi clean que Ted. Il sait qu’il y en a des véreux, des qui vous emmènent sur une fausse piste pour vous détourner de la défense de la veuve et de l’orphelin.

    Bot est un gars sympa mais faut pas lui raconter de crasses. Quand on lui file une liste d’urls, il la vérifie. Et si on essaye de lui refourguer des trucs en double, des trucs qui n’ont rien à voir avec la semoule, eh bien, il dit “Stop Bot” et passe à une autre affaire.

    Sitemaps est un protocole historiquement proposé par Google, puis discuté par MSN, Yahoo et Ask. Il est aujourd’hui devenu un standard qui est implémenté par Google, Yahoo, Ask et maintenant Exalead depuis juillet 2007.

    Plus d’informations sur http://www.sitemaps.org/fr/

    Sébastien

  • Indexer plus, indexer mieux – Episode 2

    21 juin 2007 by Sébastien Non classé 10

    Dans notre série les bourreurs d’urnes (Indexer plus, indexer mieux ), la catégorie des fermes de liens.

    Prenons un site au hasard : http://perso.orange.fr/marincazaou/

    *edit* – Voir même un deuxième, dans ma grande générosité : http://www.numis-max.com/

    De prime abord, ce site a l’air très inoffensif et ressemble à de nombreux autres sites personnels sur le web.

    Néanmoins, regardez bien et faites la manipulation suivante: appuyez sur CTRL-A de manière à sélectionner l’ensemble du texte de la page. Sous l’image de la petite maison en haut à droite, vous voyez apparaître un point qui était en noir sur noir jusqu’à présent. Ce point est cliquable, vous pouvez cliquer dessus et là oh c’est magnifique, ce site dans sa grande générosité a décidé d’aider le moteur de recherche en lui fournissant des milliers de liens vers ces sites amis, on retrouve ainsi dans cette liste l’un à coté de l’autre, des sites indispensables permettant d’arrêter de fumer en 3 jours seulement http://www.confiance.net/ et aussi l’incroyable Association Nationale pour les Ânes Retraités Et Maltraités http://anarem.free.fr/ ou encore des sites de spam plus classiques comme http://www.casino-joker.com/ tous trois en rapport complet bien sûr avec le site d’origine.
    Même des sites plus sérieux participent à ce genre d’initiatives par exemple: http://www.detectives-prives.com et sa liste à lui: http://www.detectives-prives.com/indexpopusam.html

    Ces sites font cela dans l’objectif d’augmenter leur popularité et espèrent ainsi apparaître plus haut dans les résultats de recherche.

    Ne vous inquiétez pas, nous restons vigilants :-)

    Prochaine épisode : L’intégration de flux RSS

    Sebastien, Chef de cuisine Web

  • Indexer plus, indexer mieux – Introduction et épisode 1

    19 juin 2007 by Sébastien Non classé 3

    La question qui suit généralement “Comment fais-je pour que mon site soit sur la première page de résultats ?” est en général “Mais pourquoi le moteur n’a pas référencé (toutes) mes pages ?”.

    Petit rappel sur le fonctionnement d’un moteur: le moteur trouve les pages qu’il indexe soit parce qu’un humain lui a soumis (0,0001% des cas) soit en suivant un lien vu sur une page précédente. Donc, plus il y a de liens vers une page donnée, plus la probabilité qu’elle soit indexée est grande. Et un site perso sans lien avec le reste de l’univers a peu de chances de se trouver indexé par un moteur de recherche.

    De plus, les pages accessibles uniquement à travers du Javascript ou des formulaires ne sont pas atteignables par le moteur et ne peuvent donc pas être indexées. Il n’y a effectivement pas de moyens pour le moteur de connaître l’intégralité des pages d’un site ni s’il lui en manque 10 ou 10000 (en dehors du protocole sitemaps dont je parlerai prochainement).

    Néanmoins, il faut savoir que du point de vue du moteur le risque n’est pas la pénurie de liens mais plutôt le trop plein. Quelles en sont les raisons ?

    Au travers d’une série de posts, je vais essayer de vous montrer que
    certaines causes de cette abondance de liens sont normales et peuvent
    donc être traitées facilement, mais que d’autres plus douteuses, voire
    acrobatiques nécessitent ingéniosité et réactivité pour assurer la
    qualité des résultats.

    Read More

  • Nouveautés algorithmiques – Episode 2 et Epilogue

    18 juin 2007 by Sébastien Non classé 2

    Suite de
    notre série “Nouveautés dans le ranking du Moteur de recherche
    Exalead
    ” avec la présentation du deuxième axe d’amélioration de la release “GREMLINS

    Ingrédient n° 2 :
    l’impression qu’on se comprend
    mieux.

    Vous lancez la requête « brosse à dents » :

    1. pour découvrir les nouvelles collections de porte brosse à dents
    2. pour trouver des pages sur les brosses à cheveux et les peignes à dents
    3. pour découvrir une signification exotique de l’expression « brosse à dents » sur un site Québécois
    4. pour souscrire un abonnement de renouvellement à domicile de votre brosse à dents préférée

    Désolé pour ceux qui ont répondu (1) et (3), nous venons d’améliorer nos algorithmes afin de mieux prendre en compte les requêtes sous forme d’expression composées de plusieurs mots et de prioriser les résultats en fonction de la langue et de la localisation de l’utilisateur.

    EPILOGUE

    Le chef en cuisine me suggère d’incorporer ces 2 ingrédients à la sauce Exalead.

    Vous lancez la requête « Martin Luther King »:

    1. pour écouter son célébrissime discours
    2. pour préparer un exposé sur les martins-pêcheurs
    3. pour parcourir les blogs et forums dédiés à Martin Luther King
    4. pour trouver les photos en portrait de Martin Luther King

    Bon, j’ai attisé votre curiosité et vous avez des questions ?

    Une seule réponse : un peu de caféine, quelques extraits végétaux … et surtout plein de nouveautés à venir dans le domaine de la pertinence ; restez branchés !

    L’équipe back-end qui sue nuit et jour pour proposer chaque jour de meilleurs résultats.

    Sebastien, Chef de cuisine Web

  • Nouveautés algorithmiques – Episode 1

    11 juin 2007 by Sébastien Non classé 4

    Poser la question de la pertinence à un fournisseur de moteur de recherche, c’est un peu comme demander à Coca Cola la recette de sa célèbre boisson gazeuse. Il est peu probable d’obtenir une réponse. Il est certain que, tout comme Coca Cola fait évoluer imperceptiblement au fil des ans les propriétés gustatives de ses boissons, les moteurs de recherches mettent régulièrement en œuvre de nouveaux moyens pour offrir les réponses les plus pertinentes possibles à leurs utilisateurs.

    Donc, tout à fait entre nous, cela va de soit, levons le voile sur la release majeure : “GREMLINS” qui reprend toutes les dernières améliorations de la pertinence de notre moteur Exalead (en production depuis mercredi 6 juin) .

    Ingrédient n°1 : un vent de fraîcheur dans notre index.

    Vous lancez la requête « Beryl » :

    • parce que vous êtes un fan d’effets 3D et que vous cherchez le site officiel du logiciel libre Beryl
    • parce que tous vos copains geeks génération web 2.0 vous bassinent avec Beryl et que la Wikipedia est la seule à pouvoir vous sortir de l’ignorance
    • parce que vous vous nommez Beryl, êtes comédien et souhaitez vérifier que votre réalisateur préféré trouvera facilement votre page perso sur Exalead
    • parce que vous ne marchez qu’en chaussures Beryl

    Quelle que soit votre réponse, Exalead est fait pour vous : de tout nouveaux algorithmes améliorent l’analyse notamment des liens entrants dans les pages, tant dans l’interprétation sémantique de ces liens que dans leur évolution dans le temps. L’impact est donc très visible sur des requêtes d’un mot sur des thèmes assez spécifiques, en particulier lorsque le thème en question correspond à une actualité (vous ne connaissiez pas Beryl ? J)

    Prochaine épisode :

    Ingrédient n° 2 : l’impression qu’on se comprend mieux.

    Sebastien, Chef de Cuisine Web

  • SEO : Mélange des genres

    4 juin 2007 by Sébastien Non classé 1

    J’entends régulièrement des gens me demander “Que faut-il faire pour arriver dans les premières places d’un moteur de recherche ?” Ils s’attendent généralement à ce que je leur donne des conseils super ésotériques. Malheureusement, j’ai tendance à les décevoir.

    Pour une bonne et simple raison : le référencement c’est avant tout du marketing. Et le marketing c’est avant tout du bon sens. Ne vous posez donc pas la question “Comment arriver dans les premiers résultats ?” mais plutôt “Que propose mon site ?”. Si votre entreprise est la spécialiste des clés à molette de 13 (version simple, version ronce de noyer, version cuir, etc.), n’essayez pas de positionner votre site sur le mot “outillage” où il y aura beaucoup trop de concurrence. Préférez vous concentrer sur l’expression “clé à molette de 13″ où il y aura beaucoup moins de prétendants.

    Concrètement, ca veut dire que la première phase d’un bon référencement consiste à trouver les mots qui caractérisent le mieux le contenu de votre site.

    La deuxième phase consiste à se positionner sur ces mots clés. Que veut dire se positionner sur un mot clé en pratique ? Ca consiste à le mettre dans son titre, dans son url, à inciter des amis à faire des liens vers votre site en mettant ce mot clé dans la description, etc. De la même façon que dans la vie réelle, si vous ouvriez un magasin, vous choisiriez une enseigne qui se voit de loin et qui permette d’identifier vite votre secteur d’activité.

    Je rentrerai davantage dans les détails sur ces sujets dans un prochain post.

    Néanmoins, comme je vois que vous restez sur votre faim, un petit conseil avant de finir : n’hésitez pas à vous inspirer des résultats qui marchent. Par exemple, le site www.tortue.com est le premier sur de nombreux moteurs de recherche sur la requête tortue et sur sa page d’accueil, il y a une grosse image de tortue, il y a forcément un lien.

    Donc n’hésitez pas à mettre des grosses images de tortue sur vos sites, cet exemple prouve manifestement que çà améliore le positionnement ;-)

    Sébastien, Directeur des Développements Web