Moteurs: Liens morts-vivants [Technologies du Langage]

jeudi, décembre 15, 2005

Moteurs: Liens morts-vivants

Il me semble qu'il y a quelques années, les moteurs retournaient plus souvent des liens morts dans leurs résultats de requêtes. Ces temps-ci, cela arrive encore, mais c'est bien rare... Pour en avoir le coeur net, j'ai vérifié les 4200 résultats retournés par les 70 requêtes sur les six moteurs que je suis en train d'analyser avec mes étudiants [voir début de l'enquête: 1 et 2], et effectivement, cette impression se confirme: pas plus de quelques pourcents d'erreurs (codes d'erreur 4xx, dont le célèbre 404, "Page not found", et 5xx). La situation est toutefois assez différente selon les moteurs, puisque le taux d'erreurs varie du simple au triple, comme le montre le diagramme suivant:

J'avoue que je ne m'attendais pas à ce classement. On voit que le leader, Google, est dans une bonne moyenne (3,7%), avec son challenger immédiat Yahoo (4,7%). Les meilleurs sont MSN et Voila (contre toute attente, étant donné l'état de relatif abandon de ce dernier que je dénonçais dans un précédent billet), avec 1,9% d'erreurs. Exalead et Dir sont moins bons, avec respectivement 6,1% et 6,6% d'erreurs: en gros un lien mort pour chaque écran et demi de résultats, mais ça n'est pas, somme toute, catastrophique (surtout avec des moyens bien plus limités que les "grands").

Ces écarts révèlent sans doute des stratégies différentes de crawling (et notamment la fréquence de rafraîchissement). La position relativement moyenne de Google et Yahoo peut sans doute s'expliquer par le fait que leurs bases sont de loin les plus importantes à l'heure actuelle, et qu'elles sont évidemment plus difficiles à maintenir. Tout l'art du crawl consiste à trouver un compromis acceptable entre la fréquence de rafraîchissement et les ressources informatiques disponibles...

De toutes façons, le 0% d'erreurs est impossible à obtenir: il y aura toujours ici ou là un serveur en panne ou un problème réseau quelconque, même si la page existe toujours. De plus, Philippe Develter (Dir.com) me fait remarquer qu'il n'est pas inintéressant de conserver des pages qui retournent une erreur 404 puisque les liens morts sont toujours vivants dans le cache et que l'information en question est même datée: les moteurs jouent quelque peu le rôle de mini Wayback Machines. Je reconnais que j'utilise moi-même cette fonctionnalité assez souvent. Donc, c'est peut-être paradoxal, mais le nombre de liens morts n'est peut-être pas un bon indicateur de qualité!

14 Commentaires:

Anonyme a écrit...: Bonjour
La lecture de votre blog est décidemment passionnante! Il semble en effet que le nombre de liens morts soit une conséquence immédiate de la fréquence de rafraichissement des moteurs. A ce propos, a-t-on une idée de la durée de vie moyenne d'une page web? Vous pourriez l'estimer à partir de vos résultats si vous connaissiez les dites "fréquences"! Quelle loi suit la durée de vie d'un lien?
Au plaisir de vous lire (et relire); 15 décembre, 2005 09:35
Anonyme a écrit...: Pour le faible taux de liens morts de Voila j'ai peut être une explication : Voila retourne dans ses résultats un mix de ses résultats moteurs (des pages individuelles donc) et annuaire (des domaines). Hors les noms de domaines ont une durée de vie plus longue que les pages individuelles et retournent donc moins d'erreurs 404.; 15 décembre, 2005 09:38
Anonyme a écrit...: J'avais lu récemment une étude Peer Factor sur le sujet des pages en erreur 404 dans les index des moteurs.

Figurez vous que la page en question est maintenant en ... erreur 404.

Mais toujours disponible dans le cache de Google; 15 décembre, 2005 12:23
Anonyme a écrit...: Bonjour,
Il semble y avoir un léger problème de copier/coller dans votre texte, au passage :
"puisqu'on peut les liens mots sont toujours vivants dans le cache".
Cdt; 15 décembre, 2005 12:31
TOMHTML a écrit...: J'allais dire la même chose que Sébastien Billard, en effet le résultat pour Voila ne me surprend pas ;)

N'empêche, au maximum 6% de 404, c'est pas mal comparé à il y a quelques années, où je me souviens surtout de Hotbot (si si, souvenez vous !) qui renvoyait une fois sur deux une page d'erreur...

PS pour toi, fidèle lecteur d'Aixtal : n'hésite pas à voter pour ce blog sur Blogsdelannee.com !; 15 décembre, 2005 13:49
J2J2 a écrit...: Jean, tu viens de mettre les pieds dans un sujet, qui contrairement aux idées reçues est assez complexe: le crawling.

Le crawling, est un art délicat de compromis:

1. Compromis de politesse: ne pas lancer trop de requêtes simultanées vers un même serveur, et respecter un temps minimum entre chaque salve de requêtes (sans quoi votre téléphone va très rapidement se mettre à sonner).

2. Compromis de planification: Adapter la fréquence de crawl d'un site en fonction de sa fréquence de mise à jour, sans pour autant ne repasser qu'une fois tous les ans sur un site qui est rarement modifié.

3. Compromis de défense: Eviter les pièges (redirections infinies, fichiers de taille infinies, liens infinis), tout en ne passant pas à côté de choses "intéressantes"

4. ...

[Viennent ensuite de nombreux autres compromis permettant de pallier à la fois la mauvaise configuration des serveurs HTTP (et ils sont nombreux) afin de tout simplement détecter le type d'un fichier par exemple (ce qui permet d'appeler le parseur adéquate), etc... mais ce n'est plus une affaire de crawling]

Bref, un moteur de recherche, d'un point de vue technologique, ce n'est pas si simple. Et les chiffres donnés ici me semblent plutôt honorables.

Il serait cependant intéressant de voir dans ce billet:
1. la répartition des liens morts de chaque moteur en fonction de code de retour HTTP (4xx, 5xx).
2. De mentionner quels sont les codes de retour comptabilisés comme des erreurs.

Enfin il est à noter également que dans les liens non-morts se glissent un certain nombre de liens réellement mort-vivants: Des pages ne contenant qu'un simple message "Cette page n'existent pas", ou bien "Ressource non trouvée" mais qui ont la mauvaise idée de ne pas être associé à un code d'erreur 404, mais à un code de succès 200. Dans une telle situation le crawler ne peut rien faire. C'est indétectable d'un point de vue protocolaire (analyse linguistique vas tu me dire? Pourquoi pas, mais ce n'est pas l'affaire du crawler)!

La période des fêtes de noël te rendrait-elle plus "coolant" Jean?
Parce que voir les liens morts comme une fonctionnalité: très fort!

;-); 15 décembre, 2005 15:04
Jean Véronis a écrit...: Merci Aurelien, j'ai corrige le bug de copier-coller. Et merci a tous: vos commentaires sont passionnants aussi. Je suis dans de mauvaises conditions pour repondre: je suis en deplacement, mon portable est kaput et je squatte l,ordinateur de l'hotel avec un clavier QWERTZ a peu pres impraticable... Mais je vous lis avec interet, je repondrai dimanche (jerome, des commentaires aussi longs, il faut les garder comme billets sur le blog motrech! ;-); 15 décembre, 2005 17:33
J2J2 a écrit...: Oui, je sais Jean, mais en ce moment je n'ai vraiment pas le temps... un commentaire reste plus rapide qu'un billet à rédiger...; 15 décembre, 2005 18:01
Anonyme a écrit...: Bonjour,

"Le crawling, est un art délicat de compromis"
je confirme tout à fait.
Quand je me suis "attaqué" à ce problème il y a 4 ans dèjà ! les considérations portaient sur le nombre de machines, et la bande passante ...
depuis je me suis rendu compte que le nombre
de pages sur la toile est quasiment infini étant donné le nombre de "pièges à robots" volontaire ou la pluspart du temps involontare qui s'y niche ...
Philippe.; 16 décembre, 2005 10:38
Anonyme a écrit...: Bonjour,
http://affordance.typepad.com/mon_weblog/2005/12/loi_du_march_et.html
j'ai toruvé ce lien juste au dessous de votre dernier message : et bing
404
c'est sans doute une blague ;)
j'apprécie beuacoup votre site, et le visite à chaque nouveauté!
cordialement,
Ceci dit j'aurais aimé voir ce qu'il y avait derrière ce titre Loi du Marché et loi d'inertie
Philippe; 16 décembre, 2005 16:26
J2J2 a écrit...: Voilà Jean, c'est chose faite... "Liens morts-vivants: Ca diverge dur!; 17 décembre, 2005 01:49
Anonyme a écrit...: On n'entend plus parler d'Altavista, qui était je crois un moteur réputé à l'époque (c'était du moins au départ mon moteur préféré quand j'ai découvert Internet en 1997).

J'attends avec impatience une éventuelle analyse plus poussée des différents moteurs !; 17 décembre, 2005 05:40
Anonyme a écrit...: Au fou !!!
Vous voulez réduire les liens brisés dans les résultats renvoyés par les moteurs de recherches ? Mais c'est justement l'inverse qui m'intéresse !
J'utilise très souvent Google pour retrouver dans son cache un lien brisé qui m'a été donné par un autre site. Commence alors un exercice difficile consistant à trouver comment la page (dont je ne connais a priori que très mal le contenu, mise à part l'URL) peut-être obtenue par une requête Google !

Au dela de cette remarque "un peu" provocatrice, on peut vraiment regretter que la mise à jour des index supprime les liens inaccessibles. Il serait intéressant d'avoir une fonction permettant de conserver la référence de la page dans le cahce, en mentionnant toutefois que la page est connue comme inaccessible...

PS: croyez moi ou pas, le mot de contrôle que me propose tout de suite blogger pour vérifier que je ne suis pas un robot spammeur est "sarkozi": l'UMP aurait-elle également investi de ce côté ? ;-); 18 décembre, 2005 00:10
Anonyme a écrit...: L'étude Peer Factor que j'évoquais plus haut est disponible dans la newsletter de décembre de Moteurzine.

http://www.moteurzine.com/index.html#8; 27 décembre, 2005 15:38

Enregistrer un commentaire

A propos de l'auteur

Billets récents

Archives

Outils

Ma startup

Mes livres

jeudi, décembre 15, 2005

Moteurs: Liens morts-vivants

14 Commentaires:

Cherchez sur ce blog