Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

dimanche, décembre 18, 2005

Moteurs: Liens ressuscités

Jerôme Charron a rebondi sur l'idée que le crawling est un art du compromis (en commentaire sur mon dernier billet, puis sur le blog Motrech). Remarques très intéressantes, à lire! Mais Jerôme va plus loin: surpris par mes résultats, il relance l'expérience sur Google avec son propre ensemble de requêtes, et obtient bien moins de liens morts. J'étais en déplacement quand j'ai vu ses résultats; je n'avais pas mes données sous la main, mais cela m'a tracassé: bug (toujours possible!) dans mes scripts? différents réglages de nos requêtes (j'ai limité aux parges francophones avec SafeSearch, pas Jérôme), différence de time-out? Problèmes de proxy?

Aussitôt rentré, j'ai examiné mes résultats en détail, et ma surprise a été assez grande: aucune de ces hypothèses n'était la bonne. Le coupable était Amazon! Pour une raison inderterminée, www.amazon.fr renvoyait un code d'erreur au moment où j'ai lancé mon expérience, la semaine dernière, et comme c'est un des sites les plus retournés par les requêtes sur Google, ce problème a eu un impact dramatique sur les résultats: sur les 26 erreurs que j'avais comptabilisées concernant Google, 17 étaient dues au seul site www.amazon.fr! Même chose chez Yahoo: 23 erreurs sur 33. Pour les autres moteurs, l'impact était plus limité: il y a visiblement des stratégies d'alliances commerciales différentes chez les uns et chez les autres...

Aujourd'hui, les mêmes URL chez Amazon répondent... J'ai donc relancé mes requêtes et voici les nouveaux résultats (sont toujours comptabilisés comme erreurs les codes HTTP 4xx et 5xx). Google et Yahoo passent en tête, le reste est quasiment inchangé.



Je faisais part l'autre jour de ma surprise de voir MSN et Voila en tête. Le nouveau diagramme correspond bien plus à mon intuition initiale. Pour autant, cette estimation est-elle meilleure? Ce n'est pas si évident: après tout, la situation de l'autre jour a bien existé, et un internaute qui aurait interrogé les moteurs à ce moment précis aurait eu un taux d'erreurs bien plus élevé chez Google et Yahoo. Le tout est de savoir si de tels incidents ont des chances d'apparaître fréquemment. Si l'on regarde la distribution des domaines des différentes URL uniques de mon enquête, on s'aperçoit qu'ils ont un comportement en loi de puissance, comme beaucoup de choses sur le Web:


Quelques domaines se taillent la part du lion dans les résultats. Amazon n'est que second. Le site le plus cité est Wikipedia. On trouve ensuite des sites de pages personnelles (Wanadoo, Lycos, Chez) , des sites spécialisés (Allocine, Doctissimo), des sites de forums (Aceboard), etc. Lorsque des problèmes affectent les sites de la queue de la distribution, l'incidence globable est négligeable; par contre lorsqu'un site de tête est touché, l'incidence sur les résultats est très importante. Bien sûr, on peut penser que le taux d'incidents est faible sur les sites très populaires, mais il n'est certainement pas nul (et Wikipedia a justement connu bien des difficultés, même si la situation semble s'être considérablement améliorée depuis quelque temps).

Globalement, l'instabilité des résultats est plus grande que ce à quoi je m'attendais. Même en ne comptant pas le cas Amazon, près du quart des URL mortes dans ma deuxième expérience étaient vivantes l'autre jour, et inversement près du quart des URL mortes l'autre jour se sont réveillées:


[URL uniques hors Amazon.fr]

Tout ceci montre la difficulté de l'exercice... Pour estimer de façon sérieuse la proportion de liens morts dans les résultats, il faudrait faire une moyenne sur un nombre suffisant de relevés à quelques jours d'intervalle. Mais entre temps, les résultats retournés par les moteurs changeraient: il faudrait donc relancer tout le processus de requête à chaque fois (ce que je n'ai pas fait ici: j'ai conservé les résultats retournés l'autre jour).

En tous cas, merci à Jérôme de nous avoir donné l'occasion de réfléchir au problème (et en plus j'ai un bien bel exemple pour expliquer à mes étudiants la difficulté de l'estimation lorsque les événements ne sont pas aussi indépendants qu'on croit et lorsque les distributions sous-jacentes sont extrêmement asymétriques!).

Libellés :


9 Commentaires:

Anonymous Anonyme a écrit...

Des liens "morts" ? Certes, vous en donnez la définition : somme des url renvoyant un code d'erreur 4xx ou 5xx. Le choix du mot est-il bien pertinent ?

Une erreur m'agace, la 500 : Internal server error. J'en ai en gros 1%. Systématiquement je clique le bouton "Actualiser" ; et presque toujours la page s'affiche ; c'était juste un bit qui avait mal tourné !

Le serveur qui ne réponds pas ? Celui du ministère des finances me fait couramment le coup (en intranet). Le jour où il sera réellement mort, nous ne serons plus payés ;-(

Reste la fameuse 404 : Page not found.
Vendredi dernier, sur typepad.com (un hébergeur de blogs), la dernière semaine avait disparu pour 2 blogs que je visite régulièrement. Ce matin, tout est rentré dans l'ordre ; ils n'étaient pas morts, juste en réa (de leur disque dur).

Il existe bien des liens morts ; de deux sortes.
- les pages mortes (voire les sites). Effacées par leur auteur ; parfois leur fantôme rode sur les sites d'archivage du Web. Quelle est l'espérance de vie d'une page ?
- les pages "déménagées". Par réorganisation du site, archivage ... On peut les retrouver (pas toujours facilement) en repartant de la page d'accueil du site.

La statistique est la science du flou.

19 décembre, 2005 12:44  
Anonymous Anonyme a écrit...

Bonjour,

Tout d'abord bravo pour vos commentaires toujours tres pertinents dans leur impertinence.
J'avais une question de méthode :
Quels sont les liens testés ?
Tous les liens réponses à une requete ? seulement les 10 premiers ?
Dans tous les cas, n'avons nous pas envie de séparer le fait que le premier resultat soit mort du fait que ce soit le 10eme qui soit mort ?

19 décembre, 2005 14:42  
Anonymous Anonyme a écrit...

L'esprit de l'escalier ... Il me semblait bizare que des sites puissent apparaitre avec une fréquence si élevée ; juste bizare. Un moment me vint l'idée que les requêtes d'un groupe d'étudiants puisse ne concerner qu'un sous-ensemble restreint du domaine de la connaissance.
Puis l'illumination : votre échantillon de sites est complètement biaisé ! Et pour qu'un statisticien mette 3 heures à découvrir un biais, faut qu'il soit subtil :o)

La probabilité qu'un site soit cité est égale au nombre de pages qu'il contient sur le nombre total de pages indexées (20 milliards ?). Wikipedia a 10.6 millon de pages selon Google, 1.4 selon Yahoo ; Chez en a 3.8 selon G, 9.8 selon Y . A la casserole (la louche ne contenant pas l'approximation), les sites que vous citez devrait se trouver 1 ou 2 fois parmi les 4200 liens ; 5 pour celui se situant à 3 écarts-type au dessus de sa proba moyenne ; Pas 50 fois.

Vous ne voyez pas ce que nous (vous et moi) venons de découvrir ?
La valeur du coefficient multiplicateur du PageRank !!! Un des gros secrets commerciaux des moteurs.
Parceque vous prenez les 10 premiers résultats sur des requêtes en donnant des milliers (millons parfois). Choisiriez-vous les résultats de 51 à 60, ces sites seraient moins présents (absents ?) et vous n'auriez plus cette instabilité.

Toutefois la meilleure solution consiste à passer des requêtes apparement farfelues, ramenant moins de 1000 pages (idéalement moins de 50). Si Amazon et Wikipedia ne sont pas dans l'ensemble des réponses, ils ne pouront pas être remontés dans les 10 premiers.

Sur {kennedy confiture} on a moins de 1000 réponses.
Et Google a www.jfk-fr.com en 10 ; damned ! Yahoo ne le connait plus ; ouf.

La correspondance entre les 2 moteurs me semble encore plus faible, mais à la main, ce n'est pas çà.

PS: pour les sites en "réa" vendredi sur typepad.com, j'en ai repéré un autre : Affordance :-(

19 décembre, 2005 17:31  
Blogger Jean Véronis a écrit...

Pilou> choix du terme "lien mort" -- oui, on peut discuter: la preuve, il y a des liens morts qui ressuscitent. Pour diminuer les problèmes temporaires, mon scripts fait plusieurs essai avec un intervalle avant de déclarer que le serveur ne répond pas.

19 décembre, 2005 18:11  
Blogger Jean Véronis a écrit...

Sébastien> J'ai décrit plus en détail la méthode dans le premier billet de cette mini série: ici.

Les liens considérés ici sont les 10 premières réponses à une requête. J'ai regardé aussi ce que donnait le premier résultat, mais j'ai trop peu de données pour en tirer grand chose de significatif. Il faudrait faire l'étude non pas avec 70 requêtes, mais avec plusieurs centaines...

19 décembre, 2005 18:16  
Anonymous Anonyme a écrit...

Bonjour,
Pour continuer les questions de "méthode" lancées par Sébastien, je me demandais quels sont les types de requêtes utilisées pour cette étude? S'agit-il de phrases en langue naturelle, de mots clés, de liste de mots clés? Serait-il possible d'avoir un petit exemple? Ma question est en fait suscitée par la mention de "Doctissimo" comme site spécialisé revenant fréquemment en réponse à certaines requêtes, relevant du domaine de la santé je suppose (ou pas spécialement?). Une étude des sites les plus fréquemments retournés par les moteurs en fonction du domaine ciblé par les requêtes me parait intéressant. Peut-être aurai-je le temps de me pencher là-dessus pendant les vacances...

21 décembre, 2005 09:34  
Blogger Jean Véronis a écrit...

Aurélie> Les 14 domaines choisis sont:

actualites
animaux
cinema
divertissements
histoire
litterature
musique
nature
personnages
politique
sante
sport
surnaturel
voyages

Chaque thème était attribué à un étudiant différent, qui choisissait 5 requêtes à sa façon, c'est-à-dire comme il interrogerait normalement le moteur de recherche. Cela me paraissait important, de façon à avoir un panel diversifié (si ce n'est représentatif...) des pratiques des utilisateurs.

Par exemple pour "santé", les requêtes choisies par l'étudiante concernée étaient:

Obesite jeunes adolescents
"Grippe aviaire"
cholesterol
euthanasie
conseils "arreter de fumer"

Quand on aura fini, je ferai un texte avec tous les détails. Pour l'instant on a le nez dans le guidon...

21 décembre, 2005 10:19  
Anonymous Anonyme a écrit...

Jean> merci pour ces précisions!

21 décembre, 2005 11:18  
Anonymous Anonyme a écrit...

c'est clair que je remarque de plus en plsu d'erreur dans google, dans yahoo je te raconte meme pas, mais le pire c 'est dans les pages en caches, maintenant une fois sur 2 t'as plus rien du tout, je crois que la nouvelle revolution sur google a interet a etre plutot portés sur ce probleme

27 décembre, 2005 21:41  

Enregistrer un commentaire