Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

lundi, février 28, 2005

Web: MSN triche-t-il aussi ?



Il y a quelque temps, j'ai montré que Google "gonfle" le nombre de ses résultats par un facteur de 66%, ce qui explique des inconsistences étranges, et en particulier le fait que les pages semblent disparaître comme par enchantement. Quand on cherche des mots tels que alive, economist, focusing, etc. dans les pages anglaises seulement, on n'obtient que quelque 60% seulement des résultats que Google prétend avoir pour l'ensemble du Web, ce qui est évidemement impossible, sauf si on admet que ces mots sont aussi massivement non-anglais. Yahoo a un comportement bien plus raisonnable, et nous dit que 92% de ces mots apparaissent dans des pages en anglais. Google semble gonfler artificiellement les nombres de résultats pour les faire correspondre à la taille de son index principal combinée avec celle de son index supplémentaire, bien que, évidemment, celui ne contienne pas grand-chose (URL, titre, etc.) -- et en tous cas, pas ces mots anglais qui manquent désespérement à l'appel.

Voilà pour Google et Yahoo. Mais qu'en est-il de MSN ? Eh bien, il s'avère qu'il y a des choses bien étranges aussi.

J'ai utilisé la même liste de mots anglais que dans mon étude précédente (et les résultats ont été obtenus au même moment, le 6 février). Le diagramme ci-dessous montre les chiffres donnés par MSN sur les pages en anglais par rapport à ceux qu'il donne sur l'ensemble du Web (voir liste complète ici) :



La pente de la droite de régression indique que les résultats anglais représentent seulement 65% des résultats pour l'ensemble du Web. C'est un peu mieux que Google (56%), mais cela n'a toujours pas beaucoup de sens.

Pour le français, le diagramme est le suivant (voir les résultats complets ici) :



Ceci montre que seulement 75% des ces mots français sont situés dans des pages françaises (Yahoo donne 97% pour la même liste).

Est-ce que MSN a aussi un index supplémentaire comme Google ? ou bien ses résultats sont-ils simplement gonflés pour des raisons de marketing? Je n'ai pas assez d'information à l'instant présent sur l'architecture de MSN pour pouvoir trancher, mais peut-être que certains lecteurs auront des lumières (si c'est le cas, n'hésitez pas à commenter !).

Si nous faisons, en première approximation, confiance à Yahoo, nous pouvons déduire que l'index "véritable" (c'est-à-dire dans lesquels les mots de la page sont indexés) est seulement d'environ 0.65 / 0.92 = 71% de ce que MSN prétend, en se fiant au sondage sur les mots anglais, ou 0.75 / 0.97 = 77% avec la liste française.

En conclusion, il semble que l'index de MSN soit seulement d'environ 75% de la taille prétendue (quelle est-elle, au fait? ils ont annoncé 5 milliards de page avant le lancement, mais je ne me souviens pas d'avoir vu des chiffres plus précis ou plus récents). En conséquence, les résultats semblent gonflés d'un facteur de 33% (1 - 1/0.75).

Google : inflation de 66% ; MSN : inflation de 33%. Environ la moitié. Coïncidence ?

En tous cas, pour l'instant seuls les comptes de Yahoo semblent cohérents (devrais-je dire sincères ?). L'ironie de la chose est que Google a probablement gonflé ses comptes sous la pression de MSN qui annonçait 5 milliards de pages, mais il s'avère que MSN fait probablement la même chose. Poker menteur chez les moteurs ?

11 Commentaires:

Anonymous Anonyme a écrit...

A son tour, MSN ne fait pas l'économie d'une mesure de falsification de ses résultats ! Reste à entendre la voix des officiels de chacun de ces groupes pour confirmer, ou au moins donner quelques explications sur ces résultats plus qu'interrogateurs.

Erak !

01 mars, 2005 10:43  
Anonymous Gaetan a écrit...

Comment se fait le filtre sur "page anglaise uniquement" ?

Ne pourrait on pas penser que c'est ce filtre qui est défectueux et non que les résultats sont gonflés en mode "tout le web" ?

Dans ce cas, le moteur ne verrai pas certaines "pages anglaises" par un mauvais filtrage, et la proportion réelle serait bien plus grande que 66%.

Ainsi une page anglaise serait prise en mode "tout le web" mais pas en mode "pages anglaises" par une sélection défectueuse.

01 mars, 2005 11:11  
Anonymous bistouri a écrit...

mais qui ment moins que l'autre alors ? C'est une pratique qu'on retrouve chez d'autres moteurs de recherche ?

01 mars, 2005 15:02  
Anonymous anne a écrit...

OK Mais si les mots:
alive, economist, focusing sont dans des pages non anglaises?
ce qui ne serait pas aberrant, non?

04 mars, 2005 14:45  
Blogger Jean Véronis a écrit...

Anne :
>alive, economist, focusing sont dans des pages non anglaises?

A concurrence de 35% pour MSN et 44% pour Google ? Ca n'est guère crédible. Et on aurait une grosse dispersion parce que ça dépendrait évidemment des mots, au lieu du bel alignement qu'on observe.

Pour Yahoo 8% seulement de ces mots apparaissent dans des pages non-anglaises, ce qui me paraît être l'ordre de grandeur correct.

04 mars, 2005 17:27  
Blogger effisk a écrit...

excellente série d'articles. Un vrai polar, vivement la suite :)

12 avril, 2005 17:21  
Anonymous Eric a écrit...

Je ne sais pas si cela peut vous aider mais lors d'une recherche sur Google Image, les résultats semblent également surestimés lorsque l'on valide la recherche. Ensuite, à mesure que l'on fait défiler les pages de résultats, on s'aperçoit généralement que les dernières pages de résultats disparaissent...

21 avril, 2005 21:31  
Anonymous Thomas a écrit...

A mon avis, tu devrais soumettre cette question au site abondance.com, la référence en matière d'informations sur les moteurs de recherche. Même si il est possible comme l'indique Gaetan, que ce soit le filtre en Anglais qui soit défecteux (par exemple il "oublie" des pages vraiment en anglais), il est plus probable que les index sont gonflés. Une autre hypothèse est que, les index étant en perpétuel recalcul, des liens "anciens" sont indiqués dans le total, mais lorsque on clique vraiment sur les pages suivantes, Google se rend compte que les pages n'existent plus dans sa BDD complète et les élimine de la page de résultats??
Cela serait alors un retard de mise à jour d'une 2e base de données par rapport à une première.. Cela peut expliquer la disparition de 10% des liens mais surement pas 33% (le recalcul complet des classements se faisant sur un mois, 33% ca voudrait dire que le web se renouvelle à 1-(1¨-0.33)^3 = 70% en 3 mois !!)
Moi aussi il m'est arrivé souvent de voir pages 1-9 de résultats et arrivé au 65e résultat je constate que les dernières pages ont disparues!!

28 avril, 2005 10:29  
Anonymous Kelsurf a écrit...

Félicitations pour ces études ! c'est impressionnant....

il ne manque plus que le petit dernier ! Yahoo :)

05 août, 2005 18:23  
Anonymous Defaite a écrit...

Bonjour,

Je tiendrais à vous précisez une petite chose : Aucun moteur de recherche n'est réelement fiable à 100% c'est vrai. Néanmoins, il faut se rendre compte qu'il ne sont rémunérés que par des sociétés. Les utilisateurs personnels comme nous ne paye jamais un tel service. De plus, il faut savoir que la société Google possède une politique très correcte qui vise à gagner de l'argent seulement si les sociétés ont un rapport avec l'objet des recherches qui sont effectuées.

Et n'oubliez pas que pour la plupart des webmasters, ils mettent leurs sites à jour très souvent ce qu'un moteur de recherche ne peut se permettre de recenser toujours.

Cordialment. - Defaite -

06 octobre, 2005 14:32  
Anonymous Anonyme a écrit...

concernant ce dernier commentaire, il y a erreur, ce sont bien les visiteurs qui paient, puisqu'ils déterminent la vraie valeur que recherchent les sponsors.
plus les résultats d'un moteur sont bons,
plus il a de visite ( à corriger en fonction de la pub)
plus les annonceurs voudront payer.

15 juillet, 2006 17:05  

Enregistrer un commentaire