Yahoo: Pages manquantes? (2) [Technologies du Langage]

Depuis que j'ai publié la première partie de cette étude, l'affaire des pages manquantes de Yahoo fait grand bruit. Google a annoncé que ses chercheurs ne croyaient pas aux chiffres annoncés par leur concurrent (voir ici), et une étude détaillée du NCSA (University of Illinois at Urbana-Champaign) semble confirmer de façon très claire le phénomène que je décrivais dans mon précédent billet: sur des requêtes qui retournent moins de 1000 pages, Google renvoie systématiquement plus de résultats que Yahoo, ce qui semble contredire le fait que son index serait deux fois et demie plus important que celui de Google. [23 août -- Le NCSA a émis de fortes réserves sur l'étude, et une nouvelle version a été publiée; voir version originale et détails]

Malheureusement l'étude des chercheurs du NCSA pêche par plusieurs aspects. Tout d'abord, comme je l'ai montré dans ma première partie, Yahoo indexe beaucoup moins profondément les documents longs. Par conséquent, même si Yahoo ne ment pas sur la taille de son index en nombre de documents, cela peut expliquer partiellement le plus petit nombre de documents retournés sur certaines requêtes. Le document est parfois bien dans la base, mais il n'est pas accessible par des mots clés qui n'apparaissent pas dans son début. C'est le cas par exemple du document "Depression and soul-loss" au format pdf, que retourne Google sur la requête inabilities hydrocephalic, mais que ne retourne pas Yahoo sur la même requête, bien qu'il soit dans sa base (ici).

Toutefois, l'étude du NCSA contient une erreur méthodologique bien plus profonde, qui invalide totalement ses conclusions. Les auteurs ont tiré au sort des mots du dictionnaire informatique ispell et les ont présentés par couples aux deux moteurs de recherche. Cette façon de procéder conduit à une absurdité, car les chances que de vrais documents contiennent deux mots tirés au hasard dans un très gros dictionnaire sont à peu près nulles. Les chercheurs en question sont quasiment assurés de ramener une majorité d'artefacts (listes de mots et spam). Si l'un des deux moteurs en ramène moins, on ne peut que louer son mécanisme de filtrage, et en aucun cas extrapoler les chiffres obtenus à son comportement général et à la taille de son index.

On remarquera par exemple que sur la première requête utilisée par les chercheurs du NCSA, carbolization clambers, les seuls résultats ramenés par Google (et que ne ramène pas Yahoo) sont des pages consistant en de simples listes de mots -- dont la plupart semble être des copies du dictionnaire ispell lui-même.

Le document suivant est caractéristique:

http://www.cs.uwyo.edu/~wspears/courses/CS3020/Spring05/dictionary

Il est constitué par un fichier de 1,3 Mo, qui comporte 134175 mots et semble être une copie d'ispell. Il n'est pas retrouvé par Yahoo sur la même requête et il semble bien ne pas figurer dans la base de données de ce moteur. Par contre, la base de données Yahoo contient cinq autres documents (apparemment identiques) que ne contient pas Google (via la requête wspears dictionary site:www.cs.uwyo.edu):

Il est intéressant de noter que ces documents sont les seuls parmi les 29 retournés par ma requête à n'être pas indexés dans la base Yahoo, et que seule leur URL y figure. Soit Yahoo reconnaît, par exemple à travers un calcul de signature quelconque qu'il s'agit du dictionnaire ispell, soit il possède un filtre lui permettant de détecter les documents qui sont de simples listes de mots (ce n'est pas très compliqué à imaginer). C'est un comportement parfaitement intelligent, qui est à mettre au crédit du moteur!

Le lecteur pourra consulter la liste de requêtes fournies par les auteurs, et pourra vérifier que, dans une écrasante majorité des cas retenus (c'est-à-dire ceux ramenant moins de 1000 résultats), les résultats en question sont des listes et du spam. Les requêtes qui échapperaient à cette règle comme cultist email ont justement été éliminées par les auteurs parce qu'elles retournent plus de 1000 résultats.

En procédant ainsi, les chercheurs du NCSA n'ont démontré qu'une chose: la capacité supérieure de Google à indexer des listes de mots dont le dictionnaire ispell, et du spam. Ils n'ont en aucun cas apporté la preuve que l'index de Yahoo serait plus petit (en nombre de documents indexés) que celui de Google.

Bien au contraire, si l'on regarde les même sites que ceux où Yahoo "oublie" les copies d'ispell, on s'aperçoit qu'il indexe généralement beaucoup plus de documents pertinents que son concurrent. Par exemple, sur le site www.cs.uwyo.edu mentionné précédemment, Yahoo annonce 1630 résultats pour la requête wspears site:www.cs.uwyo.edu, et j'ai vérifié que les 1000 premiers existent bien. Google n'en retourne que 289 (dont 249 en omettant les "résultats similaires"). En fait à partir du 200ème environ, il s'agit de simples URLs dont le contenu n'est pas indexé, alors que les 1000 premiers de Yahoo sont indexés. On a un facteur 5 en faveur de Yahoo...

L'étude du NCSA contient un autre biais considérable, que les auteurs pressentent, puisqu'ils donnent prudemment leurs hypothèses de travail en début de leur article:

The study operates under two working assumptions. The first is that both the Yahoo! and the Google search engine return all the results that match the particular keywords and does not do any filtering beyond removing duplicate results.

C'est justement là que le bât blesse, car tout indique que ces conditions ne sont pas respectées. Je montrerai dans la troisième partie de cette article que ce problème finit d'invalider l'étude des chercheurs du NCSA, et des études du même type.

Post-Scriptum

18 août -- De façon très intéressante, les auteurs viennent de réviser leur texte et d'enlever la partie "and does not do any filtering beyond removing duplicate results"... [merci à Serge Courrier qui vient de me signaler cette modif]

18 aoû - Yahoo: Pages manquantes? (3)

Libellés : Yahoo

7 Commentaires:

Eric Baillargeon a écrit...: Effectivement cette étude est une pure abhération.

Dans mon cas, en utilisant des requêtes comportant un seul mot, ou des noms composés de petit village entre guillemet, en français pour évitez le spam des sites de B&B et des portails verticaux de tourisme, j'arrive à environ de 25 à 35% de résultats de plus sur Yahoo!

http://inlogicalbearer.blogspot.com/2005/08/yahoo-index-size-25-to-35-bigger-than.html; 16 août, 2005 17:28
Anonyme a écrit...: Concernant la requéte wspears site:www.cs.uwyo.edu,
Si l'idée d'une tel requéte est de trouver le contact William Spears, on le trouve sur le premier lien de Google, ce qui n'est pas le cas avec Yahoo.; 17 août, 2005 04:47
Anonyme a écrit...: oops non elle apparait chez Yahoo en 55ieme position.
http://www.langreiter.com/exec/yahoo-vs-google.html?q=wspears++site%3Awww.cs.uwyo.edu; 17 août, 2005 04:52
Jean Véronis a écrit...: Si l'idée d'une tel requéte est de trouver le contact William Spears... Dans ce cas on taperait plutôt:

william spears site:www.cs.uwyo.edu

La page perso de William Spears sort première chez les deux moteurs.

Mais l'évaluation de la pertinence est une autre histoire (difficile!). La question à laquelle j'essaie de répondre est celle de la taille d'index: mensonge ou pas.; 17 août, 2005 08:43
Vicnent a écrit...: comment une étude, qualifiée de détaillée, de surcroit faite par une université (University of Illinois at Urbana-Champaign) peut elle être aussi biaisée ??? C'est dingue non ??!!!; 17 août, 2005 09:43
Anonyme a écrit...: Et pas UNE université, Vicnent 31415, le NCSA de l'UIUC est une légende du Web : inventeur du premier navigateur graphique (Mosaïc) et du premier serveur HTTP, rien que ça ! Comme quoi tout le monde peut se tromper... surtout en allant un peu trop vite. Ou tout simplement ils sont plus forts en super-calcul (leur spécialité quand même) qu'en évidences linguistiques...; 17 août, 2005 17:01
Anonyme a écrit...: Bonjour,
L'auteur de de ce blog, Infothought, http://sethf.com/infothought/blog/archives/000899.html remarque aussi "l'erreur méthodologique" relative aux listes de mots. Par contre, selon Slashdot ce problème de liste de mots n'a que peu d'impact et les conclusions de l'étude leur semblent exactes. http://slashdot.org/comments.pl?sid=159082&cid=13323888
Mais pourquoi donc l'index de Yahoo! "contiendrait " l'index de Google ? ;-)
Au-delà de la taille des index traitée ici, je me réjouis, en tant que veilleur notamment, que Yahoo! ne retourne pas toujours les mêmes résultats que Google. Les 2 index se chevauchent de moins en moins et obtenir davantage de résultats uniques enrichit les découvertes. Idem pour AskJeeves, sur lequel j'avais un à priori de résultats essentiellement américains. Ils dominent , il est vrai, mais les résultats francophones sont très souvent "uniques" par rapport à Google ou Yahoo! Search.
Jux 2 était un outil qui montrait assez bien en "live" ce phénomène de résultats uniques ou sinon de résultats présents pour un moteur sur sa 1ere page, pour l'autre sur sa 9ème. Dogpile propose une approche un peu semblable mais moins puissante. http://influx.joueb.com/news/152.shtml
Reste GahooYoogle http://www.gahooyoogle.com
Alors, même si l'index de Yahoo! est finalement moins important qu'annoncé, mes recherches quotidiennes et celle de mon équipe prouve que ce moteur apporte des résultats notablement différents voire supérieures qualitativement et quantitativement sur certains secteurs. Je parle ici davantage de veille technologique ou scientifique que de recherches grand public du type "voyages" ou "immobilier".

En tout les cas, l'objectif semble atteint pour Yahoo! A partir d'un simple post sur son blog en plein mois d'août et en pleine conférence SES, le buzz est énorme dans un monde Googlisé !

Christophe.
Resp. Veille Internet Digimind.; 17 août, 2005 22:46

Enregistrer un commentaire

A propos de l'auteur

Billets récents

Archives

Outils

Ma startup

Mes livres

mardi, août 16, 2005

Yahoo: Pages manquantes? (2)

7 Commentaires:

Cherchez sur ce blog