Yahoo: Pages manquantes? (2)
Depuis que j'ai publié la première partie de cette étude, l'affaire des pages manquantes de Yahoo fait grand bruit. Google a annoncé que ses chercheurs ne croyaient pas aux chiffres annoncés par leur concurrent (voir ici), et une étude détaillée du NCSA (University of Illinois at Urbana-Champaign) semble confirmer de façon très claire le phénomène que je décrivais dans mon précédent billet: sur des requêtes qui retournent moins de 1000 pages, Google renvoie systématiquement plus de résultats que Yahoo, ce qui semble contredire le fait que son index serait deux fois et demie plus important que celui de Google. [23 août -- Le NCSA a émis de fortes réserves sur l'étude, et une nouvelle version a été publiée; voir version originale et détails]
Malheureusement l'étude des chercheurs du NCSA pêche par plusieurs aspects. Tout d'abord, comme je l'ai montré dans ma première partie, Yahoo indexe beaucoup moins profondément les documents longs. Par conséquent, même si Yahoo ne ment pas sur la taille de son index en nombre de documents, cela peut expliquer partiellement le plus petit nombre de documents retournés sur certaines requêtes. Le document est parfois bien dans la base, mais il n'est pas accessible par des mots clés qui n'apparaissent pas dans son début. C'est le cas par exemple du document "Depression and soul-loss" au format pdf, que retourne Google sur la requête inabilities hydrocephalic, mais que ne retourne pas Yahoo sur la même requête, bien qu'il soit dans sa base (ici).
On remarquera par exemple que sur la première requête utilisée par les chercheurs du NCSA, carbolization clambers, les seuls résultats ramenés par Google (et que ne ramène pas Yahoo) sont des pages consistant en de simples listes de mots -- dont la plupart semble être des copies du dictionnaire ispell lui-même.
Le document suivant est caractéristique:
Il est constitué par un fichier de 1,3 Mo, qui comporte 134175 mots et semble être une copie d'ispell. Il n'est pas retrouvé par Yahoo sur la même requête et il semble bien ne pas figurer dans la base de données de ce moteur. Par contre, la base de données Yahoo contient cinq autres documents (apparemment identiques) que ne contient pas Google (via la requête wspears dictionary site:www.cs.uwyo.edu):
- http://www.cs.uwyo.edu/~wspears/courses/CS3020/Fall04/dictionary
- http://www.cs.uwyo.edu/~wspears/courses/CS3020/Spring04/dictionary
- http://www.cs.uwyo.edu/~wspears/courses/CS3020/Spring02/dictionary
- http://www.cs.uwyo.edu/~wspears/courses/CS3020/Fall02/dictionary
- http://www.cs.uwyo.edu/~wspears/courses/CS3020/Spring03/dictionary
Le lecteur pourra consulter la liste de requêtes fournies par les auteurs, et pourra vérifier que, dans une écrasante majorité des cas retenus (c'est-à-dire ceux ramenant moins de 1000 résultats), les résultats en question sont des listes et du spam. Les requêtes qui échapperaient à cette règle comme cultist email ont justement été éliminées par les auteurs parce qu'elles retournent plus de 1000 résultats.
En procédant ainsi, les chercheurs du NCSA n'ont démontré qu'une chose: la capacité supérieure de Google à indexer des listes de mots dont le dictionnaire ispell, et du spam. Ils n'ont en aucun cas apporté la preuve que l'index de Yahoo serait plus petit (en nombre de documents indexés) que celui de Google.
Bien au contraire, si l'on regarde les même sites que ceux où Yahoo "oublie" les copies d'ispell, on s'aperçoit qu'il indexe généralement beaucoup plus de documents pertinents que son concurrent. Par exemple, sur le site www.cs.uwyo.edu mentionné précédemment, Yahoo annonce 1630 résultats pour la requête wspears site:www.cs.uwyo.edu, et j'ai vérifié que les 1000 premiers existent bien. Google n'en retourne que 289 (dont 249 en omettant les "résultats similaires"). En fait à partir du 200ème environ, il s'agit de simples URLs dont le contenu n'est pas indexé, alors que les 1000 premiers de Yahoo sont indexés. On a un facteur 5 en faveur de Yahoo...
The study operates under two working assumptions. The first is that both the Yahoo! and the Google search engine return all the results that match the particular keywords and does not do any filtering beyond removing duplicate results.C'est justement là que le bât blesse, car tout indique que ces conditions ne sont pas respectées. Je montrerai dans la troisième partie de cette article que ce problème finit d'invalider l'étude des chercheurs du NCSA, et des études du même type.
Post-Scriptum
18 août -- De façon très intéressante, les auteurs viennent de réviser leur texte et d'enlever la partie "and does not do any filtering beyond removing duplicate results"... [merci à Serge Courrier qui vient de me signaler cette modif]
Lire la suite
- 18 aoû - Yahoo: Pages manquantes? (3)
Libellés : Yahoo
7 Commentaires:
Effectivement cette étude est une pure abhération.
Dans mon cas, en utilisant des requêtes comportant un seul mot, ou des noms composés de petit village entre guillemet, en français pour évitez le spam des sites de B&B et des portails verticaux de tourisme, j'arrive à environ de 25 à 35% de résultats de plus sur Yahoo!
http://inlogicalbearer.blogspot.com/2005/08/yahoo-index-size-25-to-35-bigger-than.html
Concernant la requéte wspears site:www.cs.uwyo.edu,
Si l'idée d'une tel requéte est de trouver le contact William Spears, on le trouve sur le premier lien de Google, ce qui n'est pas le cas avec Yahoo.
oops non elle apparait chez Yahoo en 55ieme position.
http://www.langreiter.com/exec/yahoo-vs-google.html?q=wspears++site%3Awww.cs.uwyo.edu
Si l'idée d'une tel requéte est de trouver le contact William Spears... Dans ce cas on taperait plutôt:
william spears site:www.cs.uwyo.edu
La page perso de William Spears sort première chez les deux moteurs.
Mais l'évaluation de la pertinence est une autre histoire (difficile!). La question à laquelle j'essaie de répondre est celle de la taille d'index: mensonge ou pas.
comment une étude, qualifiée de détaillée, de surcroit faite par une université (University of Illinois at Urbana-Champaign) peut elle être aussi biaisée ??? C'est dingue non ??!!!
Et pas UNE université, Vicnent 31415, le NCSA de l'UIUC est une légende du Web : inventeur du premier navigateur graphique (Mosaïc) et du premier serveur HTTP, rien que ça ! Comme quoi tout le monde peut se tromper... surtout en allant un peu trop vite. Ou tout simplement ils sont plus forts en super-calcul (leur spécialité quand même) qu'en évidences linguistiques...
Bonjour,
L'auteur de de ce blog, Infothought, http://sethf.com/infothought/blog/archives/000899.html remarque aussi "l'erreur méthodologique" relative aux listes de mots. Par contre, selon Slashdot ce problème de liste de mots n'a que peu d'impact et les conclusions de l'étude leur semblent exactes. http://slashdot.org/comments.pl?sid=159082&cid=13323888
Mais pourquoi donc l'index de Yahoo! "contiendrait " l'index de Google ? ;-)
Au-delà de la taille des index traitée ici, je me réjouis, en tant que veilleur notamment, que Yahoo! ne retourne pas toujours les mêmes résultats que Google. Les 2 index se chevauchent de moins en moins et obtenir davantage de résultats uniques enrichit les découvertes. Idem pour AskJeeves, sur lequel j'avais un à priori de résultats essentiellement américains. Ils dominent , il est vrai, mais les résultats francophones sont très souvent "uniques" par rapport à Google ou Yahoo! Search.
Jux 2 était un outil qui montrait assez bien en "live" ce phénomène de résultats uniques ou sinon de résultats présents pour un moteur sur sa 1ere page, pour l'autre sur sa 9ème. Dogpile propose une approche un peu semblable mais moins puissante. http://influx.joueb.com/news/152.shtml
Reste GahooYoogle http://www.gahooyoogle.com
Alors, même si l'index de Yahoo! est finalement moins important qu'annoncé, mes recherches quotidiennes et celle de mon équipe prouve que ce moteur apporte des résultats notablement différents voire supérieures qualitativement et quantitativement sur certains secteurs. Je parle ici davantage de veille technologique ou scientifique que de recherches grand public du type "voyages" ou "immobilier".
En tout les cas, l'objectif semble atteint pour Yahoo! A partir d'un simple post sur son blog en plein mois d'août et en pleine conférence SES, le buzz est énorme dans un monde Googlisé !
Christophe.
Resp. Veille Internet Digimind.
Enregistrer un commentaire