Yahoo: Pages manquantes? (1)
A la suite de la publication de la nouvelle taille d'index de Yahoo (près de 20 milliards de pages), divers internautes ont noté que quelque chose ne va pas dans les comptes... Dans un commentaire sur mon billet précédent, Béatrice Foenix-Riou, (rédac-chef de Bases-Publications) observe par exemple que si l'on tape la requête "azoïque", Yahoo nous promet 2380 résultats, mais que ce chiffre diminue au fur et à mesure qu'on progresse dans les pages de résultats. Au final, on n'en obtient que 329...
Yahoo nous dit : "Afin de ne vous montrer que les résultats les plus pertinents, nous avons omis certains résultats très similaires à ceux déjà affichés. Pour voir l'ensemble des résultats, vous pouvez relancer la recherche en y incluant les résultats occultés." Google offre un mécanisme comparable. Comme de nombreux sites ont des doublons de documents ou des quasi-doublons, cela paraît être une bonne idée... Le problème que note Béatrice, c'est que même en cliquant sur "Relancer la recherche", on n'obtient que 576 résultats. Elle demande à juste titre où sont passées les pages manquantes (1804, tout de même!)...
Sur la même requête, Google renvoie 360 résultats dé-doublonnés, et 623 après avoir relancé la recherche aux pages à contenu similaire, donc dans les deux cas, plus que Yahoo, malgré une taille d'index auto-proclamée inférieure à la moitié. Charlene Li de Forrester Research me signale le même problème (elle développe ici), et Aki nous livre une analyse détaillée sur son blog) . La conclusion qu'en tirent certains commentateurs est que Yahoo nous "bidonnerait" à son tour...
Je n'ai aucune complaisance vis-à-vis de Yahoo, et on aura certainement noté le point d'interrogation dans le titre de mon billet annonçant l'augmentation de son index ;-) Je me suis d'ailleurs posé des questions dès le mois de mars lorsque Yahoo a doublé ses comptes du jour au lendemain de façon inexplicablement parfaite [ici]... Je serais donc le premier à dénoncer le flagrant délit de bidonnage si j'avais une preuve solide. Or, je ne crois pas que l'on puisse se baser sur ces observations pour affirmer que Yahoo nous ment sur la taille de son index.
C'est particulièrement visible sur les fichiers pdf (thèses, rapports, etc.) qui peuvent faire plusieurs centaines de pages. Il est manifeste que Yahoo indexe une partie bien plus petite des documents que Google. J'en veux pour preuve l'exemple suivant. La requête "azoïque" suggérée par Béatrice retourne avec Google un document pdf très pertinent, une thèse de chimie organique de l'école Polytechnique. Ce document n'est pas retourné par Yahoo sur la même requête. Or, il existe dans la base Yahoo, comme le montre cette requête sur son titre: "Principes de chimie radicalaire".
Le seul problème c'est que le mot apparaît la première fois à la page 16, au bout de 15 200 caractères seulement, mais Yahoo ne l'a pas indexé. Google, lui ne cale que vers la page 68 (il ne trouve pas glycinate à la page 69 mais trouve chlorosuccinimide à la page 68, qui se trouve à 86 600 caractères du début...). Cela se voit très bien sur la version HTML en cache.
Cela explique sans doute que même si Yahoo a repertorié globalement plus de documents pdf que Google, il en retrouve moins sur une requête donnée comme "azoïque". Dans ce cas précis, Yahoo ne retrouve que 77 documents pdf contenant ce mot (sans redondance) contre 124 pour Google. Il en va sans doute de même avec les fichiers .doc, .ppt, etc.
Si l'on exclut les fichiers pdf, Yahoo ramène autant de documents que Google et même un peu plus :
Yahoo | Y/G | ||
---|---|---|---|
124 | 77 | 62% | |
autres | 236 | 254 | 108% |
Total | 360 | 331 | 92% |
Requête Azoïque - Sans redondance
Yahoo | Y/G | ||
---|---|---|---|
182 | 119 | 65% | |
autres | 441 | 467 | 106% |
Total | 623 | 586 | 94% |
Requête Azoïque - Avec redondance
Tout ce que nous pouvons affirmer jusqu'ici c'est que Yahoo indexe moins bien les fichiers pdf que Google. Nous ne pouvons pas en conclure qu'il nous mentirait sur la taille de son index en nombre de documents. Nous ne pouvons pas non plus, bien évidemment, confirmer cette taille ;-)
Lire la suite
- 16 aoû - Yahoo: Pages manquantes? (2)
- 18 aoû - Yahoo: Pages manquantes? (3)
Libellés : Yahoo
5 Commentaires:
Interesting experiment.
I was curious how you arrived at the breakouts for html and pdf. I get the same total results as you but 88 + 124 != 360 and I see more html and pdf results than you list for Google.
Anonymous> I used the "html" file format option in Yahoo advanced search and "blabla filetype:html" in Google. I assumed that the difference came from other filetypes (doc, txt, etc.), but in fact these are marginal.
Your comment prompted me to check what was going on, and it turns out that Yahoo and Google have a different behaviour with respect to the html filetype. Google returns only pages that have .html or .htm in their filename, whereas Yahoo returns all pages that are html, irrespective of their filename, such as pages generated by php processors. The difference is obvious with the entry for "azoique" in Wikipedia, which is not returned by Google when the search is restricted to html pages, whereas it is returned by Yahoo.
I modified the tables to take this into account. Many thanks for the remark!
Conclusion : Google est plus utile pour les usages scientifiques, les textes scientifiques étant bien plus fréquemment publiés sous forme pdf
Bonjour,
j'ai fait un petit test qui permet d'avoir une estimation du nombre de pages indexées par les sites de recherhe (dumoins je le pense).
Pour cela j'ai fait une recherche sur le mot 'a' qui est très largement répertorié aussi bien sur les sites fancais qu'anglophones.
Enfin j'ai les résultats suivants:
sur Google : 23 900 000 000 réponses
sur Yahoo : 7 870 000 000 réponses (on est loin des 20 millirads estimés)
ces résultats peuvent-il servir pour effectuer une estimation de la taille d'index ou serait-ce une erreur de les considérer en tant que tel?
Vincent> Hélas, les mots très fréquents comme 'a' ne sont pas intégralement indexés par les moteurs de recherches. La place requise serait gigantesque. A partir d'une indeaxation d'un sous-ensemble de pages très partiel, les moteurs nous retournent des estimations comme celles que vous mentionnez, mais ce ne sont que des estimations, et elles peuvent être buguées et/ou bidonnées. J'avais fait une série de billets sur ça l'an dernier (par exemple ici).
Enregistrer un commentaire