Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

dimanche, août 14, 2005

Yahoo: Pages manquantes? (1)



A la suite de la publication de la nouvelle taille d'index de Yahoo (près de 20 milliards de pages), divers internautes ont noté que quelque chose ne va pas dans les comptes... Dans un commentaire sur mon billet précédent, Béatrice Foenix-Riou, (rédac-chef de Bases-Publications) observe par exemple que si l'on tape la requête "azoïque", Yahoo nous promet 2380 résultats, mais que ce chiffre diminue au fur et à mesure qu'on progresse dans les pages de résultats. Au final, on n'en obtient que 329...



Yahoo nous dit : "Afin de ne vous montrer que les résultats les plus pertinents, nous avons omis certains résultats très similaires à ceux déjà affichés. Pour voir l'ensemble des résultats, vous pouvez relancer la recherche en y incluant les résultats occultés." Google offre un mécanisme comparable. Comme de nombreux sites ont des doublons de documents ou des quasi-doublons, cela paraît être une bonne idée... Le problème que note Béatrice, c'est que même en cliquant sur "Relancer la recherche", on n'obtient que 576 résultats. Elle demande à juste titre où sont passées les pages manquantes (1804, tout de même!)...

Sur la même requête, Google renvoie 360 résultats dé-doublonnés, et 623 après avoir relancé la recherche aux pages à contenu similaire, donc dans les deux cas, plus que Yahoo, malgré une taille d'index auto-proclamée inférieure à la moitié. Charlene Li de Forrester Research me signale le même problème (elle développe ici), et Aki nous livre une analyse détaillée sur son blog) . La conclusion qu'en tirent certains commentateurs est que Yahoo nous "bidonnerait" à son tour...

Je n'ai aucune complaisance vis-à-vis de Yahoo, et on aura certainement noté le point d'interrogation dans le titre de mon billet annonçant l'augmentation de son index ;-) Je me suis d'ailleurs posé des questions dès le mois de mars lorsque Yahoo a doublé ses comptes du jour au lendemain de façon inexplicablement parfaite [ici]... Je serais donc le premier à dénoncer le flagrant délit de bidonnage si j'avais une preuve solide. Or, je ne crois pas que l'on puisse se baser sur ces observations pour affirmer que Yahoo nous ment sur la taille de son index.


Tout d'abord, une petite précision s'impose. La terminologie "taille d'index" est un peu ambigue. Lorsque Yahoo annonce fièrement qu'il indexe près de 20 milliards de pages ou documents, on ne sait pas combien il indexe de mots. Il peut paradoxalement en indexer moins qu'un moteur qui prétend indexer 8 milliards de pages. Or, ce sont des mots que tape l'internaute et qui sont son seul lien avec les pages... L'une des raisons fondamentales à cette différence est la "tranche" du document réellement indexée par le moteur. Le Web contient de très gros documents, et les moteurs limitent leur indexation à une partie, plus ou moins importante. Google avait une limite fameuse de 101 K, qui a été abolie en janvier 2005 [voir ici] -- mais on ne sait pas trop quelle est la nouvelle limite.

C'est particulièrement visible sur les fichiers pdf (thèses, rapports, etc.) qui peuvent faire plusieurs centaines de pages. Il est manifeste que Yahoo indexe une partie bien plus petite des documents que Google. J'en veux pour preuve l'exemple suivant. La requête "azoïque" suggérée par Béatrice retourne avec Google un document pdf très pertinent, une thèse de chimie organique de l'école Polytechnique. Ce document n'est pas retourné par Yahoo sur la même requête. Or, il existe dans la base Yahoo, comme le montre cette requête sur son titre: "Principes de chimie radicalaire".

Le seul problème c'est que le mot apparaît la première fois à la page 16, au bout de 15 200 caractères seulement, mais Yahoo ne l'a pas indexé. Google, lui ne cale que vers la page 68 (il ne trouve pas glycinate à la page 69 mais trouve chlorosuccinimide à la page 68, qui se trouve à 86 600 caractères du début...). Cela se voit très bien sur la version HTML en cache.

Cela explique sans doute que même si Yahoo a repertorié globalement plus de documents pdf que Google, il en retrouve moins sur une requête donnée comme "azoïque". Dans ce cas précis, Yahoo ne retrouve que 77 documents pdf contenant ce mot (sans redondance) contre 124 pour Google. Il en va sans doute de même avec les fichiers .doc, .ppt, etc.

Si l'on exclut les fichiers pdf, Yahoo ramène autant de documents que Google et même un peu plus :


GoogleYahooY/G
pdf1247762%
autres236254108%
Total 36033192%

Requête Azoïque - Sans redondance


GoogleYahooY/G
pdf18211965%
autres441467106%
Total 62358694%

Requête Azoïque - Avec redondance

Tout ce que nous pouvons affirmer jusqu'ici c'est que Yahoo indexe moins bien les fichiers pdf que Google. Nous ne pouvons pas en conclure qu'il nous mentirait sur la taille de son index en nombre de documents. Nous ne pouvons pas non plus, bien évidemment, confirmer cette taille ;-)


Mais "Azoïque" est une requête un peu spéciale. De telles requêtes techniques ont tendance à ramener une proportion importante de fichiers pdf, ce qui n'est sans doute pas le cas avec la majorité des requêtes. Il reste cependant à expliquer pourquoi Yahoo révise son estimation de façon si importante au fur et à mesure de l'affichage des résultats. C'est ce que nous verrons dans le prochain billet. Je montrerai qu'on ne peut pas extrapoler les observations faites sur les requêtes à petite fréquence à l'ensemble de l'index.


Lire la suite


Libellés :


5 Commentaires:

Anonymous Anonyme a écrit...

Interesting experiment.
I was curious how you arrived at the breakouts for html and pdf. I get the same total results as you but 88 + 124 != 360 and I see more html and pdf results than you list for Google.

16 août, 2005 08:30  
Blogger Jean Véronis a écrit...

Anonymous> I used the "html" file format option in Yahoo advanced search and "blabla filetype:html" in Google. I assumed that the difference came from other filetypes (doc, txt, etc.), but in fact these are marginal.

Your comment prompted me to check what was going on, and it turns out that Yahoo and Google have a different behaviour with respect to the html filetype. Google returns only pages that have .html or .htm in their filename, whereas Yahoo returns all pages that are html, irrespective of their filename, such as pages generated by php processors. The difference is obvious with the entry for "azoique" in Wikipedia, which is not returned by Google when the search is restricted to html pages, whereas it is returned by Yahoo.

I modified the tables to take this into account. Many thanks for the remark!

16 août, 2005 10:29  
Anonymous Anonyme a écrit...

Conclusion : Google est plus utile pour les usages scientifiques, les textes scientifiques étant bien plus fréquemment publiés sous forme pdf

18 janvier, 2006 16:17  
Blogger Vincent a écrit...

Bonjour,

j'ai fait un petit test qui permet d'avoir une estimation du nombre de pages indexées par les sites de recherhe (dumoins je le pense).

Pour cela j'ai fait une recherche sur le mot 'a' qui est très largement répertorié aussi bien sur les sites fancais qu'anglophones.

Enfin j'ai les résultats suivants:

sur Google : 23 900 000 000 réponses
sur Yahoo : 7 870 000 000 réponses (on est loin des 20 millirads estimés)

ces résultats peuvent-il servir pour effectuer une estimation de la taille d'index ou serait-ce une erreur de les considérer en tant que tel?

02 août, 2006 16:55  
Blogger Jean Véronis a écrit...

Vincent> Hélas, les mots très fréquents comme 'a' ne sont pas intégralement indexés par les moteurs de recherches. La place requise serait gigantesque. A partir d'une indeaxation d'un sous-ensemble de pages très partiel, les moteurs nous retournent des estimations comme celles que vous mentionnez, mais ce ne sont que des estimations, et elles peuvent être buguées et/ou bidonnées. J'avais fait une série de billets sur ça l'an dernier (par exemple ici).

08 août, 2006 19:24  

Enregistrer un commentaire