[8 fév - Lire la suite :
Le mystère des pages manquantes de Google résolu ?]
Il y a quelques jours, j'ai montré que les
opérateurs booléens de Google retournaient des nombres totalement aberrants, qui empêchaient toute utilisation sérieuse (à moins que l'on soit prêt à accepter que A OR B renvoie moitié moins de résultats que A tout seul, bien évidemment).
Mais j'ai trouvé pire, et bien plus dérangeant. Les
nombres de résultats eux-mêmes sont aberrants, même si l'on n'utilise pas de recherche "avancée" (ou suppposée telle...). Regardez attentivement les deux copies d'écrans suivantes, et cherchez l'erreur :
Le premier écran est une requête pour
the dans la totalité des pages Web (celles que Google indexe, bien sûr). Le chiffre rond de 8 milliards exactement est un peu suspect, comme cela a été remarqué à maintes reprises, mais ce n'est pas cela qui me dérange le plus. La requête pour
the restreinte aux pages en anglais ne retourne que 88 millions des résultats, soit juste un peu plus de 1% du total. J'ai du mal à accepter un tel résultat, qui signiferait qu'environ 99% des occurrences de
the se situent dans des pages autres qu'en anglais !
Mais je peux me tromper. Vérifions donc avec Yahoo! :
Le paysage est totalement différent ici, puisque 91% des occurrences de
the se situent dans des pages en anglais, ce qui est tout de même plus conforme à nos intuitions.
Je ne suis pas prêt à accepter la réponse standard de Google ("nos chiffres ne sont que des estimations, des approximations, etc."). Lorsqu'on atteint des différences de cette ampleur, il ne s'agit plus d'approximation, et quelque chose d'autre de plus profond doit se cacher derrière les chiffres. J'ai donc essayé de déterminer la proportion exacte des pages en anglais dans l'index Google. Pour cela, j'ai choisi 50 "mots" qui sont selon toute vraisemblance relativement indépendants des langues: nombres, extensions de fichiers, protocoles (
http, etc.), marques informatiques, etc. Ces mots apparaissent certainement dans d'autres langues que l'anglais, et bien qu'il puisse y avoir des variations individuelles, je ne m'attendrais pas à observer une relation systématique entre leur fréquence et leur présence dans des pages anglaises. Ou alors, s'il y en a une, elle sera intéressante à expliquer.
Les résultats sont résumés (en millions) dans la table ci-dessous (ils ont été obtenus le 25 janvier sur Google.com, depuis la France, et ils peuvent évidemment varier quelque peu selon les "data centers" qui reçoivent la requête):
Google | Web | En | % |
---|
1 | 4780 | 67 | 1,4 |
www | 4410 | 50,2 | 1,1 |
2005 | 2400 | 63,9 | 2,7 |
0 | 2180 | 80,7 | 3,7 |
10 | 2140 | 66,1 | 3,1 |
html | 1600 | 58,9 | 3,7 |
http | 1350 | 34,2 | 2,5 |
web | 988 | 42,3 | 4,3 |
php | 883 | 60,7 | 6,9 |
htm | 846 | 53,5 | 6,3 |
2000 | 747 | 62,9 | 8,4 |
100 | 536 | 57,2 | 10,7 |
pdf | 417 | 53,1 | 12,7 |
yahoo | 277 | 28,2 | 10,2 |
linux | 222 | 31,7 | 14,3 |
jpg | 221 | 32,4 | 14,7 |
mp3 | 213 | 43,5 | 20,4 |
amazon | 208 | 34,6 | 16,6 |
url | 202 | 36,2 | 17,9 |
microsoft | 187 | 24,9 | 13,3 |
1000 | 157 | 41,7 | 26,6 |
google | 150 | 18 | 12 |
xml | 119 | 24,9 | 20,9 |
xp | 101 | 24,7 | 24,5 |
ibm | 81,6 | 25,7 | 31,5 |
txt | 80 | 26,7 | 33,4 |
ftp | 77 | 31,6 | 41 |
href | 74,1 | 24,1 | 32,5 |
perl | 51,4 | 22 | 42,8 |
https | 49,3 | 21,5 | 43,6 |
gnu | 43,3 | 19,8 | 45,7 |
mozilla | 34,4 | 13,9 | 40,4 |
mpeg | 28,7 | 12,8 | 44,6 |
macintosh | 28,1 | 15,5 | 55,2 |
firefox | 23,6 | 10,4 | 44,1 |
wma | 15,5 | 5,07 | 32,7 |
wav | 13,5 | 7,36 | 54,5 |
ppt | 13 | 7,34 | 56,5 |
altavista | 11,8 | 4,19 | 35,5 |
rtf | 11,4 | 6,08 | 53,3 |
ldap | 6,98 | 3,56 | 51 |
csv | 5,82 | 2,89 | 49,7 |
sgml | 5,23 | 2,58 | 49,3 |
gopher | 2,92 | 1,52 | 52,1 |
vba | 2,57 | 1,6 | 62,3 |
0x00 | 2,21 | 0,42 | 19,1 |
ie6 | 2,05 | 0,73 | 35,6 |
vb6 | 1,1 | 0,4 | 36 |
ffff | 1,07 | 0,4 | 37,3 |
0xff | 1,07 | 0,32 | 29,8 |
J'ai affiché la relation entre la fréquence des mots et le pourcentage de pages en anglais dans le diagramme ci-dessous :
Ce diagramme est tout à fait inattendu, puisqu'on observe une
loi de puissance entre le pourcentage et la frequence, qui résulte en une
décroissance extrêmement rapide de la proportion des pages en anglais contenant une forme donnée quand la fréquence de cette forme augmente. Je veux bien accepter un léger biais, mais je ne vois rien qui puisse expliquer un effet de cette ampleur.
Comme je ne veux pas me reposer sur des intuitions, j'ai vérifié ce que nous dit Yahoo! pour les même 50 mots. Yahoo! et Google reconnaissaissent à peu près le même ensemble de langues, et bien qu'ils puissent différer quelque peu dans leur stratégie de crawling (ce qui peut entraîner de petites différences dans le diagramme), la tendance générale devrait être la même.
Or, elle est
totalement différente chez Yahoo! :
On n'observe
absolument aucune corrélation, et les mots apparaissent de façon aléatoire dans le diagramme, comme je m'y attendais. La droite de régression est plate, indiquant une proportion moyenne de
61% de pages en anglais dans l'index Yahoo!. Il y a donc quelque chose d'étrange chez Google. Pour y voir plus clair, j'ai esayé de "zoomer" l'axe des abcisses à l'aide d'une échelle logarithmique, et, de fait, le nouveau diagramme nous donne une meilleure idée de la situation :
Le diagramme
se divise en deux parties, quelquepart entre 10
7 et 10
8. La partie de gauche se comporte exactement comme Yahoo! : il n'y a aucune corrélation entre la fréquence globale et la proportion anglais/Web. La droite de régression est plate (elle peut apparaître un peu courbée à cause de l'échelle logarithmique sur l'axe des abcisses) et elle indique une proportion d'environ
43% de pages en anglais. Le comportement selon une loi de puissance n'apparaît que dans la partie de droite du diagamme. Maintenant que la partie de gauche en a été extraite, la corrélation est extrêmement forte, puisque coefficient de détermination R
2 atteint 96%. Le changement soudain autour de 0.5 x 10
8 et le R
2 très élevé dans la seconde partie sont tous deux très difficiles à concilier avec un effet naturel. Il semble hautement probable que quelque chose d'artificiel est à l'oeuvre derrière ces comportements.
Quoi exactement ? C'est évidement difficile à déterminer. La cassure soudaine autour de 0.5 x 10
8 est consistante avec les chiffres de Mark Liberman dans son
commentaire à propos de mon
billet sur la logique Googléenne. Mark a reporté la relation X vs (X OR X) sur un diagramme pour un certain nombre de mots (que je reproduis ci-dessous par commodité). Il remarque un changement autour de 10
5 (ligne pointillée). Cependant, le diagramme montre une autre cassure, bien plus prononcée, autour de 0.5 x 10
8, comme dans mes données (je l'ai marquée en rose dans le diagramme de Mark). Les mêmes raisons pourraient bien être cachées derrière les deux problèmes.
Certains ont dit que Google avait effectivement "crawlé" 8 milliards de pages (ou même plus, comme le prétend Nathan Weinberg dans son
billet sur InsideGoogle), mais n'aurait pas réellement indexé toutes les pages pour des raisons pratiques. L'index véritable sur lequel travaillent les "data centers" serait en réalité beaucoup plus petit, et une extrapolation serait effectuée pour correspondre au total de 8 milliards -- sauf que Google pourrait bien avoir du "vieux code" dans ses programmes (voir les commentaires de
Mark Liberman's et
Geoff Nunberg's comments), qu'ils ont très bien pu oublier de mettre à jour lors de la mise en place passablement chaotique du nouvel index (voir, à nouveau, les
commentaires de Nathan Weinberg pour plus de détails).
Je ne sais pas si c'est l'explication, ou même une partie de celle-ci, mais je suis convaincu que les lecteurs et commentateurs de ce blog vont faire preuve d'imagination (n'oubliez pas de m'envoyer un petit message à
Jean.Veronis@up.univ-mrs.fr) si vous écrivez des commentaires sur un autre blog) !
En tous cas, je déconseillerais vivement l'utilisation des comptes fournis par Google dans une quelconque application professionnelle (comme par exemple la "
linguistique Googléenne" qui semble émerger ces temps-ci). Yahoo! semble de comporter de façon plus fiable -- ou plus rusée !
Post-scriptum
28 jan - Danny Sullivan rebondit sur
SearchEngineWatch blog, avec une liste utile d'autres articles sur les bizarreries arithmétiques de Google [en anglais]:
Search engine counts are never something you should depend on, a topic we've discussed many times before. Still, if you're going to get a count, it's nice if it doesn't seem to change much or simply seem absurd depending on the query you do. Google's counting has been shaky for ages. But the Web: Google's counts faked? article does a lot of math to find the counts have even more weirdness to them.
Lire...
[8 fév - Lire la suite :
Le mystère des pages manquantes de Google résolu ?]
0 Commentaires:
Enregistrer un commentaire