Google: 5 milliards de "the" sont partis en fumée [Technologies du Langage]

mercredi, mars 23, 2005

Google: 5 milliards de "the" sont partis en fumée

25 mar - Google: Un instantané sur la mise à jour

Beaucoup de gens avaient remarqué que, quand on cherchait "the" dans Google avec l'option "tout le web", le résultat était depuis un certain temps exactement de 8,000,000,000. Aujourd'hui, si vous tapez à nouveau "the", il y a de bonnes chances pour que vous constatiez que quelque 5 milliards d'occurrences de "the" ont disparu :

Il est possible, toutefois, que vous obteniez encore l'ancien résultat si vous essayez aujourd'hui. Google "danse" comme un malade depuis une quinzaine de jours. Il ne s'agit pas de la petite "Google dance" à laquelle nous étions habitués de temps à autre, qui durait deux ou trois jours pendant que Google mettait à jour ses bases de données. Cette nouvelle danse est une véritable danse de Saint-Guy : les résultats vont et viennent, apparaissent ou disparaissent comme par enchantement, bref, changent presque tous les jours.

Ce qui se passe, c'est que les Googlers ont été probablement très embarassés par mes calculs début février (voir résumé ici), calculs qui ont fait le tour de la planète et pas mal de bruit dans le Googleplex. Depuis lors, ils s'activent visiblement à essayer de corriger la situation et rendre les chiffres plus crédibles. Cependant, cette fois, il ne s'agit pas simplement de mettre les index à jour. Il faut aussi apporter des corrections majeures aux routines d'extrapolation, à la logique Googléenne, etc. Probablement difficile -- et sujet à erreurs. D'où les nombreux essais et modifications que nous observons ces jours-ci.

Je vais attendre que Google soit stable à nouveau (si jamais ça arrive ;-) pour me livrer à une analyse détaillée, mais on peut déjà se donner une idée de la direction dans laquelle le moteur se dirige. J'avais fait remarquer que lorsqu'on cherchait "the" dans les pages anglaises seulement, on obtenait environ 80 millions de résultats, c'est-à-dire 1% du total, ce qui n'avait pas de sens. Aujourd'hui, j'obtiens environ 2,9 milliards, c'est-à-dire un rapport de 90% au total, ce qui maintenant a du sens.

C'est presque exactement ce que dit Yahoo (respectivement 3,87 et 3,52 milliards). Il est intéressant de remarquer que le fait que Yahoo indexe plus de pages que Google (voir ici et ici) apparaît maintenant dans toute sa lumière.

25 mar - Google: Un instantané sur la mise à jour

Libellés : Google

10 Commentaires:

Anonyme a écrit...: Salut, il n'y a plus de Google dance de nos jours, elle est constante, la mise à jour se fait presque en temps réel, et ce, tout le temps.; 23 mars, 2005 11:02
Jean Véronis a écrit...: Oui, absolument. C'est pourquoi celle-ci correspond à autre chose, en l'occurrence les changments majeurs que Google apporte à ses routines et à la structure de son index... Et ça gigote drôlement !; 23 mars, 2005 11:06
Jean Véronis a écrit...: > On peut trouver une explication aux écarts entre certains moteurs de recherches par l'utilisation du "robots.txt"

Ponctuellement, sans doute, pour certains sites, mais pas d'une façon aussi massive. Cela n'expliquerait pas d'ailleurs que Google perde 5 milliards de pages du jour au lendemain (sauf si une bonne partie de la planète avait décidé désormais de l'interdire !); 23 mars, 2005 15:30
Anonyme a écrit...: Cela est très intéressant...
Mais je ne sais pas si on peut vraiment donner une signification à des valeurs "invérifiables" (je parle du nombre de pages en réponse à une requête). En effet Google pourrait mettre 1000 résultats trouvés ou 1000 000000 résultats trouvés que cela ne choquerait personne (enfin presque;). En effet Google limite l'accès aux 1000 premiers résultats. Pour aller plus loin, il ne vous reste plus qu'à multiplier les requêtes. D'ailleurs, une question serait de savoir si un système de requêtage spécifique permet de vérifier ce nombre...
De toutes les façons 81,7% des utilisateurs ne dépassent pas la 3ème page de résultats (white paper iProspect - April 2004) alors de là à se soucier du nombre de résultats...
Il me semble donc qu'on peut mettre en évidence les abérrations de Google (merci à ce blog;) sans pour autant vérifier l'exactitude des valeurs annoncées par Google.
Nico; 24 mars, 2005 10:43
Anonyme a écrit...: "par mes calculs début février (voir résumé ici), calculs qui ont fait le tour de la planète et pas mal de bruit dans le Googleplex."

On peut avoir des liens éventuellement ? Ce n'est pas pour te mettre mal à l'aise mais pour avoir des infos.; 25 mars, 2005 10:43
Jean Véronis a écrit...: C'était en fait une série d'études -- résumé et pointeurs dans "Le mystère des pages manquantes de Google". Ca a été repris sur des tas de forums et sites de SEO, comme SearchEngineWatch, etc.; 25 mars, 2005 13:34
Anonyme a écrit...: Bon on est en juillet, et j'arrive quatre mois après la bataille. Il me semble pourtant important d'insister sur quelques points :
- la question est intéressante et les données obtenues donnent effectivement à penser.
- mais qu'étudie-t-on ? Les "moteurs de recherche" au sens où vous l'entendez sont des sociétés commerciales. Pas des outils, pas des groupes, pas des dispositifs de laboratoire : des sociétés commerciales.
- le travail de reverse engineering auquel vous vous livrez n'a aucun sens sachant que :
a) les chiffres qu'avancent les moteurs pourraient tout aussi bien être tirés au sort. Vous n'avez aucun moyen de conclure, à partir des tests booléens que vous effectuez, du fonctionnement de tel ou tel moteur.
b) ce fait est accentué par un biais expérimental : les sociétés concernées seraient au courant de vos recherches.
Il est clair pour tout le monde que yahoo peut doubler son index du jour au lendemain, ou que google peut modifier son algorithme de recherche sans faire de conférence de presse. Vous en êtes donc réduit à analyser quelque chose qui n'a rien à voir ni avec le langage ni avec la programmation : le comportement d'un département marketing.

Pour conclure, il me semble (comme suggéré ci-dessus) nécessaire et urgent de disposer d'un moteur de recherche libre, en open source, détaché de toute contrainte commerciale. Alors, je pense qu'il sera temps de parler statistiques.

Bien à vous,

demi@m-net.arbornet.org; 18 juillet, 2005 03:14
Anonyme a écrit...: Bon on est en juillet, et j'arrive quatre mois après la bataille. Il me semble pourtant important d'insister sur quelques points :
- la question est intéressante et les données obtenues donnent effectivement à penser.
- mais qu'étudie-t-on ? Les "moteurs de recherche" au sens où vous l'entendez sont des sociétés commerciales. Pas des outils, pas des groupes, pas des dispositifs de laboratoire : des sociétés commerciales.
- le travail de reverse engineering auquel vous vous livrez n'a aucun sens sachant que :
a) les chiffres qu'avancent les moteurs pourraient tout aussi bien être tirés au sort. Vous n'avez aucun moyen de conclure, à partir des tests booléens que vous effectuez, du fonctionnement de tel ou tel moteur.
b) ce fait est accentué par un biais expérimental : les sociétés concernées seraient au courant de vos recherches.
Il est clair pour tout le monde que yahoo peut doubler son index du jour au lendemain, ou que google peut modifier son algorithme de recherche sans faire de conférence de presse. Vous en êtes donc réduit à analyser quelque chose qui n'a rien à voir ni avec le langage ni avec la programmation : le comportement d'un département marketing.

Pour conclure, il me semble (comme suggéré ci-dessus) nécessaire et urgent de disposer d'un moteur de recherche libre, en open source, détaché de toute contrainte commerciale. Alors, je pense qu'il sera temps de parler statistiques.

Bien à vous,

demi@m-net.arbornet.org; 18 juillet, 2005 03:15
Anonyme a écrit...: Bon on est en juillet, et j'arrive quatre mois après la bataille. Il me semble pourtant important d'insister sur quelques points :
- la question est intéressante et les données obtenues donnent effectivement à penser.
- mais qu'étudie-t-on ? Les "moteurs de recherche" au sens où vous l'entendez sont des sociétés commerciales. Pas des outils, pas des groupes, pas des dispositifs de laboratoire : des sociétés commerciales.
- le travail de reverse engineering auquel vous vous livrez n'a aucun sens sachant que :
a) les chiffres qu'avancent les moteurs pourraient tout aussi bien être tirés au sort. Vous n'avez aucun moyen de conclure, à partir des tests booléens que vous effectuez, du fonctionnement de tel ou tel moteur.
b) ce fait est accentué par un biais expérimental : les sociétés concernées seraient au courant de vos recherches.
Il est clair pour tout le monde que yahoo peut doubler son index du jour au lendemain, ou que google peut modifier son algorithme de recherche sans faire de conférence de presse. Vous en êtes donc réduit à analyser quelque chose qui n'a rien à voir ni avec le langage ni avec la programmation : le comportement d'un département marketing.

Pour conclure, il me semble (comme suggéré ci-dessus) nécessaire et urgent de disposer d'un moteur de recherche libre, en open source, détaché de toute contrainte commerciale. Alors, je pense qu'il sera temps de parler statistiques.

Bien à vous,

demi@m-net.arbornet.org; 18 juillet, 2005 03:59
Anonyme a écrit...: ayant lu aujourd'hui vos analyses que je trouve très intéressantes, j'ai moi aussi tapé "the" sur google et j'ai obtenu une approximation de... 14'210'000'000 résultats...; 15 octobre, 2006 23:47

Enregistrer un commentaire

A propos de l'auteur

Billets récents

Archives

Outils

Ma startup

Mes livres

mercredi, mars 23, 2005

Google: 5 milliards de "the" sont partis en fumée

10 Commentaires:

Cherchez sur ce blog