Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, mars 23, 2005

Google: 5 milliards de "the" sont partis en fumée




Lire la suite

25 mar - Google: Un instantané sur la mise à jour




Beaucoup de gens avaient remarqué que, quand on cherchait "the" dans Google avec l'option "tout le web", le résultat était depuis un certain temps exactement de 8,000,000,000. Aujourd'hui, si vous tapez à nouveau "the", il y a de bonnes chances pour que vous constatiez que quelque 5 milliards d'occurrences de "the" ont disparu :

The sur Google (Web)

Il est possible, toutefois, que vous obteniez encore l'ancien résultat si vous essayez aujourd'hui. Google "danse" comme un malade depuis une quinzaine de jours. Il ne s'agit pas de la petite "Google dance" à laquelle nous étions habitués de temps à autre, qui durait deux ou trois jours pendant que Google mettait à jour ses bases de données. Cette nouvelle danse est une véritable danse de Saint-Guy : les résultats vont et viennent, apparaissent ou disparaissent comme par enchantement, bref, changent presque tous les jours.

Ce qui se passe, c'est que les Googlers ont été probablement très embarassés par mes calculs début février (voir résumé ici), calculs qui ont fait le tour de la planète et pas mal de bruit dans le Googleplex. Depuis lors, ils s'activent visiblement à essayer de corriger la situation et rendre les chiffres plus crédibles. Cependant, cette fois, il ne s'agit pas simplement de mettre les index à jour. Il faut aussi apporter des corrections majeures aux routines d'extrapolation, à la logique Googléenne, etc. Probablement difficile -- et sujet à erreurs. D'où les nombreux essais et modifications que nous observons ces jours-ci.

Je vais attendre que Google soit stable à nouveau (si jamais ça arrive ;-) pour me livrer à une analyse détaillée, mais on peut déjà se donner une idée de la direction dans laquelle le moteur se dirige. J'avais fait remarquer que lorsqu'on cherchait "the" dans les pages anglaises seulement, on obtenait environ 80 millions de résultats, c'est-à-dire 1% du total, ce qui n'avait pas de sens. Aujourd'hui, j'obtiens environ 2,9 milliards, c'est-à-dire un rapport de 90% au total, ce qui maintenant a du sens.


The sur Google (English)


C'est presque exactement ce que dit Yahoo (respectivement 3,87 et 3,52 milliards). Il est intéressant de remarquer que le fait que Yahoo indexe plus de pages que Google (voir ici et ici) apparaît maintenant dans toute sa lumière.


Lire la suite

25 mar - Google: Un instantané sur la mise à jour


Libellés :


10 Commentaires:

Anonymous Anonyme a écrit...

Salut, il n'y a plus de Google dance de nos jours, elle est constante, la mise à jour se fait presque en temps réel, et ce, tout le temps.

23 mars, 2005 11:02  
Blogger Jean Véronis a écrit...

Oui, absolument. C'est pourquoi celle-ci correspond à autre chose, en l'occurrence les changments majeurs que Google apporte à ses routines et à la structure de son index... Et ça gigote drôlement !

23 mars, 2005 11:06  
Blogger Jean Véronis a écrit...

> On peut trouver une explication aux écarts entre certains moteurs de recherches par l'utilisation du "robots.txt"

Ponctuellement, sans doute, pour certains sites, mais pas d'une façon aussi massive. Cela n'expliquerait pas d'ailleurs que Google perde 5 milliards de pages du jour au lendemain (sauf si une bonne partie de la planète avait décidé désormais de l'interdire !)

23 mars, 2005 15:30  
Anonymous Anonyme a écrit...

Cela est très intéressant...
Mais je ne sais pas si on peut vraiment donner une signification à des valeurs "invérifiables" (je parle du nombre de pages en réponse à une requête). En effet Google pourrait mettre 1000 résultats trouvés ou 1000 000000 résultats trouvés que cela ne choquerait personne (enfin presque;). En effet Google limite l'accès aux 1000 premiers résultats. Pour aller plus loin, il ne vous reste plus qu'à multiplier les requêtes. D'ailleurs, une question serait de savoir si un système de requêtage spécifique permet de vérifier ce nombre...
De toutes les façons 81,7% des utilisateurs ne dépassent pas la 3ème page de résultats (white paper iProspect - April 2004) alors de là à se soucier du nombre de résultats...
Il me semble donc qu'on peut mettre en évidence les abérrations de Google (merci à ce blog;) sans pour autant vérifier l'exactitude des valeurs annoncées par Google.
Nico

24 mars, 2005 10:43  
Anonymous Anonyme a écrit...

"par mes calculs début février (voir résumé ici), calculs qui ont fait le tour de la planète et pas mal de bruit dans le Googleplex."

On peut avoir des liens éventuellement ? Ce n'est pas pour te mettre mal à l'aise mais pour avoir des infos.

25 mars, 2005 10:43  
Blogger Jean Véronis a écrit...

C'était en fait une série d'études -- résumé et pointeurs dans "Le mystère des pages manquantes de Google". Ca a été repris sur des tas de forums et sites de SEO, comme SearchEngineWatch, etc.

25 mars, 2005 13:34  
Anonymous Anonyme a écrit...

Bon on est en juillet, et j'arrive quatre mois après la bataille. Il me semble pourtant important d'insister sur quelques points :
- la question est intéressante et les données obtenues donnent effectivement à penser.
- mais qu'étudie-t-on ? Les "moteurs de recherche" au sens où vous l'entendez sont des sociétés commerciales. Pas des outils, pas des groupes, pas des dispositifs de laboratoire : des sociétés commerciales.
- le travail de reverse engineering auquel vous vous livrez n'a aucun sens sachant que :
a) les chiffres qu'avancent les moteurs pourraient tout aussi bien être tirés au sort. Vous n'avez aucun moyen de conclure, à partir des tests booléens que vous effectuez, du fonctionnement de tel ou tel moteur.
b) ce fait est accentué par un biais expérimental : les sociétés concernées seraient au courant de vos recherches.
Il est clair pour tout le monde que yahoo peut doubler son index du jour au lendemain, ou que google peut modifier son algorithme de recherche sans faire de conférence de presse. Vous en êtes donc réduit à analyser quelque chose qui n'a rien à voir ni avec le langage ni avec la programmation : le comportement d'un département marketing.

Pour conclure, il me semble (comme suggéré ci-dessus) nécessaire et urgent de disposer d'un moteur de recherche libre, en open source, détaché de toute contrainte commerciale. Alors, je pense qu'il sera temps de parler statistiques.

Bien à vous,

demi@m-net.arbornet.org

18 juillet, 2005 03:14  
Anonymous Anonyme a écrit...

Bon on est en juillet, et j'arrive quatre mois après la bataille. Il me semble pourtant important d'insister sur quelques points :
- la question est intéressante et les données obtenues donnent effectivement à penser.
- mais qu'étudie-t-on ? Les "moteurs de recherche" au sens où vous l'entendez sont des sociétés commerciales. Pas des outils, pas des groupes, pas des dispositifs de laboratoire : des sociétés commerciales.
- le travail de reverse engineering auquel vous vous livrez n'a aucun sens sachant que :
a) les chiffres qu'avancent les moteurs pourraient tout aussi bien être tirés au sort. Vous n'avez aucun moyen de conclure, à partir des tests booléens que vous effectuez, du fonctionnement de tel ou tel moteur.
b) ce fait est accentué par un biais expérimental : les sociétés concernées seraient au courant de vos recherches.
Il est clair pour tout le monde que yahoo peut doubler son index du jour au lendemain, ou que google peut modifier son algorithme de recherche sans faire de conférence de presse. Vous en êtes donc réduit à analyser quelque chose qui n'a rien à voir ni avec le langage ni avec la programmation : le comportement d'un département marketing.

Pour conclure, il me semble (comme suggéré ci-dessus) nécessaire et urgent de disposer d'un moteur de recherche libre, en open source, détaché de toute contrainte commerciale. Alors, je pense qu'il sera temps de parler statistiques.

Bien à vous,

demi@m-net.arbornet.org

18 juillet, 2005 03:15  
Anonymous Anonyme a écrit...

Bon on est en juillet, et j'arrive quatre mois après la bataille. Il me semble pourtant important d'insister sur quelques points :
- la question est intéressante et les données obtenues donnent effectivement à penser.
- mais qu'étudie-t-on ? Les "moteurs de recherche" au sens où vous l'entendez sont des sociétés commerciales. Pas des outils, pas des groupes, pas des dispositifs de laboratoire : des sociétés commerciales.
- le travail de reverse engineering auquel vous vous livrez n'a aucun sens sachant que :
a) les chiffres qu'avancent les moteurs pourraient tout aussi bien être tirés au sort. Vous n'avez aucun moyen de conclure, à partir des tests booléens que vous effectuez, du fonctionnement de tel ou tel moteur.
b) ce fait est accentué par un biais expérimental : les sociétés concernées seraient au courant de vos recherches.
Il est clair pour tout le monde que yahoo peut doubler son index du jour au lendemain, ou que google peut modifier son algorithme de recherche sans faire de conférence de presse. Vous en êtes donc réduit à analyser quelque chose qui n'a rien à voir ni avec le langage ni avec la programmation : le comportement d'un département marketing.

Pour conclure, il me semble (comme suggéré ci-dessus) nécessaire et urgent de disposer d'un moteur de recherche libre, en open source, détaché de toute contrainte commerciale. Alors, je pense qu'il sera temps de parler statistiques.

Bien à vous,

demi@m-net.arbornet.org

18 juillet, 2005 03:59  
Anonymous Anonyme a écrit...

ayant lu aujourd'hui vos analyses que je trouve très intéressantes, j'ai moi aussi tapé "the" sur google et j'ai obtenu une approximation de... 14'210'000'000 résultats...

15 octobre, 2006 23:47  

Enregistrer un commentaire