Web: Google ajuste ses comptes [Technologies du Langage]

dimanche, mars 13, 2005

Web: Google ajuste ses comptes

23 mar - Google: 5 milliards de "the" sont partis en fumée

Dans une précédente étude, j'ai montré que les comptes de Google étaient probablement augmentés artificiellement et d'une façon substantielle :

Web: Le mystère des pages manquantes de Google résolu ?

Les Googlers ont dû se sentir légèrement embarrassés, et depuis que l'étude a été publiée (8 fév.), les comptes de Google ont été ajustés de façon importante pour corriger la situation. J'ai testé les mêmes listes de mots en anglais et en français un mois plus tard, le 8 mars, et les chiffres ont radicalement changé.

Les comptes pour les mots anglais (option "tout le Web") ont légèrement diminué (d'un facteur de 0.8), tandis que les comptes pour les mots français sont stables.

Mots anglais (Web)

Mots français (Web)

Cependant, au même moment, les comptes pour des recherches restreintes respectivement aux pages en anglais et en français ont augmenté, de 1.2 pour l'anglais et 1.4 pour le français.

Mots anglais (pages en anglais)

Mots français (pages en français)

Ceci signifie que les rapports Web/anglais et Web/français ont changé d'une façon radicale. Ils atteignent maintenant 84% pour l'anglais et 78% pour le français. Si nous supposons que les proportions données par Yahoo sont correctes, cela nous donne une estimation de 90% pour la taille de l'index principal pour l'anglais et 80% pour le français. Ceci constitue un changement majeur par rapport aux 60% dont je faisais état début février, et amène Google plus près de chiffres crédibles, tels que ceux de Yahoo. La figure ci-dessous résume la situation.

Anglais

Français

Il est intéressant de noter que rien n'a vraiment changé chez MSN, et que leurs résultats semblent toujours augmentés artificiellement de la même façon qu'avant [voir étude sur MSN]. Les proportions chez Yahoo sont identiques, bien que leurs comptes absolus aient récemment doublé [voir étude sur Yahoo] -- ils sont donc consistants, comme précédemment.

Il y a évidemment deux hypothèses pour expliquer les changements :

Un certain nombre de pages qui étaient simplement listées comme URL dans l'index supplémentaire sont maintenant pleinement indexées, et la taille de l'index principal s'est donc considérablement accrue.
La proportion des deux index est toujours la même, mais des formules d'extrapolation plus astucieuses sont en train d'être développées, qui pourraient à terme cacher l'organisation en deux index.

J'espère bien entendu que c'est la première hypothèse qui est la bonne, mais c'est impossible à déterminer dans tests additionnels.

Si l'on décide de croire les nouveaux comptes de Google et Yahoo, Yahoo indexe toujours plus de pages que Google, par un facteur de

1.6 pour l'anglais ;
1.8 pour le français.

Anglais

Français

23 mar - Google: 5 milliards de "the" sont partis en fumée

Libellés : Google

4 Commentaires:

Anonyme a écrit...: Malheureusement, j'ai tendance à croire à la deuxième solution ces derniers jours!
Il y a beaucoup de mouvement depuis la fin de l'année dernière dans l'index Google, et ce week-end n'a pas manqué à la règle des resultats jouant au "yoyo"...

Deux choses sont devenues très probables selon moi à la vue des dernières évolutions:
1) l'existance d'un index secondaire qui n'apparaissait pas dans les résultats et qui est en train d'être intégré petit à petit dans les résultats visibles. Cela penche donc pour l'augmentation de l'index, et est finalement logique. On se souvient du l'annonce du passage aux 8 milliards de pages. On ne pouvait pas croire que Google avait doublé sont index en 15 jours...
2) cette réintégration se fait de manière chaotique, étrange, incompréhensible... les data-centers bougent dans des directions qui ne semblent pas liées entre elles... ce qui penche pour, non pas forcément des formules d'extrapolation, mais en tout cas des méthodes cachant totalement l'organisation de l'index à toute étude mathématique.

Je pense donc que petit à petit les chiffres annoncés se rapprocheront de la "réalité" sans jamais l'atteindre du fait des évolutions et mises à jour desormais permanantes des index. Mais j'ai l'impression ces dernière semaines que la pertinance des résultats Google s'éloigne de ce que nous aimerions être une certaine "logique sémantique"... J'aimerais beaucoup avoir votre vision de cela: n'avez vous pas l'étrange impression que Google parle de moins en moins la même langue que les êtres humains?; 14 mars, 2005 12:11
Anonyme a écrit...: Bon, ce n'est pas spécialement le sujét d'origine... mais je reviens sur ma question du moment: les moteurs parlent-ils le même language que nous?
Tout juste posté mon premier commentaire qu'un post proche de ce thème dans les questions qu'ils pose me viens de... microsoft!
http://blogs.msdn.com/michkap/archive/2005/03/13/394979.aspx
J'avais oublié les premiers post de ce blog qui nous donnent peut-être, à défaut d'une solution technique, une des approches de microsoft en la matière...
http://blogs.msdn.com/michkap/archive/2005/03/08/389360.aspx
http://blogs.msdn.com/michkap/archive/2005/03/08/389675.aspx
http://blogs.msdn.com/michkap/archive/2005/03/13/394822.aspx

C'est incroyable comme, enfermé dans mes problèmes techniques, je ne regarde pas assez souvent les choses non pas simples mais du moins logiques et naturelles venues du language! Merci... c'est un régale d'avoir votre point de vue régulier et "hors du temps" sur nos outils quotidiens!; 14 mars, 2005 12:33
J2J2 a écrit...: Encore un billet qui va dans le sens de mes propos: Mettre en place un moteur de recherche communautaire, basé sur une technologie open source (donc transparente), financé par des dons (pour préserver toute indépendance) et offrant une transparence totale sur le contenu de ses index. Voir mon dernier billet à ce sujet.
Un telle approche éviterais de devoir faire constamment du "reverse engineering" sur le fonctionnement des majors de la recherche sur Internet...

pour info, je viens de tomber sur une page de Greg R. Notes qui laisserait croire que les URLs non indexées par Google sont tout de même dans la liste des résultats:
http://www.searchengineshowdown.com/features/google/unindexed.shtml; 15 mars, 2005 10:01
Jean Véronis a écrit...: >Mettre en place un moteur de recherche communautaire, basé sur une technologie open source

Oui! Je viens de voir cette proposition sur votre billet très intéressant. Cela me paraît également être une priorité, à la fois scientifique (comment utiliser des moteurs qui retournent des résultats incontrôlable pour les études linguistiques ?) et politique (comment accepter que l'accès à l'information planétaire soit filtré par deux ou trois compagnies multinationales qui pourraient jouer tous les rôles de filtre et de manipulation qu'elles souhaiteraient ?).

Il y a eu une petite discussion sur ça hier sur la liste Corpora, et mon collègue lexicographe Adam Kilgarriff a exprimé aussi ce voeu d'un moteur ouvert. Adam cite un papier à lui et le projet WaCky.

A suivre !; 15 mars, 2005 10:17

Enregistrer un commentaire

A propos de l'auteur

Billets récents

Archives

Outils

Ma startup

Mes livres

dimanche, mars 13, 2005

Web: Google ajuste ses comptes

4 Commentaires:

Cherchez sur ce blog