Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

vendredi, mars 25, 2005

Google: Un instantané sur la mise à jour



Comme je l'indiquais dans mon billet d'hier, Google est en train d'opérer des modifications extrêmement importantes, où il ne s'agit plus seulement de mettre à jour l'index, mais de corriger toutes les routines d'extrapolation et de logique booléenne, de façon à faire disparaître les abérrations que j'avais mises en évidence début février.

La manoeuvre doit être très difficile, et semble durer depuis près d'un mois. Google n'a toujours pas réussi à mettre la totalité de ses "Data centers" à jour. Il semble y avoir trois groupes distincts de Data Centers à l'heure actuelle :
  1. certains n'ont pas été corrigés et fonctionnent sous l'ancien modèle (the = 8 milliards de résultats, logique booléenne fausse)
  2. d'autres ont été partiellement corrigés (the ~ 3 milliards, mais logique booléenne toujours fausse)
  3. d'autres enfin semblent être dans la configuration finale (the ~ 3 milliards, logique booléenne corrigée).
Exemple :

GroupeData Centerthechiracchirac OR chirac
164.233.161.99800000000032700001750000
264.233.189.104380000000021500001970000
366.102.7.99380000000019700001970000

Voir totalité des résultats.

Diverses hypothèses peuvent être formulées. Par exemple, les algorithmes sont toujours en cours de test et pour des raisons de commodité, les Googlers testent seulement sur un sous-ensemble de machines. Une autre raison, plus fondamentale, pourrait être que la correction implique non seulement la modification de quelques formules mathématiques, mais aussi l'accroissement de la part du véritable index par rapport à l'index supplémentaire (voir ce billet). Dans ce cas, la limite pourrait être aussi celle du hardware, qui pourrait ne pas être à la hauteur dans certains Data Centers... Bref, nul n'en sait rien exactement, mais ça gigote drôlement dans le Googleplex.

A suivre !

Libellés :


2 Commentaires:

Anonymous Nico a écrit...

Incroyable ce que çà peut bouger vite! J'ai aussi fait quelques tests et il semble que les résultats pour "chirac" recommencent à s'envoler par rapport à la requête "chirac OR chirac" (même sur les index supposés mis à jour). Mais cela est probablement dû au GoogleUpdate (car on ne peut plus parler de dance;) On peut aussi constater ce genre de phénomène avec la requête "chirac chirac" qui contient bien évidemment moins de pages que "chirac" selon la logique Googléenne. Il est temps que je remette mes cours à jour!

25 mars, 2005 10:56  
Anonymous Nico a écrit...

Juste pour préciser que Yahoo n'est pas très clair non plus dans sa logique booléenne même si les résultats restent relativement proches (comparés à Google). Finalement il semble que les minuscules moteurs (vous vous rappeler de Voila avec au moins 1% de parts de marché;) soient plus respectueux de la logique boolénne. Quelques exemples sur ce dernier me donne exactement le même nombre de résultats pour "chirac chirac", "chirac" ou "chirac OR chirac".

25 mars, 2005 11:21  

Enregistrer un commentaire