Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

dimanche, janvier 23, 2005

Web: Google a le compteur bloqué



Lire aussi :



Je l'annonçais en novembre, Google dépassait la barre des huit milliards de pages, et affichait fièrement sur la page d'accueil :
Nombre de pages Web recensées par Google : 8 058 044 651
Petit problème, cette information n'a pas varié depuis, bien que la taille de l'index augmente régulièrement. Voici la page d'accueil d'aujourd'hui :


Google indexe manifestement chaque jour de nouvelles pages. J'en veux pour preuve ce blog, dont je vois avec grande satisfaction les pages rejoindre très rapidement l'index, généralement en moins de 48 heures (voir requête). Même en supposant que Google ne rajoute que les blogs dans son index, et même s'il n'indexe qu'une fraction des six nouveaux blogs qui se créent chaque seconde (le site Technorati en liste plus de six millions) , le compteur devrait changer rapidement.

Pourtant, dans le même temps, Google change le compte des mots individuels. J'ai fait les mêmes requêtes sur 16 mots le 22 novembre 2004 et le 22 janvier 2005 :

Mot22 nov 200422 jan 2005
Aznar16900001600000
Bernadette19200002250000
Blair1410000015800000
Chirac31200003280000
Claude1560000017900000
Coluche161000193000
Corona67500007430000
Jacques1900000021400000
Jospin669000768000
Poutine272000316000
Raffarin752000893000
Saddam1110000012400000
Sarkozy838000695000
Thatcher21400002770000
Veronis6260060100
Zidane10900001280000

Il y a une quasi-parfaite corrélation entre les résultats obtenus à ces deux dates (coefficient de détermination > 0,999 !) :



La pente de la droite de régression (1,13) nous donne la progression entre le 22 novembre (très peu de temps après la publication du nouveau compteur par Google) et le 22 janvier, ce qui nous permet d'estimer la nouvelle taille de l'index (8 058 044 651 x 1,13). Je suis donc heureux de vous l'annoncer : l'index a dépassé neuf milliards de pages. Google devrait donc afficher :
Nombre de pages Web recensées par Google : 9 105 590 456
La taille de l'index a donc progressé approximativement de un milliard de pages en deux mois. Je ne sais pas du tout si la progression est linéaire, mais on peut sans doute prédire le dépassement des 10 milliards de pages indexées avant la fin mars.

Pourquoi Google ne met-il pas à jour son compteur ? Si c'est pour cacher sa progression aux yeux de ses concurrents, c'est assez ridicule, puisque comme ce billet le montre, on peut l'estimer de façon très simple.

Cette petite nuisance sans doute moins grave que le bug sur les recherches avancées que j'ai rapporté l'autre jour, mais tous ces petits détails accumulés finissent par jeter la suspicion sur le contrôle qualité chez la maison Google. D'accord, pour l'instant seuls les professionnels se préoccupent de ces choses. Cela ne fait pas grande différence pour les requêtes sur les pages jaunes ou Britney Spears (voir ce billet)...

6 Commentaires:

Blogger Jean Véronis a écrit...

A lire : un développement intéressant de Nathan Weinberg sur InsideGoogle:

http://google.blognewschannel.com/index.php/archives/2005/01/23/google-at-how-many-billion-9-11/

23 janvier, 2005 20:18  
Anonymous Anonyme a écrit...

http://www.zorgloob.com/2004/11/google-approche-les-10-milliards-de.asp...
http://www.zorgloob.com/2004/11/10-milliards-de-pages-pour-google.asp...
http://www.zorgloob.com/2004/11/8-058-044-651-pages-indexes-par-google.asp...

24 janvier, 2005 09:32  
Anonymous Pierrot25 a écrit...

Vos articles sont toujours aussi clairs et intéressants… Merci.
Pierrot25

01 avril, 2005 10:20  
Anonymous Anonyme a écrit...

peut etre faudrait il les avertir du probleme?

21 juin, 2005 19:14  
Anonymous Anonyme a écrit...

Nous sommes maintenant en aout 2006 et le compteur a disparu. Curieux, non ?

11 août, 2006 02:20  
Blogger Jean Véronis a écrit...

Anonymous> Le compteur a été supprimé en septembre 2005 (voir ici).

11 août, 2006 09:51  

Enregistrer un commentaire