Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, février 23, 2005

Google: Stabilisation de la taille d'index


J'ai montré le 22 janvier que la taille de l'index Google avait progressé, bien que la page d'accueil dise toujours "Nombre de pages Web recensées par Google : 8 058 044 651." En utilisant un sondage à partir d'un certain nombre de requêtes, j'ai pu estimer la progression à un facteur d'environ 1.13.

La même technique appliquée un mois plus tard, le 22 février, ne montre pratiquement plus de changement depuis janvier (pente de la droite de régression = 1.01 ou 1.14 depuis novembre).


Le diagramme ci-dessous montre la stabilisation :


Si nous pouvions faire confiance aux chiffres donnés par Google ("Nombre de pages Web recensées par Google : 8 058 044 651"), cela voudrait dire que la taille de l'index est maintenant d'environ 9.2 milliards de pages. Toutefois, il semble que ce chiffre inclut à la fois l'index principal (dans lequel tous les mots de la page sont indexés, jusqu'à la limite de cache utilisée ces temps-ci) et un index supplémentaire, composés de pages que Google a rencontrées mais dont il n'a indexé que très peu de choses (URL, titre...). L'index principal est apparemment de seulement 60% du tout, et les nombres de résultats pour chaque requête "gonflés" artificiellement de 66% pour retomber sur la taille totale (voir étude ici). Etant donné la progression depuis novembre, la taille de l'index principal est donc probablement aux alentours de 5.5 milliards de pages.

Libellés :


1 Commentaires:

Anonymous Anonyme a écrit...

Jean, Je te remercie pour ce blog très interessant.

Depuis la suisse
Martin Demierre
www.touchmind.ch
aide en ligne pour sites web.

27 février, 2005 16:13  

Publier un commentaire