Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, septembre 27, 2005

Google: Index mystère



Depuis quelque temps, je me demandais quand Google allait annoncer sa nouvelle taille d'index, puisque début septembre celle-ci a été multipliée d'un coup presque par trois, alors que la page d'accueil restait bloquée à 8 milliards [voir ici et ici]. Eh bien, nous avons la réponse aujourd'hui: le moteur nous mijotait quelque chose pour son 7ème anniversaire. Mais ce n'est pas ce que nous attendions: la mention habituelle de la taille d'index a disparu!



Je ne m'étais pas trompé en annonçant une multiplication de la taille d'index par 2.7. Google l'a confirmée (Reuters). Mais en même temps, la firme a décidé de ne plus communiquer de chiffre absolu sur sa taille d'index et se contente de proclamer qu'il a la plus grosse (Anna Patterson donne plus d'explications sur le blog de Google). Bien sûr, on pense à Yahoo! qui annonçait justement avoir dépassé 19.2 milliards de pages il n'y a pas très longtemps. Le PDG de Google, Eric Schmidt, explique dans une interview à CNET.com que Google arrête de donner des chiffres parce qu'il n'y pas consensus sur la façon de compter les pages. Bien d'accord! Et j'ai même largement montré qu'on peut avoir plus de pages... et plus de bruit (voir ici et ici).

Le 27 septembre 2005 marque donc un tournant dans la guerre des moteurs. Ceux-ci s'en remettent désormais aux internautes pour former leur propre jugement. Très bien. Sauf que c'est extrêmement difficile même pour des spécialistes, comme les lecteurs assidus de ce blog commencent sans doute à comprendre, et évidemment impossible pour l'internaute de base. On restera donc sur les positions affectives habituelles. Google ou Yahoo? Ca me rappelle un peu les guéguerres sur les machines (Mac ou PC?), ou les langages de programmation (C++ ou VB?)... Mais qu'on se rassure, pour trouver des pages sur Britney Spears ou localiser les pages jaunes, n'importe quel moteur fera très bien l'affaire...


Réactions


Lire la suite

Libellés :


15 Commentaires:

Anonymous Sebastien Billard a écrit...

C'est fou le nombre de commentaires que peut soulever un non-événement ;)

Google affirme sur son blog que l'index original a été multiplié par 1000 en 7 ans. Mais on ne connait pas sa taille originale...

Google affirme la mise en place d'un nouvel index pour son anniversaire, alors que cela se fait habituellement en plusieurs jours. Si l'on fait une recherche sur la requête "-sgfhsghsghsgh" ont obtient environ 9.5 milliards de documents indexés.

Ils disent ne plus faire la course au plus gros index, mais c'est eux qui ont toujours falsifiés leurs chiffres en comptant les pages dont ils connaissaient l'URL mais dont ils n'avaient pas indexé le contenu...

Ils se foutent de la goo-gueule du monde AMHA ;)

27 septembre, 2005 09:59  
Anonymous michaël a écrit...

pour ceux qui ne savent ni quoi ni comment choisir, la solution passe peut-être par les métamoteurs. à l'heure actuelle, les résultats les plus riches me sont fournis par ixquick, même si dogpile continue de m'intriguer. celui-ci interroge moins d'index que son concurrent, n'en interroge pas de différents et pourtant fournit des résultats parfois divergents.

quant aux fans des vieux conflits, ils peuvent toujours s'amuser avec eo, dont l'interface est indéniablement marquée par le look & feel d'apple.

27 septembre, 2005 10:04  
Anonymous Jérôme k a écrit...

"Google affirme sur son blog que l'index original a été multiplié par 1000 en 7 ans. Mais on ne connait pas sa taille originale..."

En fait si... en août 1998, l'index de Google pesait environ 24 millions de pages.

"comptant les pages dont ils connaissaient l'URL mais dont ils n'avaient pas indexé le contenu..."

Ils me semble que Google a toujours compté les pages de son index de cette manière, et a toujours bien précisé sa méthode de comptage. Je me rappele d'un "searchable index slightly smaller". Alors c'est comme les chiffres du chômage, tu peux toujours critiquer la méthode de comptage, mais tant qu'elle est publique il n'y a que les imbéciles pour ne pas comprendre les chiffres!

Alors n'allez pas dire que je suis "pro-google", loin s'en faut... Juste qu'à un moment il faut arrêter de critiquer à tout va. On l'utilise tous et c'est quand même bien pratique, non? A moins que vous puissiez faire mieux... (j'y travaille un peu et croyez moi ce n'est vraiment pas simple!)

27 septembre, 2005 11:00  
Anonymous Emmanuel Bégué a écrit...

Recherche Google vs. Google suggest...? Les 2 ne donnent pas le même nombre de résultats, pourquoi?

Par exemple si on cherche "veronis" dans Google on obtient "about 1,800,000 for veronis" mais si on utilise Google suggest et qu'on tape "veronis" la liste déroulante nous dit qu'il n'y a que 56000 résultats...?

Est-ce que Google suggest n'a pas été mis à jour?

27 septembre, 2005 11:07  
Blogger Jean Véronis a écrit...

Emmanuel> Est-ce que Google suggest n'a pas été mis à jour?

Effectivement, Google Suggest semble utiliser un état ancien de la base de données...

27 septembre, 2005 11:18  
Anonymous Olivier Ertzscheid a écrit...

Bonjour Jean,
Je viens d'aller me ballader sur Internet Archive. Dans (mon) inconscient collectif, le nombre de pages indexées avait toujours figuré en page d'accueil de Google. Or il semble que ce n'est qu'en Juillet 2000 (soit 2 ans après son lancement) qu'apparaît pour la première fois cette mention, au moment où Google dépasse le milliard de pages (ou dit qu'il le dépasse).
J'en recause par là : www.affordance.info

27 septembre, 2005 11:30  
Anonymous E. B. a écrit...

EB->JV
Ce n'est pas la place ici mais je vous ai écrit fin août à propos du TLFI, avez-vous reçu mon message ou bien a-t-il été détruit par un filtre anti-spam?

27 septembre, 2005 13:51  
Blogger Jean Véronis a écrit...

EB> avez-vous reçu mon message?

Non, cela ne me dit rien. Peut-être le filtrage anti-spam, ou simplement le fait qu'au retour de vacances j'avais plusieurs milliers de messages en attente et je n'ai toujours pas résorbé le problème, car ils continuent d'arriver plus vite que je ne lis... Mille excuses. Vous me renvoyez?

27 septembre, 2005 13:56  
Blogger Christophe a écrit...

Connaissez-vous le top 50 quotidien de lykos?
Interessant de suivre l'actualite via les requetes des internautes.
C'est a:
http://50.lycos.com/
Cordialement desde Mexico,
CM

27 septembre, 2005 14:53  
Blogger Jean Véronis a écrit...

Merci pour le lien! je vois que Pamela est en meilleure place que Britney ;-)

27 septembre, 2005 14:56  
Blogger Jean Véronis a écrit...

Sebastien Billard>Google affirme sur son blog que l'index original a été multiplié par 1000 en 7 ans. Mais on ne connait pas sa taille originale...

En fait, si: L'article de Brin et Page en 1998 "The Anatomy of a Large-Scale Hypertextual Web Search Engine" donne 24 millions de pages. Donc c'est cohérent avec la taille actuelle (~ 8 milliards x 3 ) .

27 septembre, 2005 16:06  
Anonymous Sebastien Billard a écrit...

En effet Jean, tout dépend donc de où l'on fixe l'origine :)

27 septembre, 2005 17:10  
Anonymous cimendef a écrit...

Il semble que le terme "-sgfhsghsghsgh" se trouve dans l'url des pages cachées de Google. Serait-ce donc le nombre de pages cachées (et donc indéxées)?

27 septembre, 2005 17:32  
Anonymous sebastien billard a écrit...

Cimendef : non en fait en faisant une recherche sur "-sgfhsghsghsgh" on demande à Google toutes les pages ne contenant pas "sgfhsghsghsgh", càd en principe la totalité des pages indexée, sgfhsghsghsgh étant un mot extremement rare ;)

Jean : Merci pour la citation de mon billet ;)

27 septembre, 2005 19:22  
Anonymous Anonyme a écrit...

regardez : http://beta.exalead.fr/search

norman

28 septembre, 2005 11:32  

Enregistrer un commentaire