Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

dimanche, juillet 27, 2008

Google: Mille milliards...

Pas de mille sabords, mais d'URL... C'est le chiffre étonnant que les googleurs viennent de publier sur le blog maison, après que leurs machines ont dépassé la barre symbolique du billion d'URL présentes simultanément sur le Web (trillion en anglais). Attention, contrairement à ce qu'on commence à lire à droite ou à gauche sur certains blogs qui reprennent l'information, il ne s'agit pas du nombre de pages indexées par Google, comme l'expliquent d'ailleurs les googleurs dans leur post. Il s'agit du nombre d'URL détectées par les machines qui crawlent le Web à la recherche de nouveau contenu (mais c'est déjà très impressionnant). 



Vous connaissez le principe : les machines analysent les liens présents dans les pages déjà crawlées à la recherche de nouvelles adresses. Il reste ensuite deux étapes à effectuer pour indexer le contenu qui se trouve (peut-être) derrière ces adresses : suivre les liens pour récupérer les pages et les indexer à leur tour... Outre le coût (en temps et en espace de stockage) que représente cette opération, il n'est peut-être pas souhaitable d'indexer tout ce qui se trouve au bout des liens. On y trouve une quantité considérable de spam, de pages générées automatiquement (à bon ou à mauvais escient...), et des doublons de toutes sortes. Le Web s'est modifié radicalement dans sa structure depuis l'apparition des flux RSS. La moindre information se retrouve maintenant dupliquée si ce n'est à l'infini mais souvent par centaines ou par milliers, comme dans une gigantesque galerie des glaces (j'en avais parlé ici en 2006)...

Vous avez sans doute remarqué que les querelles de chiffres sur le nombre de pages indexées par les différents moteurs se sont tues depuis quelque temps (j'avais d'ailleurs modestement contribué à clore le débat [1, 2]...). Si l'on me demandait combien de pages sont réellement indexées par Google, je répondrais que je les estime à l'heure actuelle (par des mesures indirectes) à quelques dizaines de milliards. Mais cette information n'a plus guère de sens : on peut avoir quasiment autant de pages qu'on veut à l'heure actuelle -- à condition d'avoir quelques machines et les moyens de ses ambitions ! La partie difficile est d'indexer les bonnes, et d'en tirer la substantifique moelle pour l'utilisateur, à l'aide d'algorithmes de pertinence adéquats... 

Les observateurs attentifs ont noté depuis le printemps de très gros ajustements dans les algorithmes de Google, avec un effet yo-yo qui a desespéré plus d'un webmaster. C'est sans aucun doute en grande partie le reflet de la lutte permanente que doit mener désormais Google contre le faux contenu, les reflets volontaires ou non qu'engendre la "galerie des glaces" sur le Web.

Libellés :


7 Commentaires:

Anonymous Pascal a écrit...

Bonsoir,

Passe encore que « les machines (...) crawlent le Web » (les araignées savent donc nager ? ;-) mais alors j'ai un peu de mal avec «  les pages déjà crawlées »… Ça rampe, une page ?

Bel été,

27 juillet, 2008 21:59  
Blogger Jean Véronis a écrit...

Vous diriez comment en bon gaulois ?

27 juillet, 2008 22:10  
Anonymous Laurent a écrit...

Je tente un :
« les machines qui crawlent le Web » -> parcourent ? explorent ?

« … analysent les liens présents dans les pages déjà crawlées à la recherche de nouvelles adresses ».
-> connues ? indexées (sauf que ça ferait une répétition) ? visitées ?

27 juillet, 2008 22:31  
Blogger Vicnent a écrit...

et pendant ce temps là, Cuil, un "concurrent" de Google par des anciens de Google indexe lui : 121,617,892,992 pages. C'est pas moi qui le dit, c'est eux. :-)

28 juillet, 2008 10:44  
Anonymous Vanessa a écrit...

Combien de pages caduques ou à contenu faux... (?)
Combien de pages avec des données sans intérêt ?
Chiffre impressionnant en tout cas !

28 juillet, 2008 12:48  
Blogger Jean Véronis a écrit...

Laurent> On peut effectivement utiliser des mots moins spécifiques, mais on y perd (et parfois, c'est faux : crawler n'est pas indexer). Je ne suis pas réfractaire aux anglicismes, ni aux imports de toute nationalité. Si on devait se cantonner aux mots strictement gaulois, on n'en n'aurait qu'une petite trentaine (et encore, certains comme braguette n'ont rien à voir avec le mot original...). Quant à l'anglais, nous l'avons pollué bien plus qu'il ne nous a pollué, depuis la conquête normande, alors un petit mot en retour de temps à autre, c'est de bonne guerre...

28 juillet, 2008 13:38  
Anonymous Pilou a écrit...

Y a-t-il plus de pertinence à compter des URL que les pages ?
L'adresse affichée pendant que je saisis ce commentaire est :
https://www.blogger.com/comment.g?blogID=8843503&postID=11603494777720228&isPopup=true
Celle de votre commentaire du 28 à 13:38 est, en affichant l'article dans une fenêtre indépendante :
http://aixtal.blogspot.com/2008/07/google-mille-milliards.html#c561574286918634190

Les deux ne suivent pas la même logique hiérarchique. Donc, difficile de définir ce qu'est réellement une URL par rapport à une "page".

29 juillet, 2008 11:16  

Enregistrer un commentaire