Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, août 10, 2005

Yahoo: 19 milliards de pages?




Lire la suite

A lire aussi




Nouvel épisode dans la guerre des moteurs: Yahoo! a annoncé discrètement que son moteur indexait désormais 19,2 milliards de pages... C'est nouveau dans la stratégie de la firme, qui jusqu'ici ne communiquait pas sur la taille de son index. Google, lui, annonce toujours environ 8 milliards de pages sur son écran d'accueil.



Faut-il croire ces chiffres? Les lecteurs assidus de ce blog auront remarqué que depuis quelques mois je ne parle plus trop des tailles d'index annoncées par les moteurs de recherche: j'ai amplement montré que les moteurs nous racontent ce qu'ils veulent et peuvent bidonner les chiffres à leur convenance (voir à propos de Google, Yahoo, MSN).

Certains, comme Google, nous prennent vraiment pour des boeufs, et ne se soucient même pas de la cohérence interne de leurs chiffres. Ainsi, alors que l'annonce sur la page d'accueil de Google reste quasi identique, les nombres de résultats retournés par les requêtes progressent de façon substantielle. En utilisant mes listes habituelles de requêtes-types, je constate que les nombres de résultats annoncés par Google sur les requêtes ont progressé de 75% pour l'anglais et de 8% pour le français depuis mars (ce qui pourrait confirmer l'impression que Google se concentre sur le monde anglophone, impression dont j'ai déjà fait part). Dans le même temps, la page d'accueil de Google n'est passée que de 8 058 044 651 à 8 168 684 336... Cherchez l'erreur!




Yahoo est plus soucieux de sa cohérence. Les résultats des requêtes individuelles ont été multipliés par un peu plus de 3 pour l'anglais entre mars et août, et par 2,7 pour le français :




Ces chiffres sont compatibles avec l'annonce de 19,2 milliards de pages indexées. En effet, en mars, j'estimais la taille vraie de l'index Google à 5,5 milliards de pages, et celle de l'index Yahoo à au moins cette taille et sans doute un peu plus. Disons 6 milliards. Une multiplication par 3 à partir de cette base hypothétique donne 18 milliards pour Yahoo en août, ce qui est bien l'ordre de grandeur annoncé.

Il est intéressant de comparer les nombres de résultats retournés par Yahoo et par Google. En mars, j'ai montré qu'ils étaient comparables (en fait légèrement supérieurs pour le français avec Yahoo). A la date d'aujourd'hui, l'écart s'est fortement creusé. Les comptes retournés par Yahoo sont près de trois fois plus grands pour l'anglais que ceux de Google et plus de quatre fois pour le français (ce qui semble confirmer les différences géostratégiques des deux moteurs). Les internautes français utilisent massivement Google (beaucoup plus que les américains), mais ils ont peut-être tort...





Tout cela est bien sûr à prendre avec prudence. Pour l'instant je n'ai pas réussi à surprendre Yahoo en flagrant délit de bidonnage, mais il se peut simplement qu'ils soient plus malins avec les chiffres que leurs concurrents ;-)


Lire la suite

A lire aussi



Libellés :


17 Commentaires:

Blogger Marianne a écrit...

Je vais songer à changer mes habitudes... mais je comprends pas pourquoi un truc aussi énorme a une page d'entrée aussi laide ; c'est quasiment la même que google (d'ailleurs on se demande pouquoi, ils pourraient utiliser d'autres polices) mais en pire (au moins le logo de google a plusieurs couleurs). Ca heurte mon sens esthétique ! Et puis c'est un critère de choix comme un autre pour les non connaisseurs...

10 août, 2005 15:21  
Anonymous JM Salaun a écrit...

Bonjour Jean,

Suggestion :
Ca m'intéresserait beaucoup si vous vous intéressiez aussi au nouveau moteur chinois Baidu qui vient de faire une entrée fracassante en bourse :

http://www.itrmanager.com/42804-baidu,mieux,google.html


Voir aussi :
http://www.webrankinfo.com/actualites/200508-baidu-au-nasdaq.htm


Et pour un panorama général et officiel :
http://www.bjinformation.com/fawen-2002/pic-2004-29/029-fm.htm


Je sais qu'il y a le défi de la barrière de la langue. Mais cela ne devrait pas effrayer un linguiste.. et ici aussi la relation entre taille (et vitalité) du marché et structure de la langue ou plutôt de l'écriture est passionnante à observer.

10 août, 2005 16:19  
Anonymous Philippe Antoine a écrit...

Marianne, une version graphiquement allégée de yahoo est disponible à cette adresse :
http://search.yahoo.com/

10 août, 2005 16:25  
Blogger Marianne a écrit...

Bonjour Philippe,

Merci, mais c'est de celle là que je parlais (ou de sa version française, qui est quasiment identique) ! Ceci dit je trouve celle de yahoo.com effectivement très moche aussi, dans le style "encombrée" ! :-)

10 août, 2005 17:26  
Blogger Jean Véronis a écrit...

marianne (esthétique)> Oui, Yahoo comme Google sont moches... Je me suis toujours demandé pourquoi. Exalead est un peu mieux, mais à peine. C'est une sorte de malédiction des moteurs de recherche, sans doute... Peut-être ârce qu'ils ont tendance à recruter des informaticiens ;-)

10 août, 2005 20:54  
Blogger Jean Véronis a écrit...

Jean-Michel > Aïe, dur, dur le devoir de vacances! En fait, j'étais déjà allé voir, et cela vous étonne-t-il si je vous dis que je suis un peu sceptique? Evidemment sans une compréhension fine du chinois, c'est difficile de se faire une opinion approfondie, mais sur des requêtes en caractères latins, j'ai trouvé le moteur totalement bidon : reondance extrême (des dizaines de fois le même contenu), très vieilles pages en tête au détriment des récentes, etc. Un exemple sur la star que je connais le mieux : moi. Totalement nul. Mes rudiments de chinois d'analyser de façon assez fine les résultats de requêtes en chinois mais sur des exemples triviaux comme 法国 (France), etc., j'ai l'impression que ça n'est pas génial. Google semble faire aussi bien. Mais je ne suis pas très affirmatif sur ce coup-là! A suivre...

10 août, 2005 21:19  
Anonymous JM Salaun a écrit...

Avec les Chinois, je crois qu'il faut en effet se méfier de conclusions trop rapides. Il est probable que dans un premier temps Baidu ne soit qu'une copie dégradée de Google, mais, à mon avis, cela ne durera pas. Le pays est trop vaste, trop dynamique, trop fier, trop unifié par l'écriture et par les documents pour qu'un tel outil (ou un de ses clônes) n'ait pas d'importantes conséquences.

D'aileurs, si on recherche "Chine" dans Google.fr, il faut arriver au 120ème site pour voir apparaitre un caractère chinois.. et encore il s'agit du site des alliances françaises en Chine !
Avec "China" sur Google.com, c'est mieux, le premier idéogramme arrive au 4e site, et le second au 21ème.

Je crois qu'entre des régions aux modes de pensée et aux structures d'écriture si différentes il est assez naturel qu'une interrogation décalée ne donne pas de réponse externe, du moins pour le moment.

Mais ce qui serait intéressant, serait de savoir comment un modèle très culturel (le moteur) qui mélange commerce et langue (vieux couple..) se développe dans un environnement radicalement exotique et pourtant suffisamment riche pour lui donner une chance de prospérité.

Je serais preneur d'une réflexion sur ce thème, ou même de voir comment monter un petit groupe de travail, s'il y a des chercheurs linguistes et sinophiles intéressés.

11 août, 2005 10:07  
Anonymous Béatrice Foenix-Riou a écrit...

Bonjour,
J'ai été comme vous surprise de l'annonce discrète de Yahoo! (uniquement dans son blog) et, pour mieux en parler dans le prochain Netsources, j'ai fait quelques tests comparatifs (pas aussi poussés que ceux de Jean) entre Google et Yahoo.

J'ai pour ma part choisi une autre approche, à savoir faire des tests sur des mots "obscurs" – qui donnent peu de résultats – afin de pouvoir aller jusqu'au bout de la liste des résultats et voir ainsi s'il y avait ou non "bidonnage"...

Conclusion : sur des mots "obscurs", Yahoo donne souvent moins de résultats que Google et il lui arrive aussi de "bidonner"ses chiffres...

A titre d'exemple, une recherche sur "azoique" obtient 599 résultats sur Google ; après avoir cliqué sur "relancer la recherche en incluant les pages ignorées", on peut en afficher au total 596.

Sur Yahoo!, la même requête obtient "2380 résultats"
Curieusement, dès la 3ème page de résultats (en affichant 100 résultats par page), Yahoo indique "résultats 201-300 sur 605"...
Et après avoir cliqué sur "relancer la recherche sur les résultats occultés", on peut au final obtenir l'affichage de 576 résultats... Où sont passés les 1804 manquants ?

Ne serait-ce pas un flagrant délit de bidonnage ?

et ce n'est pas le seul mot pour lequel c'est arrivé.
J'ai quelques autres exemples, pour des mots qui donnent entre 500 et 1000 réponses sur Google, et pour lesquels Yahoo! affiche alors un nombre de résultats 4 fois supérieur, pour au final donner un nombre équivalent à celui de Google.

Bien sûr, ce ne sont que des constatations sur quelques (rares) exemples de recherches... Histoire de dire que Google ne détient pas le monopole du bidonnage ;-)

Pour les curieux, j'essaierai de mettre un compte-rendu plus détaillé dans les actualités du site Bases (www.bases-publications.com)

Bonne journée à tous

11 août, 2005 11:05  
Blogger Jean Véronis a écrit...

Béatrice> Oui, je suis en train de faire les mêmes constatations...

11 août, 2005 11:25  
Anonymous Sébastien a écrit...

Bonjour,

Juste un mot concernant les interfaces minimalistes des moteurs de recherche.
Elles répondent en fait à quelques critères importants :
- Rapidité d'affichage et de chargement (même pour un 56k). Le moteur si il veux attirer l'internaute doit être accessible et vite. Il n'y a rien de plus pénible que d'avoir à attendre pour lancer une recherche alors imaginez quand il s'agit d'en lancer 50 par jour.
- Simplicité : l'internaute ne doit pas avoir à chercher ou et comment faire sa recherche (donc une barre de recherche et un logo sont suffisant).
- Compatibilité avec le plus grand nombre de navigateurs. Une page très simple à plus de chance de bien fonctionner partout. Les moteurs de recherches sont les rares sites a avoir un nombre important de navigateurs anciens voir très anciens qui les parcours.

Ces trois points sont des constantes parmi les moteurs d'ou leur aspect toujours minimaliste à l'accueil au moins. C'est vrai que ce n'est pas sexy mais leurs utilisabilités est plus importante que le reste ;-)

12 août, 2005 14:46  
Blogger Chris W a écrit...

Je viens de faire un nouveau tour chez Yahoo! suite à votre article.

Oui, Yahoo! devient de plus en plus une alternative tout à fait intéressante.


(Merci Firefox, pourtant, pour l'extension Adblock quand même.)

Je fais beaucoup de recherches dont les résultats se comptent par centainent ou moins. Les résultats de Yahoo! ont l'air plus consistant. Pour la phrase "know him from atom", par ex. Google indique 8 résultats, montre 5 dont un en double. Yahoo! dit qu'il y en a 6 et montre les mêmes 4 que Google, sans doubles.

Il n'en trouve pas davantage, pourtant. Et je viens de découvrir la controverse entre les deux sur la taille de leur index: http://shorl.com/hubystebelagre (Google News Search en anglais). Le dernier mot n'est pas dit là.

Ce que je regrette -- et qui rend Yahoo! presque inutilisable pour moi -- est le support très faible pour la recherche booléenne, et l'absence des jokers (? wildcards...).

12 août, 2005 15:44  
Blogger Chris W a écrit...

"Centaines", bien entendu.

12 août, 2005 15:45  
Anonymous Anonyme a écrit...

Bonjour à tous !

une petite piste de réflexion, Google annonce un nombre de pages RECENSEES et non INDEXEES.

Si ce ne sont que des pages recencées, il ne connait peut-être pas le contenu de toutes et elles n'apparaissent donc pas dans les résultats...

Cela dit, je ne doute pas que les chiffres annoncés sont plus proches du marketing que du réel ;-)

Dan

13 août, 2005 19:44  
Blogger Jean Véronis a écrit...

Anonymous (Recencées/indexées) > Oui, Google entretient l'ambiguïté. Sur Google.com la formulation est "Searching 8,168,684,336 web pages", ce qui semble dire qu'il cherche dans toutes ces pages, donc qu'il les indexe... Mais effectivement, je crois que Google compte tout un tas de pages qu'il a vues mais pas vriament indexées (j'en parle ici).

14 août, 2005 12:09  
Blogger Jérôme Charron a écrit...

Je repensais à une étude récente annonçant 11,5 milliards de pages sur le Web... (???)

22 août, 2005 18:12  
Blogger hassan a écrit...

Vous êtes entrin de critiquer le service Recherche de Google, alors que vous êtes entrin d'utiliser son service BlogSpot, pourquoi n'utilise pas tu le service blog de yahoo? plein de publicité et des iframes?

06 février, 2008 05:24  
Anonymous abseo a écrit...

Google doit être plus puissant et il est plus puissant pour indexer plus de 1000 milliards pages
http://blog.abseo.net/2008/07/google-indexe-plus-de-1000-milliards.html

27 juillet, 2008 19:13  

Enregistrer un commentaire