Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, mars 09, 2005

Web: Yahoo double ses comptes !






Lire la suite

13 mar - Google ajuste ses comptes




Dans mon billet de lundi, où j'ai montré que Yahoo indexe plus de pages que Google, j'ai utilisé les données que j'avais collectées le 6 février à partir de mes séries de mots-sondes. L'idée sous-jacente à cette décision était de rendre les résultats comparables à travers mon ensemble d'études sur les moteurs, dont celle sur Yahoo constituait une conclusion. Mon hypothèse était que les moteurs n'avaient pas changé de façon fondamentale en un mois, ce qui semblait corroboré par ce test).

Pourtant, j'avais complètement tort. Par acquis de conscience, j'ai lancé les mêmes requêtes hier, 8 mars, et, à mon grand étonnement, j'ai constaté que les résultats de Yahoo ont doublé en un mois. J'étais si étonné que j'ai refait les calculs deux fois. Il n'y a pourtant pas de doute. Quelque chose d'énorme a eu lieu.

Les diagrammes ci-dessous donnent l'évolution entre février et mars. Les résultats complets sont ici pour l'anglais et ici pour le français (les données ont été obtenues sur search.yahoo.com comme en février -- il y a de légères différences sur fr.search.yahoo.com).


Yahoo (Anglais) - Mars ~ février

Yahoo (Français) - Mars ~ février


Le fait que les résultats soient multipliés à peu près exactement par un facteur 2, et qu'ils s'alignent d'une façon aussi parfaite sur la droite de régression (avec un coefficient de détermination R2 > 0.99) est extrêmement troublant. Il est extrêmement improbable qu'un accroissement naturel de l'index (c'est-à-dire par le crawling de pages supplémentaires sur le web), puisse produire un tel résultat. Une explication est nécessaire.

Je peux imaginer quatre hypothèses pour rendre compte de cette corrélation étrange :
  1. Yahoo a doublé son index depuis début février. Cependant, dans ce cas, la corrélation trop parfaite demande une explication.
  2. Il s'agit d'un bug. Un programmeur a tapé une ligne de code de travers quelque part. Ce genre de chose arrive -- mais il est étrange qu'elle n'ait pas été remarquée.
  3. Yahoo a décidé de gonfler ses chiffres de 100%. Mais une augmentation aussi énorme, et si mathématiquement parfaite, semble un peu stupide, puisqu'elle garantit de se faire prendre...
  4. Yahoo avait déjà un index plus large depuis un certain temps, mais il divisait ses résultats par deux auparavant, pour des raisons stratégiques, par exemple en attente du bon moment en termes de marketing pour faire une annonce mondiale.
Si, après Google et MSN, Yahoo! manipulait aussi ses comptes, ce serait extrêmement décevant. Pour l'instant, c'était le seul moteur qui retournait des résultats cohérents, comme je l'ai mentionné dans plusieurs de mes billets, et j'espérais qu'ils étaient sincères. Yahoo a rattrapé Google en termes de taille et de qualité (pertinence, fraîcheur des résultats, etc.), et commence à gagner l'estime des utilisateurs professionnels, experts, universitaires (un pas important a été franchi avec la mise à disposition d'une très belle API il y a quelques jours). Ce serait dommage qu'ils brisent ce mouvement avec une tricherie aussi stupide.

J'espère donc très fortement que l'index de Yahoo a réellement doublé, et qu'il y a une raison technique à cette corrélation trop parfaite. En tous cas, Yahoo devrait probablement communiquer à ce propos. Une explication s'impose pour balayer les doutes. Je sais qu'ils lisent mon blog. Je serai heureux de relayer toute info qu'ils voudraient bien donner.


Lire la suite

13 mar - Google ajuste ses comptes



0 Commentaires:

Enregistrer un commentaire