Moteurs: Folles duplications (2) [Technologies du Langage]

mercredi, juillet 05, 2006

Moteurs: Folles duplications (2)

Dans le billet précédent, j'ai montré que les duplications diverses, en particulier sur les blogs et les forums, pouvaient changer les comptes retournés par les moteurs par un facteur mille ou plus. Ceux-ci ont donc mis en place, bien évidemment, des algorithmes de dé-duplication pour éviter de renvoyer à l'utilisateur des centaines de résultats semblables. Mais, une fois de plus, l'algorithme mis en place par Google est des plus étranges...

Tapons par exemple justice. C'est un mot très fréquent, dans diverses langues. Pas de surprise, donc, si nous obtenons 554 millions de résultats. Mais, ce qui est plus étonnant, c'est qu'au bout de quelques écrans, Google nous dit:

Pour limiter les résultats aux pages les plus pertinentes (total : 836), Google a ignoré certaines pages à contenu similaire. Si vous le souhaitez, vous pouvez relancer la recherche en incluant les pages ignorées.

Là, quelque chose ne va pas: je veux bien croire qu'il y ait des duplications (et du spam), mais sur un mot comme justice, il y a certainement plus de 836 documents originaux!

Le problème ne se pose pas que pour ce mot. En fait, pour tous les mots que j'ai testés, en français ou en anglais, quelle que soit leur fréquence, Google considère qu'il y a seulement quelques centaines de pages "pertinentes". Voici par exemple le résultat de tests systématiques avec 50 mots français et 50 mots anglais de haute fréquence. En abscisse, le nombre total de résultats annoncé sur le premier écran, en ordonnée le nombre de résultats "pertinents", sans duplications:

Ce comportement est nouveau, et ressemble furieusement à un bug. Jusqu'ici, Google donnait les 1000 premiers résultats (car il y a bien au moins 1000 résultats non dupliqués sur ces mots de haute fréquence). C'est d'ailleurs ce que fait Yahoo.

Comme toujours, cela ne fait pas grande différence pour l'utilisateur lambda, qui consulte rarement plus d'un écran de résultats, mais c'est une confirmation, s'il en fallait une, que Google n'est pas très soigneux sur les détails. En tous cas, si vous n'étiez pas convaincu depuis longtemps, voilà encore un exemple qui montre la difficulté de se fier aux comptes de Google.

[Précision au vu des commentaires: cela ne remet nullement en cause la pertinence des résultats, qui est un autre problème -- voir ici].

16 Commentaires:

TOMHTML a écrit...: félicitations Jean pour cet article ;-); 05 juillet, 2006 19:06
TOMHTML a écrit...: Un autre petit commentaire, juste pour vous faire remarquer la phrase qui est indiquée si on veut afficher la page du 1000eme résultat s'il n'y a que 988 pages PERTINENTES
et regardez la requête tapée surtout ^^
http://66.249.93.104/search?q=a&hl=fr&safe=off&start=1000; 05 juillet, 2006 19:15
Jean Véronis a écrit...: Tomhtml> Bien vu! merci.; 05 juillet, 2006 19:21
Anonyme a écrit...: Hello,

Je lis ce blog depuis bientôt un an et je suis très étonné comme on peut s'acharner sur Google. Mais vous le faites avec classe et arguments donc ça me plait :-)

Bonne continuation et j'espère encore plus d'articles dans le genre... parce que moi la politique c'est pas trop mon truc, surtout que je ne suis pas Français en plus :)

Yvan; 05 juillet, 2006 23:20
David Barry a écrit...: Pourrait-il être à cause de quelque chose comme ceci?

1. Google trouve les 1000 premiers résultats.
2. De ces 1000 résultats, Google ne montre que les pages "distinctes".; 06 juillet, 2006 05:17
Anonyme a écrit...: Jean Véronis aurait-il revisité récemment le moteur Accoona ? Je crois que certains de ses lecteurs seraient friands de lire un commentaire à ce propos...; 06 juillet, 2006 12:06
Anonyme a écrit...: Quel moteur faut-il donc utiliser pour avoir des résultats pertinents ? J'ai testé "mozbot" et suis finalement retourné vers Google... question d'habitude, sûrement...; 06 juillet, 2006 15:10
Jean Véronis a écrit...: Mozbot c'est Google (avec un habillage différent). Je présume que pour les requêtes courantes, Google et Yahoo sont suffisants (et à peu près équivalents)...; 06 juillet, 2006 15:37
Anonyme a écrit...: "Mozbot" = "google"... Et bien, j'en reste pantois !; 06 juillet, 2006 19:42
Jean Véronis a écrit...: Ben oui... en fait il n'y a que très peu de vrais moteurs!; 06 juillet, 2006 20:02
Anonyme a écrit...: Encore un très bon article ! Juste une question, par simple curiosité : sur votre second schéma il y a un point qui traîne en bas, tout seul (le pauvre). De quelle requête s'agissait-il ?; 06 juillet, 2006 23:18
Jean Véronis a écrit...: Olivier> Oui, nous sommes bien d'accord, du moins c'est le comportement que nous connaissions. Vous avez sans doute remarqué que j'ai mis soigneusement dans mes deux billets des guillemets autour de "pertinentes" ou "similaires". C'est la terminologie des moteurs qu'utilisent les moteurs, sans doute à tort.

Toutefois, si on regarde la proportion de pages considérées comme "similaires", elles ne collent pas avec cette seule explication. Lorsqu'il y a un facteur mille entre les deux nombres retournés, il ne s'agit plus seulement de regroupement interne aux sites. Par exemple sur ségolisme, à part quelques gros sites comme Agoravox, la plupart des sites (dont Aixtal) ne retournent qu'une petite poignée de résultats.

D'autres filtres interviennent après acccès à l'index. On le savait pour le filtrage de spam (voir mon étude de l'été dernier), un certain nombre de blacklists plus ou moins avouables, etc. Nul ne sait exactement ce que font les moteurs dans cette phase, c'est un secret jalousement gardé, et je ne serais pas étonné qu'il testent des choses diverses.

Quoi qu'il en soit, le bug demeure. Il y a certainement plus de 836 sites qui contiennent un résultat pertinent pour "justice" !; 07 juillet, 2006 07:49
Jean Véronis a écrit...: Boomboom> c'est le mot economist avec langue réglée sur "anglais" :

economist / 91100000 / 197; 07 juillet, 2006 08:08
Anonyme a écrit...: "la difficulté de se fier aux comptes de Google"
Je pense pouvoir affirmer sans me tromper que les comptes de Google sont juste... selon le mode de calcul de Google ;o)
Vous pourriez nuancer la phrase dans le sens suivant "la difficulté de [comprendre les] comptes de Google" et c'est, je pense, ce que vous cherchez à faire. Non?

Cette petite phrase peu laisser croire à une différence de pertinence entre les résultats de Google et ceux des autres moteurs. Or il me semble que vous avez montré que les résultats de Y! et Gle sont les mêmes à la différence près des liens d'affection.; 07 juillet, 2006 09:18
Jean Véronis a écrit...: Olivier> No, le bug, si beug il y a a c'est d'afficher seulement 197 résultats pertinents pour un mot comme economist. On devrait atteindre la limite de présentation que Google dit s'être fixée (1000). Ou alors bien sûr, il y a une autre logique, mais laquelle?; 07 juillet, 2006 14:33
Jean Véronis a écrit...: Mbt> Je ne parle pas du tout de la pertinence, qui est une autre affaire (effectivement, j'ai montré en février que Google et Yahoo sont à peu près à égalité). Ici je dis se fier aux comptes de Google. C'est sûr que si j'arrivais à les comprendre, je pourrais m'y fier... Mais lorsque "Chirac OR Sarkozy" retourne moins de résultats que "Chirac" tout seul, il me faut une explication assez solide pour que j'accepte de revoir mes notions de logique ;-); 07 juillet, 2006 14:39

Enregistrer un commentaire

A propos de l'auteur

Billets récents

Archives

Outils

Ma startup

Mes livres

mercredi, juillet 05, 2006

Moteurs: Folles duplications (2)

16 Commentaires:

Cherchez sur ce blog