Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, juillet 05, 2006

Moteurs: Folles duplications (2)

Dans le billet précédent, j'ai montré que les duplications diverses, en particulier sur les blogs et les forums, pouvaient changer les comptes retournés par les moteurs par un facteur mille ou plus. Ceux-ci ont donc mis en place, bien évidemment, des algorithmes de dé-duplication pour éviter de renvoyer à l'utilisateur des centaines de résultats semblables. Mais, une fois de plus, l'algorithme mis en place par Google est des plus étranges...



Tapons par exemple justice. C'est un mot très fréquent, dans diverses langues. Pas de surprise, donc, si nous obtenons 554 millions de résultats. Mais, ce qui est plus étonnant, c'est qu'au bout de quelques écrans, Google nous dit:
Pour limiter les résultats aux pages les plus pertinentes (total : 836), Google a ignoré certaines pages à contenu similaire. Si vous le souhaitez, vous pouvez relancer la recherche en incluant les pages ignorées.
Là, quelque chose ne va pas: je veux bien croire qu'il y ait des duplications (et du spam), mais sur un mot comme justice, il y a certainement plus de 836 documents originaux!

Le problème ne se pose pas que pour ce mot. En fait, pour tous les mots que j'ai testés, en français ou en anglais, quelle que soit leur fréquence, Google considère qu'il y a seulement quelques centaines de pages "pertinentes". Voici par exemple le résultat de tests systématiques avec 50 mots français et 50 mots anglais de haute fréquence. En abscisse, le nombre total de résultats annoncé sur le premier écran, en ordonnée le nombre de résultats "pertinents", sans duplications:




Ce comportement est nouveau, et ressemble furieusement à un bug. Jusqu'ici, Google donnait les 1000 premiers résultats (car il y a bien au moins 1000 résultats non dupliqués sur ces mots de haute fréquence). C'est d'ailleurs ce que fait Yahoo.

Comme toujours, cela ne fait pas grande différence pour l'utilisateur lambda, qui consulte rarement plus d'un écran de résultats, mais c'est une confirmation, s'il en fallait une, que Google n'est pas très soigneux sur les détails. En tous cas, si vous n'étiez pas convaincu depuis longtemps, voilà encore un exemple qui montre la difficulté de se fier aux comptes de Google.

[Précision au vu des commentaires: cela ne remet nullement en cause la pertinence des résultats, qui est un autre problème -- voir ici].

18 Commentaires:

Blogger TOMHTML a écrit...

félicitations Jean pour cet article ;-)

05 juillet, 2006 19:06  
Blogger TOMHTML a écrit...

Un autre petit commentaire, juste pour vous faire remarquer la phrase qui est indiquée si on veut afficher la page du 1000eme résultat s'il n'y a que 988 pages PERTINENTES
et regardez la requête tapée surtout ^^
http://66.249.93.104/search?q=a&hl=fr&safe=off&start=1000

05 juillet, 2006 19:15  
Blogger Jean Véronis a écrit...

Tomhtml> Bien vu! merci.

05 juillet, 2006 19:21  
Anonymous Yvan a écrit...

Hello,

Je lis ce blog depuis bientôt un an et je suis très étonné comme on peut s'acharner sur Google. Mais vous le faites avec classe et arguments donc ça me plait :-)

Bonne continuation et j'espère encore plus d'articles dans le genre... parce que moi la politique c'est pas trop mon truc, surtout que je ne suis pas Français en plus :)

Yvan

05 juillet, 2006 23:20  
Blogger David Barry a écrit...

Pourrait-il être à cause de quelque chose comme ceci?

1. Google trouve les 1000 premiers résultats.
2. De ces 1000 résultats, Google ne montre que les pages "distinctes".

06 juillet, 2006 05:17  
Anonymous Anonyme a écrit...

Jean Véronis aurait-il revisité récemment le moteur Accoona ? Je crois que certains de ses lecteurs seraient friands de lire un commentaire à ce propos...

06 juillet, 2006 12:06  
Anonymous Anonyme a écrit...

Quel moteur faut-il donc utiliser pour avoir des résultats pertinents ? J'ai testé "mozbot" et suis finalement retourné vers Google... question d'habitude, sûrement...

06 juillet, 2006 15:10  
Blogger Jean Véronis a écrit...

Mozbot c'est Google (avec un habillage différent). Je présume que pour les requêtes courantes, Google et Yahoo sont suffisants (et à peu près équivalents)...

06 juillet, 2006 15:37  
Anonymous Anonyme a écrit...

"Mozbot" = "google"... Et bien, j'en reste pantois !

06 juillet, 2006 19:42  
Blogger Jean Véronis a écrit...

Ben oui... en fait il n'y a que très peu de vrais moteurs!

06 juillet, 2006 20:02  
Anonymous boomboom a écrit...

Encore un très bon article ! Juste une question, par simple curiosité : sur votre second schéma il y a un point qui traîne en bas, tout seul (le pauvre). De quelle requête s'agissait-il ?

06 juillet, 2006 23:18  
Blogger Olivier a écrit...

Bonjour Jean et merci pour votre blog.
Pour une fois, je vais peut-être vous apprendre quelque chose (d'habitude, c'est plutôt moi qui apprend en lisant votre blog :)).
Les pages à contenu similaire n'ont rien à voir avec les filtres de "duplicate content" tels qu'on en entend parler dans le monde des SEO. Il ne s'agit en fait que d'un gimmick d'affichage : lorsque la description affichée est commune à plusieurs résultats pour une même requête, Google ne va afficher qu'un seul de ces résultats et placer les autres en "pages similaires"...
Je vous invite à rechercher site:http://aixtal.blogspot.com/ dans Google puis à cliquer sur "relancer la recherche (...)" pour vous en rendre compte vous même.
Les webmasters font souvent cette erreur de penser que si les pages de leur site sont "ignorées" sur cette requête, c'est que leurs pages présentent un "taux de similarité" trop important et qu'ils risquent une pénalité de la part de Google.
C'est bien évidemment faux : celà n'a aucune incidence sur le classement des pages (Aixtal en est un très bon exemple ;) )

Sinon, ce comportement n'est pas nouveau. Il peut arriver que sur une requête particulière Google n'affiche que quelques pages de résultats. C'est souvent lorsque dans les 1000 premiers résultats il y en a plusieurs centaines qui proviennent du même site et qui ont la même description.
Les requêtes correspondant à des noms de marque par exemple auront plutôt tendance à s'arrêter à 300 résultats quand des expressions signifiantes, même fréquentes tourneront plutôt autour des 7 ou 800 résultats affichés.
Celà s'explique par le fait que sur un nom de marque, il y a de forte chances que dans les 1000 résultats les plus "pertinents", beaucoup seront des documents issus du domaine de la marque en question et auront potentiellement la même description.

Désolé pour l'explication un peu longue (en plus, je ne sais même pas si j'ai été clair :D)

Bonne continuation

07 juillet, 2006 01:04  
Blogger Jean Véronis a écrit...

Olivier> Oui, nous sommes bien d'accord, du moins c'est le comportement que nous connaissions. Vous avez sans doute remarqué que j'ai mis soigneusement dans mes deux billets des guillemets autour de "pertinentes" ou "similaires". C'est la terminologie des moteurs qu'utilisent les moteurs, sans doute à tort.

Toutefois, si on regarde la proportion de pages considérées comme "similaires", elles ne collent pas avec cette seule explication. Lorsqu'il y a un facteur mille entre les deux nombres retournés, il ne s'agit plus seulement de regroupement interne aux sites. Par exemple sur ségolisme, à part quelques gros sites comme Agoravox, la plupart des sites (dont Aixtal) ne retournent qu'une petite poignée de résultats.

D'autres filtres interviennent après acccès à l'index. On le savait pour le filtrage de spam (voir mon étude de l'été dernier), un certain nombre de blacklists plus ou moins avouables, etc. Nul ne sait exactement ce que font les moteurs dans cette phase, c'est un secret jalousement gardé, et je ne serais pas étonné qu'il testent des choses diverses.

Quoi qu'il en soit, le bug demeure. Il y a certainement plus de 836 sites qui contiennent un résultat pertinent pour "justice" !

07 juillet, 2006 07:49  
Blogger Jean Véronis a écrit...

Boomboom> c'est le mot economist avec langue réglée sur "anglais" :

economist / 91100000 / 197

07 juillet, 2006 08:08  
Anonymous mbt a écrit...

"la difficulté de se fier aux comptes de Google"
Je pense pouvoir affirmer sans me tromper que les comptes de Google sont juste... selon le mode de calcul de Google ;o)
Vous pourriez nuancer la phrase dans le sens suivant "la difficulté de [comprendre les] comptes de Google" et c'est, je pense, ce que vous cherchez à faire. Non?

Cette petite phrase peu laisser croire à une différence de pertinence entre les résultats de Google et ceux des autres moteurs. Or il me semble que vous avez montré que les résultats de Y! et Gle sont les mêmes à la différence près des liens d'affection.

07 juillet, 2006 09:18  
Blogger Olivier a écrit...

"il ne s'agit plus seulement de regroupement interne aux sites"

> non en effet, il s'agit des résultats avec la même description affichée, quelque soit le domaine.

Il s'avère que les résultats ayant la même description affichée appartiennent plus souvent au même domaine, mais ce n'est pas une règle.

Je ne vois aucun bug la dedans... Un choix subjectif oui, mais pas de bug. Google suhaite juste ne pas afficher plus d'une fois la même description pour une requête. Pourtant, ils n'ont pas de problème à afficher plusieurs fois le même titre...

07 juillet, 2006 09:38  
Blogger Jean Véronis a écrit...

Olivier> No, le bug, si beug il y a a c'est d'afficher seulement 197 résultats pertinents pour un mot comme economist. On devrait atteindre la limite de présentation que Google dit s'être fixée (1000). Ou alors bien sûr, il y a une autre logique, mais laquelle?

07 juillet, 2006 14:33  
Blogger Jean Véronis a écrit...

Mbt> Je ne parle pas du tout de la pertinence, qui est une autre affaire (effectivement, j'ai montré en février que Google et Yahoo sont à peu près à égalité). Ici je dis se fier aux comptes de Google. C'est sûr que si j'arrivais à les comprendre, je pourrais m'y fier... Mais lorsque "Chirac OR Sarkozy" retourne moins de résultats que "Chirac" tout seul, il me faut une explication assez solide pour que j'accepte de revoir mes notions de logique ;-)

07 juillet, 2006 14:39  

Enregistrer un commentaire