Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

jeudi, février 23, 2006

Moteurs: Et le gagnant est...



Google et Yahoo ex æquo!

Tel est le résultat de l’évaluation que j’ai réalisée en décembre 2005 avec mes étudiants aixois et dont j’ai déjà dévoilé quelques aspects sur ce blog (voir 1, 2, 3, 4, 5). Le dernier volet de l’étude (sans doute le plus intéressant) concerne le classement des différents moteurs en fonction de la pertinence – du moins de la pertinence telle qu’elle peut être perçue par un panel d’utilisateurs. Je rappelle tout d’abord brièvement le protocole utilisé. L’étude complète est disponible ici au format pdf si vous voulez connaître plus de détails.



Les moteurs choisis sont trois moteurs américains, Google, Yahoo et MSN, ainsi que trois moteurs français, Exalead, Voilà (développé par France Telecom et offert sur le portail Wanadoo) et Dir.com du groupe Iliad, qui constitue plus une plate-forme expérimentale qu’un moteur à visée commerciale (Dir. Com vient de mettre en ligne une nouvelle version améliorée, mais elle n’a malheureusement pas pu être prise en compte dans l’étude). D’autres moteurs, tels que MozDex ou AskJeeves, n’ont pas été retenus car ils n’offraient pas de version francophone (ou seulement une version bêta dans le cas de AskJeeves).

Quatorze thèmes ont été retenus de façon à refléter une grande variété d’utilisations (Actualités, Animaux, Cinéma, etc.). Chaque thème a été attribué à un étudiant différent, qui choisissait librement cinq requêtes. Le format (avec ou sans guillemets, en un seul ou plusieurs mots) était également totalement libre. L’étude devant se faire «en aveugle», c’est-à-dire sans que les utilisateurs sachent de quel moteur proviennent les résultats, j’ai soumis moi-même les 70 requêtes aux six moteurs. La première page de 10 résultats non marqués comme sponsorisés a été archivée pour chaque requête et chaque moteur (4200 résultats au total), puis débarrassée automatiquement des informations autres que les seules URL des résultats.

Les couples requête-URL correspondant à chaque thème ont été fournis à l’étudiant concerné, qui devait évaluer le document pointé par l’URL (voir étude détaillée), et en particulier fournir une note de pertinence entre 0 et 5, 0 correspondant à un document totalement inutile ou hors-thème, 5 correspondant à un document répondant de façon parfaite à la question posée.

Le classement est le suivant:


Google et Yahoo arrivent en tête ex æquo, avec une note de 2,3, mais le résultat sans doute le plus frappant est le degré de satisfaction très médiocre des utilisateurs. Aucun des moteurs n’atteint la moyenne (2,5 sur 5) et les notes peuvent même être extrêmement faibles (1,2 pour Voilà). Les liens notés 0 (c’est-à-dire totalement inutiles) sont étonnamment nombreux: 53,1 % pour Voilà, mais même les meilleurs ne font pas tellement mieux: 28,6 % pour Google et 27,7 % pour Yahoo. A l’inverse, les résultats notés 5 (excellent) n’atteignent même pas 16 % pour les deux meilleurs moteurs).

Même en restreignant l’étude à la première position dans l’écran de résultats (le lien le plus cliqué par les utilisateurs), les performances sont à peine meilleures: Google et Yahoo dépassent à peine la moyenne avec 2,9 et 2,8 respectivement. Curieusement, les performances de Voilà sont moins bonnes sur le premier lien non marqué comme sponsorisé, puisque sa note y atteint seulement 0,5.


J’ai fait remarquer dans un précédent billet que la proportion de liens à caractère commercial (non marqués comme sponsorisés) est élevée, puisque elle varie entre 7 et 16% environ selon les moteurs. En soi, la présence de liens commerciaux n’est pas nécessairement nuisible à la qualité: sur une requête telle que «Harry Potter», faire apparaître la page Amazon où le livre peut être acheté peut être pertinent. Néanmoins, on observe, dans l’état actuel des choses, une nette dégradation des résultats en terme de pertinence perçue sur les liens commerciaux, et ce pour tous les moteurs: la note attribuée aux liens commerciaux est systématiquement inférieure à celle attribuée aux autres résultats. Google et Yahoo perdent ainsi environ un point sur les liens commerciaux, ce qui est beaucoup sur une échelle de 5 points, surtout quand la note maximale n’est que de 2,3.

Je suis sûr que cette étude va susciter pas mal de réactions. En tous cas, il me semble qu’au moins deux conclusions s’imposent. D’une part, les satisfecit que s’auto-attribuent certains moteurs sont mal fondés: il reste manifestement un immense travail de recherche à faire pour mieux satisfaire les utilisateurs. On oublie parfois que les technologies sous-jacentes sont fort jeunes, et encore quelque peu dans leurs balbutiements. D’autre part, rien dans cette étude ne permet d’expliquer la préférence massive des internautes pour le moteur Google, puisque, globalement Google et Yahoo ont des performances à peu près équivalentes, et se détachent de leurs concurrents. Il faut donc supposer que les raisons en sont autres que des critères de pure pertinence des résultats.


Lire la suite


49 Commentaires:

Anonymous Chandon a écrit...

Merci pour cette étude qui démontre ce dont on se doutait un peu, sans pouvoir l'affirmer.
Il sera intéressant de la refaire à intervalles réguliers, pour mesurer d'éventuelles modifications de résultats.
PS : une petite coquille ici, non ? : "systématiquement intérieure".

23 février, 2006 08:48  
Blogger Jean Véronis a écrit...

Chandon> Oui, ce serait intéressant de refaire à intervalles réguliers. Mais je ne sais pas si j'aurais le courage (c'est beaucoup de travail!). Merci pour la coquille.

23 février, 2006 08:53  
Blogger ylyad a écrit...

Deux exemples personnels pour expliquer la préférence Google:
- historique: comme beaucoup, j'ai découvert Google à travers Yahoo! quand ce dernier utilisait Google - belle réussite, à la Microsoft avec DOS chez IBM d'ailleurs - du coup, je suis allé voir l'original
- simplicité: l'interface de Google est d'une simplicité absolument inégalée, sans pubs, sans autre informations, zen - si "l'accueil personalisé" devient la règle, j'irai voir ailleurs - et c'est tout ce que je demande à un moteur de recherche

23 février, 2006 09:33  
Anonymous Bob a écrit...

La faible pertinence des moteurs qui ressort de cette étude est effectivement un fait très intéressant, et qui personnellement me surprend.

Le constat que vous faites devrait faire réflechir les nombreux responsables de projet internet qui consacrent un temps important au référencement sous Google (j'en suis...).

On le constate de plus en plus, et votre étude est une pierre de plus, la promotion d'un site doit également passer par la recommandation (blogroll, etc.).

Merci de nous faire profiter de votre travail.

23 février, 2006 09:33  
Anonymous Chandon a écrit...

Bob> effectivement cette étude permet aux administrateurs de site de relativiser la pertinence des référencements, même si ça reste incontournable.
En tout cas, inutile à mon avis de payer pour une telle prestation (j'ai encore reçu cette semaine des propositions en ce sens d'une boite pas très futée), mais plutôt se fier à son propre travail de référencement, qui sera plus diversifié et adapté. Bref le pagerank c'est bien, mais pas la panacée non plus...

A ce propos, je serai très intéressé d'avoir une étude pour connaitre la part des visiteurs sur les sites web provenant de moteurs, lequels, si ce sont des visites 'utiles' (+ d'une page), et si les mots clefs tapés sont en adéquation avec le site.
Ou une telle étude existe t'elle déjà ?

Au fait, mes sincères félicitations pour votre site que je consulte avec bonheur depuis quelques mois déjà.

23 février, 2006 10:10  
Anonymous Francois a écrit...

Merci de nous faire partager cette étude. Sur la première page du pdf votre adresse http://www.up.univ-mrs.fr/veronis/ est invalide.Il y a un ;

23 février, 2006 10:20  
Blogger Sophie a écrit...

Pour la préférence à google, je vais hasarder une explication : l'aspect visuel des pages d'accueil yahoo et google expliquent un peu cette préférence.
Google.com ou Google.fr est un moteur de recherche, la page est presque vide si on enlève les outils de recherche.
Yahoo est un portail, et propose tous ses services sur la même page, on n'a pas l'impression que c'est un moteur de recherche ?
Google propose d'autres services mais à d'autres url mail.google.com, maps.google.com, etc...

23 février, 2006 10:33  
Blogger Vicnent 31415 a écrit...

Je reste un peu sur ma faim concernant la notion de "pertinence" qui reste quand même extrêmement subjective...
D'autre part, très très gros utilisateur de moteur de recherche, et exclusivement de google, j'essaie, lors de mes requêtes, de trouver des phrases types qui pourraient se trouver légitimement dans le texte. Quite à faire plusieurs essais.
Enfin, quand le web sémantique sera en place, je n'ose imaginer les dégats qui seront faits à tous ces moteurs actuels lors de l'arrivée du vrai moteur de recherche, sémantique évidemment...

23 février, 2006 10:53  
Anonymous Linca a écrit...

A propos de la pertinence, un autre aspect important est le paragraphe présent avec le lien, par exemple sur google, qui permet de se faire rapidement une meilleure idée de la pertinence du lien, et donc de prendre la décision de le suivre. Il est peut être "normal" d'avoir des liens peu pertinents suite à une requète, si ce paragraphe permet de séléctionner des liens bien plus pertinents.

23 février, 2006 11:39  
Blogger Jean Véronis a écrit...

Ylyad, Sophie> Oui, c'est vrai, la simplicité de la page d'accueil de Google a peut être son importance. En fait, Yahoo a aussi une page où il n'y a que le moteur:

http://fr.search.yahoo.com/

Mais il est vrai que si on tape simplement www.yahoo.com on tombe sur un portail assez touffu...

23 février, 2006 12:30  
Anonymous Philippe a écrit...

Toutes mes félicitations à l'équipe.

Toutefois, serait il possible d'avoir plus de détails sur l'éventuelle variation de l'indice de pertinence des résultats par rapport aux thèmes sélectionnés.

Si j'ai bien tout compris, l'indice de pertinence était jugé par rapport au contenu des pages renvoyés par les moteurs. Même si le nombre de pages Web est aujourd'hui énorme, j'ai le sentiment (et non la certitude) que l'intéret des pages diffusées sur le Web dépend énormément du thème abordé. Je constate très souvent qu'une page traitant d'informatique ou des sciences a un contenu bien plus pertinent qu'une page abordant des sujets moins "techniques". Ce faible indice de pertinence pourrait alors tout aussi bien refléter la "qualité" moyenne des pages Web disponibles sur le Web.

23 février, 2006 13:00  
Blogger Jean Véronis a écrit...

Philippe> Merci!

Effectivement, ce serait intéressant d'avoir une idée de la pertinance par thème. Malheureusement, étant donné que chaque thème a été traité par un utilisateur différent, on ne peut pas séparer la variabilité individuelle (sévérité différente, habileté inégale à poser de bonnes requêtes, etc.) de la variabilité due au thème. Il faudrait une dizaine d'utilisateurs par thème au moins, ce qui dépasse un peu mes possibilités.

Voici les résultats bruts (moyenne de la note par thème), mais j'hésiterais vraiment à conclure quoi que ce soit. Tout au plus une vague indication de tendance:

sports 3,1
divertissements 2,6
personnages 2,5
voyages 2,4
animaux 2,1
litterature 1,8
actualites 1,8
musique 1,8
histoire 1,6
sante 1,6
surnaturel 1,5
cinema 1,5
nature 0,9
politique 0,8

23 février, 2006 13:08  
Blogger Jérôme Charron a écrit...

Quelques commentaires rapides ... http://motrech.blogspot.com/2006/02/search-engine-for-dummies.html.

Beau boulot Jean, et merci à tes étudiants également.

23 février, 2006 13:17  
Anonymous arno. a écrit...

Bonjour,
je lis :
Ont été considérés comme commerciaux les liens figurant parmi les liens normaux, non
marqués comme sponsorisés, renvoyant vers les sites proposant des achats ou transactions
en ligne.

Je me pose la question de savoir si cette définition n'est pas un peu trop rigide. Comment avez-vous classé par exemple, les sites amateurs qui ont un bouton paypal pour payer leurs hébergement ?
D'un autre côté, je perçois le site d'une entreprise comme un site commercial. Même si elle ne vend rien sur son site, et qu'il sert seulement de vitrine.
À part ça, l'étude est vraiment très intéressante. Merci beaucoup de l'avoir mise en ligne.

23 février, 2006 13:51  
Anonymous Yazerty a écrit...

Intéressante étude. Et la réflexion de Philippe est extrêmement intéressante ! Les moteurs ne sont peut-être pas les seuls "fautifs" de leurs résultats : y-a-t-il seulement des pages sur internet qui correspondraient mieux à la requête qui leur est soumise... ?

ps : relier les points du graphique entre eux signifie, mahtématiquement parlant, qu'il y a une relation mathématique entre ces différents moteurs, ce qui n'est pas le cas. Petite erreur ou vision différente ?

23 février, 2006 14:02  
Anonymous hermes a écrit...

Tres interessant!

Je ne sais pas si tu l'avais deja vu, mais une etude sur la pertinence des moteurs principaux a ete faite l'ete dernier, avec un protocole assez similaire mais dont la participation etait ouverte a tous.

http://www.rustybrick.com/search-engine-challenge.php

Les resultats on aussi l'air a peu pres similaires : http://www.rustybrick.com/rustysearch-results.php

23 février, 2006 14:53  
Anonymous hermes a écrit...

a propos de la pertinence par theme, il faudrait faire le rapprochement avec les 'infospheres' les plus spammees/optimisees.
bien sur, une page cloakee peut pointer vers un site pertinent, mais connaitre l'etat general du webspam sur un theme donne
pourrait apporter un plus a ce genre d'etudes.
Exemple : "Cloaking and Redirection: A Preliminary Study"
www.ra.ethz.ch/CDstore/www2005-ws/workshop/wf06/wu.pdf

Dans cette etude, B.Wu et B.Davison se concentrent sur les redirections et le cloaking. Parmis les angles d'approches, ils
ont aussi repartis leurs repartis leur resultats par theme, pour determiner quels sujets etaient plus exposes au cloaking
et autre sneaky redirections :

"Since we retrieved top 10 hot queries from each of 16 categories from AOL, we can consider the topic of the cloaking pages.
Intuitively some popular categories, such as sports or computers, may contain more cloaking pages in the top ranking list.
So we also calculated the fraction of cloaking pages within each category. The results are shown in Figure 7. Some categories,
such as Shopping and Sports, are more likely to have cloaked results than other categories."

Je ne sais pas si ca confirme ou infirme tes propres resultats (vu que le theme qui semble donner les resultats les plus pertinents
dans ton etude est le sport, ca n'a pas l'air de coller), sachant que cela n'est qu'une technique de spamdexing, que la consequence
sur la pertinance n'est pas evidente (long debat en perspective...), que cette etude a deja un an, et qu'elle semble etre exclusivement
faite sur le web anglophone.

Enfin bon, ca peut etre utile, qui sait..

23 février, 2006 15:17  
Anonymous Vincent a écrit...

Bravo pour votre travail.
rien dans cette étude ne permet d’expliquer la préférence massive des internautes pour le moteur Google, puisque, globalement Google et Yahoo ont des performances à peu près équivalentes
Deux pistes...
1. Une piste déjà évoquée dans les commentaires. Pour un francophone "google" c'est un moteur de recherche avant tout, et l'adresse est simplement "google.fr", le reste vient apès. Pour Yahoo, yahoo.fr c'est un site surchargé. Pour trouver la page du moteur de recherche seul, il faut fouiller et "fr.search.yahoo.com" c'est pas vraiment mnémotéchnique.

2. L'antériorité, l'avantage au service. J'ai découvert google à l'université il y a quelques années, à l'époque c'était le seul à être si efficace et dépouillé, j'ai conseillé et répandu google autour de mois. Je n'étais pas le seul et beaucoup de gens ont joué le rôle de "commerciaux" involontaires pour google. Les habitudes prises ont la vie dure, c'est une histoire récurrente de la technologie et des "standards" de faits, parmis les exemples on peut citer le pal/secam, windows et MSoffice...
Ce n'est pas aussi difficile de changer de moteurs de recherche que d'OS ou de carburant pour la chaudière, certes. Mais google est installé et possède une image de marque qu'il entretient. Enfin l'impression et les a priori compte souvent autant que la "réalité" mesurée...
À propos de l'installation de google, on peut citer les mots et expressions dérivés :
verbe : googler vs yahooiser
expression "google est ton ami" vs "yahoo est ton ami"
pour comparer : http://www.googlefight.com :)

23 février, 2006 15:24  
Anonymous Aurélien a écrit...

Moi je constate une chose sur mon blog.

Les mots que les gens tapent dans google avant de finir chez moi ont le plus souvent un vrai rapport avec mon blog.

La pluspart de mes visites qui viennent de yahoo ont peu de rapport avec mon blog ou concerne des mots clés surlesquels je suis anormalement bien classé dans yahoo.

23 février, 2006 17:16  
Blogger Jean Véronis a écrit...

Jerôme> Merci pour cette réaction très intéressante (et super rapide!). Mystère: pourquoi est-ce que ton blog ne sort pas dans les trackbacks (alors qu'il est sur Blogger aussi)?

23 février, 2006 17:21  
Blogger jencris a écrit...

Pour ma part et sans doute comme pas mal d'autres utilisatuers, je vais d'abord sur Google - et maintenant sur Dir.com- pour la page d'accueil simple et efficace, ce qui n'est pas le cas des autres.

23 février, 2006 17:22  
Blogger Jean Véronis a écrit...

Arno> (définition des liens commerciaux) : c'est évidemement extrêmement difficile... Pour ne pas laisser trop de place à la subjectivité (encore que...) la définition était volontairement restrictive: le document au bout du lien proposait une transaction. Il est certain que plus de documents ont un caractère "commercial", donc le pourcentage donné est un peu une borne inférieure. Ce qui était important c'était d'avoir un critère stable, même s'il était un peu restrictif, car appliqué de la même façon à tous le smoteurs, il permet de les comparer.

23 février, 2006 17:25  
Blogger Jean Véronis a écrit...

Hermes> Oui, je connais l'expérience Rustybrick, mais il me semble un peu fumeuse du point de vue méthodologique. Par exemple, la langue n'est pas maîtrisée: les utilisateurs tapent une requête dans n'importe quelle langue, mais les moteurs restent réglés sur "web" (et accèdent probablement la version US (il y a de grosses différences de classement entre google.com et google.fr par exemple). D'autre part, je crois qu'il doit y avoir d'importants bais: pour l'avoir testé il me semble qu'on a tendance à cliquer sur les liens que l'on comprend, donc qui sont bons; En tous cas, l'idée est bonne, et l'interface très intéressante. Ca permet de juger aussi de l'influence du résumé et du titre (plusieurs commentaires ont souligné leur importance).

23 février, 2006 17:36  
Anonymous airyn a écrit...

Ah, je suis dégoûté !
J'ai essayé de créer une liste de tous les "anti-mots-clefs" (les mots qui n'ont aucun intérêt dans un index - genre les articles ou les pronoms) et elle est disponible librement sur votre site sous le nom de "stoplist".
Votre recensement a l'air plus complet que le mien, je vais prendre votre liste ! En vous remerciant !

23 février, 2006 17:57  
Blogger Jean Véronis a écrit...

Airyn> (liste) c'est fait pour servir!

23 février, 2006 21:06  
Anonymous Emmanuel Barthe a écrit...

Chapeau bas ! Mes petits "tests" -- ici et surtout (voir en bas de la page) -- de juriste documentaliste peuvent aller se rhabiller :-) Chez vous, c'est nettement plus sérieux. Et évidemment, mon champion G. en prend encore plein dans la poire face au prétendant Y. :-)

Et pourtant ... Je fais chaque jour des recherches en droit français sur Google et parfois je compare avec Yahoo. Et dans ma pratique -- limitée à ce domaine juridique certes --, même très récente, je constate que Google.fr reste légèrement plus pertinent -- disons de 5 à 10% selon moi si on se base sur les 10 premiers résultats -- que Yahoo.fr.

Mais si vous utilisez une ferme de serveurs Google qui est déjà passée sur BigDaddy (http://66.249.93.104/ par exemple), la différence est beaucoup plus nette : j'estime, toujours selon mes tests dans le domaine du droit français qu'on passe à 40% plus pertinent pour Google ...

Un exemple avec la requête
télévision abus de position dominante, une quetion sur laquelle Yahoo sort 0 zéro résultat pertinent (ici, un résultat pertinent est une page web où on parle d'un litige mettant en cause des chaînes ou des programmes de télévision pour des questions de concurrence), Google standard 1 résultat pertinent (l'arrêt du Conseil de la concurrence) et BigDaddy 4 résultats pertinents (les 4 premiers) :
- Google.fr standard
- Google BigDaddy
- Yahoo.
(NB : Parfois, Google.fr standard sort les mêmes résultats que BigDaddy. Des webmestres ont déjà signalé ce phénomène. A terme (mars 2006 d'après Matt Cuts), ils seront identiques ou très proches.)

C'est un avis personnel de praticien de la recherche, cependant. Mes questions sont souvent plus complexes et mes requêtes sont souvent -- mais pas toujours -- plus travaillées que celles que votre étude cite.

Alors ? Est ce que mes constatations me trompent parce que partielles ou bien sont elles juste justement parce que partielles ? En clair, la pertinence de Google serait meilleure que celle de Yahoo sur les sujets techniqus/scientifiques/professionnels et égale sur les sujets plus grand public. C'est l'impression plus ou moins nette que j'ai. Ce qui n'empêche pas que sur des recherches difficiles, j'utilise aussi Yahoo. Vu que, comme vous le montrez, les résultats de ces deux poids lourds ne se recoupent que pour 25%, on pourrait -- on devrait, même -- les interroger ensemble plus souvent.

Votre sentiment ?

23 février, 2006 22:44  
Blogger Loran Bernardi a écrit...

Merci!

Une remarque concernant le changement d'habitude (google vs Yahoo par exemple)
Je n'arrive pas a utiliser autre chose que google comme moteur "classique".
Je pense a la lecture de votre etude que la pertinence equivalente, voire inferieure des resultats ailleurs en est peut etre la raison.

En revanche, j'ai de plus en plus tendance a chercher ailleurs en premiere recherche (les gros index restent indispensables pour les recherches plus fines).

J'utilise de plus en plus le search de del.icio.us (si je veux connaitre les incontournables d'un sujet inconnus), technorati/feedster (pour le buzz et l'actualite), et aussi wikipedia (pour decortiquer une idee/notion) directement a partir de la barre de search de Firefox.

Bonne journée.

24 février, 2006 11:21  
Blogger Natalie Bissonnette, bibliothécaire a écrit...

Félicitations! Vous avez entrepris une démarche à laquelle plusieurs pensaient, mais n'osaient entreprendre...
Nous sommes dépendants et même à la remorque de ces outils de travail, malgré leurs imperfections. Je me dis souvent: à quand l'indexation des sites par de véritables spécialistes des sciences de l'information?

24 février, 2006 15:21  
Anonymous hermes a écrit...

Natalie:

Natalie Bissonnette :

Connaissez vous le LII - Librarian's Internet Index ?
C'est un annuaire mis a jour par des bibliothecaires, qui est 'respecte' et a une certaine anciennete maintenant ( http://web.archive.org/web/*/http://lii.org )

L'adresse: http://lii.org

Sur certains sujets, il vaut mieux passer par le LII que par l'ODP, surtout depuis les derniers 'scandales' concernant les
editeurs de l'ODP..

Mais peut etre que dans votre commentaire vous faisiez allusion a un moteur de recherche, et non pas a un annuaire ?

En tout cas, un projet du type LII en francais, je vote pour !

24 février, 2006 17:46  
Anonymous JM Salaun a écrit...

Merci pour, une nouvelle fois, ce joli travail.

Petite remarque sur la notion de pertinence qui est par nature relative. Ici elle parait relative au jugement des usagers sur leur satisfaction. On peut donc en conclure que, par rapport à ce qu'ils considèrent comme un idéal, les résultats ne sont pas fameux et qu'il y a encore du travail intéressant pour les experts en linguistique.

Mais cet idéal est-il l'étalon le plus pertinent ? En fait, dans la pratique, les usagers ne réagissent pas par rapport à un idéal déclaré, mais un optimum implicite : c'est à dire le moins mauvais résultat divisé par l'énergie (en temps, en cognition..) dépensée. On appelle cela l'économie de l'attention. Pour le dire autrement, le moteur n'a besoin que d'être modérement pertinent pour être utile.

Il est bien délicat de mesurer cet optimum. Néanmoins, on peut se demander si les résultats trouvés ne placent pas les moteurs très haut, au-dessus d'autres moyens de recherche ou d'accès : bibliothèques ou médias. Et dès lors, s'il est économiquement rentable pour un moteur d'affiner une pertinence qui n'accroitra pas nécessairement sa fréquentation. Mais c'est moins valorisant pour les linguistes..

Quoi qu'il en soit, vos travaux montrent une nouvelle fois combien nous aurions besoin d'un organisme pour mesurer tout cela. Je le répète chaque fois.. peut-être qu'un jour je serai entendu ;-)

24 février, 2006 19:07  
Anonymous Brig Otton a écrit...

Notre traditionnel Anti GG se manifeste...

In cauda venum!

Mais pourquoi pas Google ?
GG était là avant Yahoo, et malgré les campagnes de publicités et une pertinence équivalente, ça me parait logique que les utilisateurs préfèrent Google...

24 février, 2006 19:45  
Blogger Jean Véronis a écrit...

Yazerty> relier les points du graphique entre eux signifie, mahtématiquement parlant, qu'il y a une relation mathématique entre ces différents moteurs, ce qui n'est pas le cas. Petite erreur ou vision différente ? -- Il me semble qu'il est assez commun de relier les points dans des séries de moyennes lorsqu'elles sont classées dans un ordre particulier (chronologique, par exemple, ou par valeur décroissante, comme ici). C'est le même principe que les polygones de fréquences qu'on applique dans le cas d'effetifs (et également sur des variable nominales). La relation qui est en fait visualisée est une relation entre le rang du moteur et sa note moyenne. Donc, je revendique. Merci de la remarque!

27 février, 2006 08:25  
Anonymous activeille a écrit...

Ce travail est vraiment intéressant et susceptible d'interpeller les utilisateurs de base.
J'y ajoute quelques commentaires en rapport avec le monde de l'entreprise.

27 février, 2006 09:31  
Anonymous Baleydier Laurent a écrit...

Il n'y a pas forcément de lien entre la qualité et le succès, il n'y a qu'à écouter certains tubes à la radio pour s'en rendre compte, c'est une histoire de marketing viral ou non. Google est simple et encore parmi les plus pertinents donc indétronable. Surtout par YahOO qui traine son image de roi déchu. Je me demande d'ailleurs si YahOO ne devrait pas lancer avec son algo actuel un moteur avec un autre nom et quelques innovations au niveau de l'interface.

27 février, 2006 11:00  
Anonymous Bolzano a écrit...

La notion de "pollution" de la pertinence évolue: il y a eu le temps des sites pornos, celui des sites commerciaux perdure, mais arrive aussi celui des partis politiques.
A trop vouloir faire du chiffre d'affaires, les moteurs en perdent de vue leur objectif: la pertinence pour l'utilisateur, qui fera qu'ils seront utilisés ou non. Google a longtemps été le meilleur en pertinence, les utilisateurs avertis l'ont dit aux autres qui l'ont cru, mais Fiat ne lutte-t-il pas encore avec ses pubs contre l'image qu'il avait dans les avis éclairés des spécialistes de l'auto des années 60-70?
Exemple de pollution de la pertinence:
- cherchons pour discuter de nos passions "forum voile" et "forum natation": dans les deux cas eBay me propose en lien commercial "Achat ou vente Voile", et même "Achat ou vente Natation", choix énorme, inscription gratuite!
Le lien commercial est pollueur et non pertinent; par contre le lien commercial d'un livre ou d'un film sur l'apprentissage de la voile ou de la natation serait lui pertinent et m'aiderait dans ma recherche, mais il n'est pas là!
- une fois sur un site d'actualités de voile ou de natation, les AdSense arrivent: des stages de natation, des boutiques de sport, des vols secs pour l'Australie quand l'article parle des championnats de Melbourne, bien vu, mais "Le débat avec N. Sarkozy" sur ump.org qui tourne 1 fois sur 3, ça m'énerve: pollution inutile car aucun mot dans les articles ni dans le thème du site n'a de coloration politique
La situation devient grave du point de vue de la pertinence sur des mots très concurrentiels même s'ils sont techniques: impossible de rechercher une référence d'appareil pour en avoir les caractéristiques sans passer par des pages et des pages de prix et vendeurs en ligne: le site du constructeur ou la fiche technique sont enterrés dans le bac à sable, alors qu'ils devraient être en tête.
Donc un bon algorithme de pertinence doit éliminer correctement les pollutions, refuser les pollutions non pertinentes (par exemples les catégories pornographique, politique ou commerciale) même par des mots-clés payants et faire sortir "le bon grain de l'ivraie" en faisant remonter la pertinence quand la page est d'une source ayant autorité sur le sujet: "walkman sony" devrait me donner l'historique et les gammes du constructeur avant Kelkoo
C'est ce que font certains moteurs comme Mozbot ou les filtres avancés de google, mais taper systémtiquement "-prix" est contraire à l'esprit de Google: je ne devrais avoir les sites de comparaison de prix qu'en tapant "prix walkman" ou "prix voyage canada"; c'est la contre-pertinence ou pertinence "forcée" qui l'emporte: google a cru que je ne m'intéressais qu'au prix alors que ce n'était pas dans ma requête

27 février, 2006 18:47  
Anonymous blop a écrit...

Bonjour,
j'ai lu votre etude. Elle me parait pertinente pour ce qui est de la comparaison des moteurs de recherche entre eux. Par contre, les conclusions sur la "pertinence" me paraissent erronees ou, pour le moins, tres exagerees. En effet, la satisfaction est notee de 0 a 5 de maniere totalement arbitraire par les utilisateurs. Cet arbitraire est le meme pour tous les moteurs donc leur comparaison est valide. Mais affirmer que les moteurs de recherches sont mediocres c'est aller un peu vite en besogne.
J'ai, a titre d'exemple, essaye votre premiere requete ("abbe pierre" celibat pretres) sur Google. Resultat : les 10 sites renvoyes me paraissent parfaitement pertinents ! Peut-etre que votre etudiant cherchait les propos exacts de l'abbe Pierre sur le celibat des pretres, auquel cas il a certainement ete decu. Mais peut-etre cherchait-il la date de parution de son livre, ou un extrait video d'ONPP, ou... Un moteur de recherche ne peut pas deviner ce genre de choses*.
Vous pourriez faire ce test simple pour un moteur de recherche (disons google): demander a 10 etudiants une requete, demander a chaque etudiant d'evaluer la pertinence des reponses de google pour sa propre requete (A), puis demander a chaque etudiant d'evaluer la pertinence des reponses de google pour les autres requetes (B), enfin demander a un autre groupe d'etudiants d'evaluer la pertinence de toutes ces reponses par rapport a un certain nombre de criteres qu'ils auraient eux-meme defini auparavant (C).
La moyenne de B ou de C vous donnerait une idee de la pertinence des moteurs. La difference entre les moyenne de (A+B) et de A vous permetrait de mesurer la pertinence des requetes !


*Quoiqu'on puisse imaginer cela dans un futur proche: si un utilisateur s'identifiait aupres d'un moteur de recherche et notait la pertinence des liens retournes, un algorithme baysien permettrait a un moteur de recherche, apres un certain temps, de "deviner" les preferences de l'utilisateur.

28 février, 2006 14:41  
Anonymous Anonyme a écrit...

Juste pour dire que traiter la candidature de Dieudonné de "farfelue" et l'exclure de l'étude n'est ni scientifique, ni démocratique. C'est mépriser environ 90% de l'opinion de la population noire française, plus un nombre non négligeable de française qui n'ont guère goûté l'incroyable campagne de haine dont il a fait l'objet. Rappelons aussi que 30 procès ont été lancés contre lui, notamment par des associations juives et anti-racistes pour son sketch soi-disant antisémite et que les 30 cours de justice (y compris en appel et en cassation) ne l'ont pas condamné. Alors soit la justice est totalement corrompue et antisémite soit il y a un petit problème chez tous ceux qui excluent d'office Dieudonné du débat public comme si c'était un monstre.
Il aurait été intéressant de voir ce que donne l'étude de webatisation avec ce candidat qui en vaut bien d'autres puisque on prédit qu'il peut éventuellement recueillir jusqu'à 5% des votes réels à l'élection présidentielle.

01 mars, 2006 17:48  
Blogger Jean Véronis a écrit...

Bolzano> Vous soulevez un point capital (la pertinence des liens commerciaux). D'une part, comme vous le dites, ils peuvent être pertinents (livres, etc.), d'autre part, pour l'instant on ne connaît pas d'autre modèle économique qui permettrait à un moteur d'exister. Le problème est que les associations sont la plupart du temps très mauvaises. Les moteurs en sont conscients; google a d'ailleurs créé un métier de "maximizer" pour, comme son nom l'indique, essayer de maximiser la rentabilité des annonces côté annonceur et évidement côté moteur.

Il y a, bien sûr, un énorme problème technologique (qui relève de l'analyse du langage!). Je crois que le premier moteur qui réussira à franchir ce fossé se taillera d'un coup la part du lion sur le marché.

01 mars, 2006 21:16  
Blogger Jean Véronis a écrit...

Blop> vous avez raison. La notion de "pertinence" peut recouvrir des tas de choses. ce qui est pertinent pour moi ne l'est peut-être pas pour vous, et ce qui est pertinent pour moi à un moment t1 ne l'est peut-être pas à un moment t2. C'est pour cela que je parle de "pertinence perçue", par un utilisateur en fonction de la requête qu'il a en tête à un moment précis. On pourrait tout à fait faire ce que vous dites (sauf que c'est coûteux!). Mais je me demande si on ne ferait pas que reporter le problème: finalement, tout finit par être pertinenet pour quelqu'un dans un contexte donné. Exemple: je cherchais il y a quelques jours les sites qui m'avait spammé, c'est-à-dire qui utilisaient "veronis" dans du pseudo-texte de remplissage. Donc à ce moment-là, des pages qui n'ont pas d'intérêt direct sur cette requête pour 99.999% des gens dont devenues hautement pertinentes pour moi! Sacré problème que vous soulevez!

Je crois qu'une piste pour les moteurs est de ne pas retourner tout en vrac, mais de faire des propositions par catégorie: livres, voyages, encyclopédie, etc. Il y a déjà des essais dans ce sens comme Seekport.

Au demeurant, n'est-ce pas ce que nous commençons à faire, je m'aperçois que je me sers de plus en plus de moteurs spécifiques (et de moins en moins de Google/Yahoo): quand je veux une info encyclopédique je cherche directement dans Wikipédia, quand je veux une actualité, je cherche dans Yahoo News, quand je veux acheter quelque chose dans Alapage, etc.

Le moteur qui fédèrera tout ça dans une interface ergonomique touchera le jackpot. En France, il y en a un qui pourrait, s'il le voulait... ;-)

01 mars, 2006 21:27  
Anonymous thierry a écrit...

Bonjour,

Je suis désolé de vous faire part, encore une fois, de mon mécontentement. A quoi rime de faire une étude pour aboutir à ce que tout le monde connait ? Bon je sais, vous pouvez dire, mon étude a le mérite de démontrer scientifiquement ce que nous savions tous... Est-ce que vous êtes payer pour ça ?

04 mars, 2006 10:37  
Blogger Guide Webmaster a écrit...

Merci pour cette étude intéressante.
Je pense que le moteur qui parviendra à personnaliser les résultats en fonction des préférences et de l'historique des recherches et de la navigation de chaque utilisateur arrivera à les satisfaire.
Un résultat individualisé pour chaque utilisateur ne me semble plus une utopie aujourd'hui.

07 mars, 2006 13:18  
Anonymous makulele a écrit...

je souhaite ajouter une petite nuance à propos de la qualité des moteurs. On parle bien ici de pertinence de résultats. toutefois comme vous le soulignez dans l'article "Nuages: D'un CPE à l'autre...", le temps joue une influence sur la qualité des réponses à donner. Or, quand on réalise un site internet et qu'on s'amuse à le référencer, on s'aperçoit qu'un seul moteur(et pourtant il n'est pas que mon ami...) indexe les pages en masse sur une durée d'un mois: google. Pour les autres moteurs, c'est catastrophique en général. grâce à lui par exemple, mon dernier site personnel est déjà visité.

18 mars, 2006 20:38  
Anonymous pierre a écrit...

Efectivement il y a une sérieuse dégradation de la pertinence de la recherche, les résultats font apparaitre surtout les liens commerciaux à partir d'un mot de recherche, pour y échapper, je suis pour ma part obliger d'utiliser plusieur mots pour la recherche et les fermer par ce signe "...".

Je pense que les moteurs devront évoluer et créant une catégorie pour les sites commerciaux distincte de la recherche d'informations (pure et dure), mais est-ce dans leur intérêt ?

27 avril, 2006 16:43  
Blogger eric a écrit...

si google est le plus complet, c'est qu'il est le meilleur!!

09 août, 2006 13:39  
Anonymous albert le vert a écrit...

Il n'y a qu'un véritable source donnant des résultats satisfaisants en matière de pertinence, c'est le trop peu utilisé DMOZ ODP, qui est un produit fait main, et qui est pompé mais mal pompé c'est le comble par les grands moteurs de recherche

12 octobre, 2006 17:49  
Anonymous Anonyme a écrit...

l'étude n'est plus a jour!
aujourd'hui, Google est de plus en plus puissant. Le moteur Yahoo est en train de mourrir.
Viva la révolution google :-)

20 octobre, 2006 15:35  
Anonymous astrozygote a écrit...

Bonjour, existe t'il une traduction en anglais de votre étude ?
Je serais très interessé pour pouvoir la diffuser.
Cordialement,

13 novembre, 2006 12:03  
Blogger Jean Véronis a écrit...

Oui, cliquez sur le drapeau anglais en haut à droite.

13 novembre, 2006 12:08  
Anonymous Thibault a écrit...

Et aujourd'hui... toujours ex-aequo!?? ;)

08 mai, 2008 22:40  

Enregistrer un commentaire