Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, avril 11, 2007

Moteurs: Et Voilà ?

Les lecteurs fidèles de ce blog se rappellent sans doute que j’avais réalisé fin 2005 une étude comparative de cinq moteurs de recherche. Cette étude, publiée en février 2006 avait fait grand bruit car elle montrait que Google et Yahoo obtenaient des résultats similaires en termes de pertinence.

Dans cette étude, le moteur Voilà d’Orange (anciennement Wanadoo) se classait bon dernier, ce qui me désolait : j’ai à de multiples reprises déploré que l’accès à l’information mondiale soit contrôlé à peu près exclusivement par trois sociétés américaines (Google, Yahoo, MSN), et Orange me paraissait être une des rares sociétés françaises de taille à rivaliser avec les géants d’outre-Atlantique si elle s’en donnait les moyens.


Note moyenne des 10 premiers liens retournés, déc. 2005

Les équipes de recherche et développement d’Orange ont-elles été piquées au vif ? Toujours est-il que j’ai observé au fil des mois de nettes améliorations sur le moteur Voilà, qui étaient l’indication claire d’un investissement et d’une reprise en main du côté d’Orange.

Tout d’abord, l’interface a été améliorée. Elle se présente désormais sous forme de boîtes modulaires, qui renvoient directement, en plus des liens et extraits textuels, les images et vidéos liées à une requête donnée, sans que l’utilisateur ait à recliquer sur un lien ou un onglet comme dans le cas de Google et Yahoo. Mais surtout, le principal grief que je faisais au moteur a été pris en compte. Les liens commerciaux apparaissent désormais dans un cadre nettement séparé du reste des résultats, comme dans les autres moteurs. Auparavant, ces résultats, retournés par la base de données Overture, étaient mélangés aux autres, sans indication visuelle particulière, et dégradaient très nettement l’impression de pertinence pour l’utilisateur. En effet, comme j’ai déjà eu l’occasion de le montrer (voir ici), les résultats commerciaux sont rarement d’une très grande pertinence (c’est vrai pour tous les moteurs). C’est d’ailleurs une chose qui ne cesse de m’étonner, puisque la publicité est une composante majeure du modèle économique des moteurs. Or, lorsqu’une requête sur l’Abbé Pierre renvoie des offres de livres sur le travail de la pierre, par exemple, il s’agit plus de bruit que d’autre chose pour l’utilisateur (alors que des liens commerciaux sur des livres concernant l’Abbé Pierre seraient pertinents).

Au-delà de ces améliorations ergonomiques, il m’a semblé déceler au fil des mois une amélioration très nette de la pertinence proprement dite du moteur, accompagnée d’un changement radical du comportement de son robot-crawler, qui s’est mis à indexer les sites de façon plus fréquente et plus profonde. Pour en avoir le cœur net, j’ai mis en place un « blind-test » du type de celui que j’avais réalisé avec mes étudiants fin 2005. Il aurait évidemment été intéressant d’inclure tous les moteurs de la précédente étude, Google, Yahoo, MSN, Exalead et Voilà (Dir.com est tombé à l’abandon), mais mes moyens en temps et en main d’œuvre étant cette fois-ci plus limités, je me suis contenté de Voilà avec le leader du marché, Google.

Le protocole est analogue à celui de l’étude de 2005, avec une petite différence dans le nombre de liens examinés. En 2005 les utilisateurs jugeaient les 10 premiers liens retournés (c’est-à-dire la première page de résultats), mais cette procédure étant assez lourde, je me suis limité à l’examen du premier lien, qui est celui sur lequel les utilisateurs cliquent dans la grande majorité des cas. Je fais par ailleurs l’hypothèse que le premier lien étant normalement le plus pertinent pour un moteur donné, du point de vue statistique, il doit donner une image correcte de la pertinence relative des deux moteurs. Cette hypothèse est vérifiée pour Google (vor étude de 2005), et elle paraît l’être désormais pour Voilà, depuis la séparation nette des résultats commerciaux et des résultats issus du moteur proprement dit (le mélange de ces résultats aboutissait auparavant à une dégradation des premiers résultats présentés dans la page, et à un résultat optimal autour de la position 8, voir ici).

55 étudiants ont posé chacun 20 requêtes qu'ils choisissaient librement dans 10 thèmes proposés de façon aléatoire (2 requêtes par thème, 1100 requêtes au total) :
  • Actualités
  • Animaux
  • Géo-voyages
  • Littérature
  • Musique
  • Nature
  • Célébrités
  • Politique
  • Santé
  • Sports
Chaque étudiant devait noter en aveugle la qualité du premier lien retourné par chacun des deux moteurs (ces liens étaient présentés dans un ordre également aléatoire pour éviter un biais éventuel). 2200 pages ont donc été vues et évaluées. L’échelle de notation, de 0 (Totalement mécontent du résultat) à 5 (Totalement satisfait du résultat), était la même que dans l’étude précédente, de façon à rendre les résultats comparables.

L’amélioration de la pertinence du moteur Voilà est très nettement perçue par les utilisateurs, puisque la note moyenne qu’ils donnent au premier résultat retourné est passée de 0,5 à 2,5 (tracé « Voilà 1er » sur la figure). Même en comparant avec la note de 1,6 retournée par la meilleure position dans la page en 2005, l’amélioration reste notable (tracé « Voilà max » sur la figure), ce qui montre qu’elle n’est pas due seulement à la séparation des résultats commerciaux des résultats réels de la recherche, mais véritablement à un travail sur les algorithmes de classement (et sans doute sur la qualité du crawl).


Comparaison décembre 2005 – mars 2007

Le moteur Voilà se rapproche désormais du résultat qu’obtenait Google fin 2005 (note de 2,9 sur le premier lien). Il est intéressant de remarquer que dans le même temps, Google a progressé aussi, passant de la note de 2,9 à celle de 3,5. La course à la qualité entre les moteurs ne semble donc pas terminée. Pour le plus grand bien des utilisateurs, sans doute. En tout cas, je vais suivre l’affaire de près, et je referai probablement un blind-test d’ici quelque temps pour voir si la tendance se confirme.

19 Commentaires:

Blogger Kaa a écrit...

Ouf ! On respire ;-)
En tous cas, tes étudiants en ont, de la chance... et toi de l'influence.

11 avril, 2007 10:14  
Blogger Mikado a écrit...

Très intéressant! Deux questions cependant: quelle note reçoit un lien wikipedia, qui est toujours dans les premiers? J'ai encore de la réticence à l'utiliser comme une source fiable, surtout pour certains sujets politiques. Pourquoi les liens "amazon" sont-ils dans le résultat de la recherche et non pas dans les liens commerciaux? Ils pourrissent en général deux ou trois places sur la première page de google...

11 avril, 2007 12:40  
Blogger Jean Véronis a écrit...

MIkado> Quelle note reçoit un lien Wikipedia ? -- Le principe d'une enquête-utilisateur, c'est que ce sont les utilisateurs qui jugent, donc je ne peux pas vous donner une réponse unique. Il est vrai que Wikipedia est plus ou moins fiable, surtout dans un tas de petits détails qui sont faux (dates, etc.) enre autres parce que le contrôle par la communauté est de plus en plus difficile au fur et à mesure que la base grandit. Ceci étant, il faut voir les choix que le Web offre. Souvent, on a (par exemple dans le domaine politique), des sites, des blogs, plus ou moins partisans et qui ne sont pas nécessairement plus fiables... Donc, il y a une question d'éducation de l'esprit ctitique face au Web d'une façon générale...

Pourquoi les liens "amazon" sont-ils dans le résultat de la recherche et non pas dans les liens commerciaux? -- Parce que les moteurs (tous) tirent des bénéfices de ces liens que les sites commerciaux leur fournissent en masse... Il est vrai qu'ils peuvent parfois être informatifs (par exemple le livre de l'Abbé Pierre sur la requ^te "Abbé Pierre"), mais souvent c'est du bruit. J'avais fait une étude là-dessus il y a quelque temps, montrant les affinités des moteurs avec ces sites (et donc leurs accords commerciaux) [voir ici] Voilà a fait un travail honnête de séparation des liens sponsorisés (retournés par la base Overture) et les autres, et même si ce n'est pas parfait, c'est, je crois, maintenant au même niveau que les autres moteurs...

11 avril, 2007 13:13  
Blogger Mikado a écrit...

merci pour votre réponse! Il serait peut-être intéressant d'étudier aussi les liens de détestation. A la recherche "boite à images", qui est un blog assez connu et réputé, google ne le répertorie qu'à la fin de la huitième page, alors que yahoo le mete en premier! Apparemment, google n'aime pas hautetfort, mais je ne sais pas pourquoi...

11 avril, 2007 13:32  
Blogger Jean Véronis a écrit...

Mikado>Ah oui, ça c'est plus difficile... On entre dans la cuisine, inconnue des pondérations des différents moteurs. Et, croyez-moi, la pureté de cristal de l'algorithme PageRank est bien loin...

11 avril, 2007 13:36  
Anonymous Anonyme a écrit...

Ce que je trouve vraiment déplorable, c'est le manque de normalisation des chaînes de caractères Unicode. Les recherches "école" et "école" donnent encore des résultats différents sur la majorité des moteurs de recherche. À ma connaissance seuls Yahoo! et Altavista considèrent ces deux chaînes comme là même, ce qui est correct.

11 avril, 2007 15:44  
Anonymous Olenka a écrit...

J'ai l'impression qu'il n'est pas venu le temps du réflexe Quaero, plutôt que le réflexe Google.

11 avril, 2007 15:45  
Anonymous Jean-Pierre a écrit...

Bonjour Jean.
Très bonne enquête... il faudra continuer à soumettre aux moteurs des axes d'amélioration.
Une seule question : pourquoi ne pas avoir testé les autres moteurs de l'enquête 2005 ? Une analyse de l'évolution de la note de tous les moteurs sur les mêmes critères aurait été, elle aussi, pertinente.

11 avril, 2007 16:40  
Blogger Jean Véronis a écrit...

Jean-Pierre> pourquoi ne pas avoir testé les autres moteurs de l'enquête 2005 ? -- C'est juste une question de moyens humains. Avec deux moteurs, le test dure environ 30 à 40 minutes par utilisateur, et ils veulent bien généralement donner ce temps gracieusement. Avec 5 moteurs (puisque Dir est mort) cela ferait une durée de test de l'ordre d'une heure et demie. Il faut fractionner l'épreuve en deux parties avec une pause, ça fait un truc de deux heures et là, on ne trouve guère de bénévoles. En 2005, j'avais pu caler ça dans le cadre d'un projet noté, et je n'ai pas eu cette possibilité cette fois-ci. Mais je reconnais être frustré !

11 avril, 2007 17:20  
Anonymous Dominique a écrit...

Un point intéressant serait de voir comment Voilà traite les URL des concurrents directs d'Orange : Free et Neuf. Quand je cherche mon site, je ne le trouve que par des liens indirects et non par le titre, les mots d'un texte, le nom d'une page, des URL précises (je me demande d'ailleurs si Voila peut traiter les URL comme Yahoo! et Google).

11 avril, 2007 18:24  
Anonymous jcd-bruxelles a écrit...

blind-test ou test à l'aveugle ?

11 avril, 2007 20:55  
Blogger Jean Véronis a écrit...

Jcd> Vous voyez une différence ?

11 avril, 2007 20:59  
Anonymous jcd a écrit...

yes/oui, je ne suis pas aveugle, I am not blind.

11 avril, 2007 21:22  
Anonymous tartempion a écrit...

Bonjour,

Juste une petite remarque d'ordre méthodologique. Je présume que les étudiants qui ont évaluer les deux moteurs de recherche ne sont pas les mêmes que ceux qui ont évalué les six la dernières fois. Et comme vous le savez, les accords entre évaluateurs sont peu répandus. De plus, vous avez légèrement changé le protocole en ne prenant en compte que le premier résultat retourné (les 10 premiers pour le précédent test).
Ma question est donc la suivante : comment évaluer la pertinence de la comparaison des résultats sachant qu'il ne s'agit pas eactement d'une même protocole et pas des mêmes évaluateurs ? Les résultats sont-ils tout simplement comparables ?

J'aurais tendance à dire qu'ils apparaissent significatifs pour "Voilà" mais pas assez spectaculaires pour "Google"...

12 avril, 2007 16:39  
Blogger Jean Véronis a écrit...

Tartempion> Vous soulevez deux points différents. Le premier, c'est-à-dire le fait que les évaluateurs soient différents, ne me semble pas poser de problème. C'est le cas dans la quasi totalité des enquêtes utilisateur (et, soit dit en passant) des sondages. On estime que le grand nombre de sujets (ici, 55) annule, de façon statistique, le variations individuelles. Je ne voudrais pas fatiguer les lecteurs avec des considérations compliquée, mais on peut calculer (ce que j'ai fait), un écart-type, puis une erreur-type etc., et fournir une fourchette ou intervalle de confiance. Il est très réduit ici (de l'ordre de 0,1 point pour un intervalle de confiance à 95%).

L'autre problème que vous soulevez est un peu plus gênant, car je ne peux pas vous opposer d'argument mathématique clair et précis comme dans le premier cas. Je ne peux vous livrer que mon "intime conviction", et vous n'êtes pas obligé de me croire. Il est vrai que dans la première étude, les utilisateurs jugeaient 10 liens par requête et il peut donc y avoir un biais dans la mesure où cette fois-ci ils n'en jugent plus qu'un. J'y ai pensé... Néanmoins, dans la première étude, les liens étaient proposés en ordre aléatoire, et évidemment sans connaissance non plus du moteur (en aveugle). Donc, je vois mal dans quel sens et pourquoi un biais systématique pourrait intervenir, mais sait-on jamais.

La tendance est néanmoins suffisamment importante (surtout pour Voilà, comme vous le mentionnez) pour que je sois assez confiant dans l'amélioration observée.

J'espère pouvoir refaire un test dans les mêmes conditions dans quelques semaines, et on verra si les choses bougent...

12 avril, 2007 21:16  
Anonymous Thierry Fontenelle a écrit...

Très intéressante étude, Jean. A propos de cette phrase :

Or, lorsqu’une requête sur l’Abbé Pierre renvoie des offres de livres sur le travail de la pierre, par exemple, il s’agit plus de bruit que d’autre chose pour l’utilisateur (alors que des liens commerciaux sur des livres concernant l’Abbé Pierre seraient pertinents).

J’ai essayé la requête « Abbé Pierre (sans guillemets, langue = français) sur www.live.com, avec le nouveau moteur de Microsoft. Le lien « sponsorisé » renvoie vers des livres sur ou de l’Abbé Pierre sur Amazon.com. (Le premier est « Confessions »). Il y a donc peut-être de l’espoir ;-)))

Bien à toi,

Thierry [MSFT]

14 avril, 2007 19:25  
Anonymous Anonyme a écrit...

Bonjour Jean Véronis,

Si vous avez des tests à faire faire, étant donné que je lis beaucoup vos articles, je suis prêt à participer.

Je lis rarement les commentaires, donc si vous souhaitez faire des tests avec vos lecteurs, mettez le sur un billet.

David
Ps:Pour moi, la disponibilité arrivera dans 1 mois (en gros), après mes écrits aux concours.

15 avril, 2007 15:34  
Anonymous Anonyme a écrit...

Bonjour,

ca fait plaisir de te lire à nouveau traiter de sujets plus 'techniques' à cette période très propice aux posts plus politiques.

concernant les résultats des test, je pense qu'il faut prendre en compte le fait que Google renvoie de plus en plus de resultats provenant de Wikipedia, comme on a pu le lire assez souvent ces derniers mois. Cf: http://photos1.blogger.com/x/blogger/2818/1046/1600/769009/wikipedia-goog.png

Mais est ce que ca a vraiment impacté sur tes résultats?
Je serais curieux de savoir combien d'articles Wikipedia ont été renvoyés par les différentes recherches effectués sur ce test.
Et si Google en a renvoyé plus que Voila.

Instructif en tout cas. Merci.

18 avril, 2007 01:21  
Anonymous tieu a écrit...

bonjour Jean,
merci pour cette enquête intéressante.
Elle m'a redonné envie de consulter le moteur voila que j'avais délaissé il y a plusieurs années. Après essai, je regrette qu'il ne fournisse pas le nombre de réponses à une requète (ce qui un outil utile). De plus, j'ai l'impression que les trucs utilisés sur google ne marchent pas sur voila : guillements, signe moins...
Est-ce que ces critèers sont pris en compte ?
A mon niveau c'est suffisant pour préférer google.
Pour le confort des yeux, la sobrièté de google est aussi très appréciable, comparée aux pages surchargées de voila.

24 avril, 2007 13:18  

Enregistrer un commentaire