Moteurs: Et Voilà ?
Les lecteurs fidèles de ce blog se rappellent sans doute que j’avais réalisé fin 2005 une étude comparative de cinq moteurs de recherche. Cette étude, publiée en février 2006 avait fait grand bruit car elle montrait que Google et Yahoo obtenaient des résultats similaires en termes de pertinence.
Dans cette étude, le moteur Voilà d’Orange (anciennement Wanadoo) se classait bon dernier, ce qui me désolait : j’ai à de multiples reprises déploré que l’accès à l’information mondiale soit contrôlé à peu près exclusivement par trois sociétés américaines (Google, Yahoo, MSN), et Orange me paraissait être une des rares sociétés françaises de taille à rivaliser avec les géants d’outre-Atlantique si elle s’en donnait les moyens.
Les équipes de recherche et développement d’Orange ont-elles été piquées au vif ? Toujours est-il que j’ai observé au fil des mois de nettes améliorations sur le moteur Voilà, qui étaient l’indication claire d’un investissement et d’une reprise en main du côté d’Orange.
Tout d’abord, l’interface a été améliorée. Elle se présente désormais sous forme de boîtes modulaires, qui renvoient directement, en plus des liens et extraits textuels, les images et vidéos liées à une requête donnée, sans que l’utilisateur ait à recliquer sur un lien ou un onglet comme dans le cas de Google et Yahoo. Mais surtout, le principal grief que je faisais au moteur a été pris en compte. Les liens commerciaux apparaissent désormais dans un cadre nettement séparé du reste des résultats, comme dans les autres moteurs. Auparavant, ces résultats, retournés par la base de données Overture, étaient mélangés aux autres, sans indication visuelle particulière, et dégradaient très nettement l’impression de pertinence pour l’utilisateur. En effet, comme j’ai déjà eu l’occasion de le montrer (voir ici), les résultats commerciaux sont rarement d’une très grande pertinence (c’est vrai pour tous les moteurs). C’est d’ailleurs une chose qui ne cesse de m’étonner, puisque la publicité est une composante majeure du modèle économique des moteurs. Or, lorsqu’une requête sur l’Abbé Pierre renvoie des offres de livres sur le travail de la pierre, par exemple, il s’agit plus de bruit que d’autre chose pour l’utilisateur (alors que des liens commerciaux sur des livres concernant l’Abbé Pierre seraient pertinents).
Au-delà de ces améliorations ergonomiques, il m’a semblé déceler au fil des mois une amélioration très nette de la pertinence proprement dite du moteur, accompagnée d’un changement radical du comportement de son robot-crawler, qui s’est mis à indexer les sites de façon plus fréquente et plus profonde. Pour en avoir le cœur net, j’ai mis en place un « blind-test » du type de celui que j’avais réalisé avec mes étudiants fin 2005. Il aurait évidemment été intéressant d’inclure tous les moteurs de la précédente étude, Google, Yahoo, MSN, Exalead et Voilà (Dir.com est tombé à l’abandon), mais mes moyens en temps et en main d’œuvre étant cette fois-ci plus limités, je me suis contenté de Voilà avec le leader du marché, Google.
Le protocole est analogue à celui de l’étude de 2005, avec une petite différence dans le nombre de liens examinés. En 2005 les utilisateurs jugeaient les 10 premiers liens retournés (c’est-à-dire la première page de résultats), mais cette procédure étant assez lourde, je me suis limité à l’examen du premier lien, qui est celui sur lequel les utilisateurs cliquent dans la grande majorité des cas. Je fais par ailleurs l’hypothèse que le premier lien étant normalement le plus pertinent pour un moteur donné, du point de vue statistique, il doit donner une image correcte de la pertinence relative des deux moteurs. Cette hypothèse est vérifiée pour Google (vor étude de 2005), et elle paraît l’être désormais pour Voilà, depuis la séparation nette des résultats commerciaux et des résultats issus du moteur proprement dit (le mélange de ces résultats aboutissait auparavant à une dégradation des premiers résultats présentés dans la page, et à un résultat optimal autour de la position 8, voir ici).
55 étudiants ont posé chacun 20 requêtes qu'ils choisissaient librement dans 10 thèmes proposés de façon aléatoire (2 requêtes par thème, 1100 requêtes au total) :
L’amélioration de la pertinence du moteur Voilà est très nettement perçue par les utilisateurs, puisque la note moyenne qu’ils donnent au premier résultat retourné est passée de 0,5 à 2,5 (tracé « Voilà 1er » sur la figure). Même en comparant avec la note de 1,6 retournée par la meilleure position dans la page en 2005, l’amélioration reste notable (tracé « Voilà max » sur la figure), ce qui montre qu’elle n’est pas due seulement à la séparation des résultats commerciaux des résultats réels de la recherche, mais véritablement à un travail sur les algorithmes de classement (et sans doute sur la qualité du crawl).
Comparaison décembre 2005 – mars 2007
Le moteur Voilà se rapproche désormais du résultat qu’obtenait Google fin 2005 (note de 2,9 sur le premier lien). Il est intéressant de remarquer que dans le même temps, Google a progressé aussi, passant de la note de 2,9 à celle de 3,5. La course à la qualité entre les moteurs ne semble donc pas terminée. Pour le plus grand bien des utilisateurs, sans doute. En tout cas, je vais suivre l’affaire de près, et je referai probablement un blind-test d’ici quelque temps pour voir si la tendance se confirme.
Dans cette étude, le moteur Voilà d’Orange (anciennement Wanadoo) se classait bon dernier, ce qui me désolait : j’ai à de multiples reprises déploré que l’accès à l’information mondiale soit contrôlé à peu près exclusivement par trois sociétés américaines (Google, Yahoo, MSN), et Orange me paraissait être une des rares sociétés françaises de taille à rivaliser avec les géants d’outre-Atlantique si elle s’en donnait les moyens.
Note moyenne des 10 premiers liens retournés, déc. 2005
Les équipes de recherche et développement d’Orange ont-elles été piquées au vif ? Toujours est-il que j’ai observé au fil des mois de nettes améliorations sur le moteur Voilà, qui étaient l’indication claire d’un investissement et d’une reprise en main du côté d’Orange.
Tout d’abord, l’interface a été améliorée. Elle se présente désormais sous forme de boîtes modulaires, qui renvoient directement, en plus des liens et extraits textuels, les images et vidéos liées à une requête donnée, sans que l’utilisateur ait à recliquer sur un lien ou un onglet comme dans le cas de Google et Yahoo. Mais surtout, le principal grief que je faisais au moteur a été pris en compte. Les liens commerciaux apparaissent désormais dans un cadre nettement séparé du reste des résultats, comme dans les autres moteurs. Auparavant, ces résultats, retournés par la base de données Overture, étaient mélangés aux autres, sans indication visuelle particulière, et dégradaient très nettement l’impression de pertinence pour l’utilisateur. En effet, comme j’ai déjà eu l’occasion de le montrer (voir ici), les résultats commerciaux sont rarement d’une très grande pertinence (c’est vrai pour tous les moteurs). C’est d’ailleurs une chose qui ne cesse de m’étonner, puisque la publicité est une composante majeure du modèle économique des moteurs. Or, lorsqu’une requête sur l’Abbé Pierre renvoie des offres de livres sur le travail de la pierre, par exemple, il s’agit plus de bruit que d’autre chose pour l’utilisateur (alors que des liens commerciaux sur des livres concernant l’Abbé Pierre seraient pertinents).
Au-delà de ces améliorations ergonomiques, il m’a semblé déceler au fil des mois une amélioration très nette de la pertinence proprement dite du moteur, accompagnée d’un changement radical du comportement de son robot-crawler, qui s’est mis à indexer les sites de façon plus fréquente et plus profonde. Pour en avoir le cœur net, j’ai mis en place un « blind-test » du type de celui que j’avais réalisé avec mes étudiants fin 2005. Il aurait évidemment été intéressant d’inclure tous les moteurs de la précédente étude, Google, Yahoo, MSN, Exalead et Voilà (Dir.com est tombé à l’abandon), mais mes moyens en temps et en main d’œuvre étant cette fois-ci plus limités, je me suis contenté de Voilà avec le leader du marché, Google.
Le protocole est analogue à celui de l’étude de 2005, avec une petite différence dans le nombre de liens examinés. En 2005 les utilisateurs jugeaient les 10 premiers liens retournés (c’est-à-dire la première page de résultats), mais cette procédure étant assez lourde, je me suis limité à l’examen du premier lien, qui est celui sur lequel les utilisateurs cliquent dans la grande majorité des cas. Je fais par ailleurs l’hypothèse que le premier lien étant normalement le plus pertinent pour un moteur donné, du point de vue statistique, il doit donner une image correcte de la pertinence relative des deux moteurs. Cette hypothèse est vérifiée pour Google (vor étude de 2005), et elle paraît l’être désormais pour Voilà, depuis la séparation nette des résultats commerciaux et des résultats issus du moteur proprement dit (le mélange de ces résultats aboutissait auparavant à une dégradation des premiers résultats présentés dans la page, et à un résultat optimal autour de la position 8, voir ici).
55 étudiants ont posé chacun 20 requêtes qu'ils choisissaient librement dans 10 thèmes proposés de façon aléatoire (2 requêtes par thème, 1100 requêtes au total) :
- Actualités
- Animaux
- Géo-voyages
- Littérature
- Musique
- Nature
- Célébrités
- Politique
- Santé
- Sports
L’amélioration de la pertinence du moteur Voilà est très nettement perçue par les utilisateurs, puisque la note moyenne qu’ils donnent au premier résultat retourné est passée de 0,5 à 2,5 (tracé « Voilà 1er » sur la figure). Même en comparant avec la note de 1,6 retournée par la meilleure position dans la page en 2005, l’amélioration reste notable (tracé « Voilà max » sur la figure), ce qui montre qu’elle n’est pas due seulement à la séparation des résultats commerciaux des résultats réels de la recherche, mais véritablement à un travail sur les algorithmes de classement (et sans doute sur la qualité du crawl).
Comparaison décembre 2005 – mars 2007
Le moteur Voilà se rapproche désormais du résultat qu’obtenait Google fin 2005 (note de 2,9 sur le premier lien). Il est intéressant de remarquer que dans le même temps, Google a progressé aussi, passant de la note de 2,9 à celle de 3,5. La course à la qualité entre les moteurs ne semble donc pas terminée. Pour le plus grand bien des utilisateurs, sans doute. En tout cas, je vais suivre l’affaire de près, et je referai probablement un blind-test d’ici quelque temps pour voir si la tendance se confirme.
19 Commentaires:
Ouf ! On respire ;-)
En tous cas, tes étudiants en ont, de la chance... et toi de l'influence.
Très intéressant! Deux questions cependant: quelle note reçoit un lien wikipedia, qui est toujours dans les premiers? J'ai encore de la réticence à l'utiliser comme une source fiable, surtout pour certains sujets politiques. Pourquoi les liens "amazon" sont-ils dans le résultat de la recherche et non pas dans les liens commerciaux? Ils pourrissent en général deux ou trois places sur la première page de google...
MIkado> Quelle note reçoit un lien Wikipedia ? -- Le principe d'une enquête-utilisateur, c'est que ce sont les utilisateurs qui jugent, donc je ne peux pas vous donner une réponse unique. Il est vrai que Wikipedia est plus ou moins fiable, surtout dans un tas de petits détails qui sont faux (dates, etc.) enre autres parce que le contrôle par la communauté est de plus en plus difficile au fur et à mesure que la base grandit. Ceci étant, il faut voir les choix que le Web offre. Souvent, on a (par exemple dans le domaine politique), des sites, des blogs, plus ou moins partisans et qui ne sont pas nécessairement plus fiables... Donc, il y a une question d'éducation de l'esprit ctitique face au Web d'une façon générale...
Pourquoi les liens "amazon" sont-ils dans le résultat de la recherche et non pas dans les liens commerciaux? -- Parce que les moteurs (tous) tirent des bénéfices de ces liens que les sites commerciaux leur fournissent en masse... Il est vrai qu'ils peuvent parfois être informatifs (par exemple le livre de l'Abbé Pierre sur la requ^te "Abbé Pierre"), mais souvent c'est du bruit. J'avais fait une étude là-dessus il y a quelque temps, montrant les affinités des moteurs avec ces sites (et donc leurs accords commerciaux) [voir ici] Voilà a fait un travail honnête de séparation des liens sponsorisés (retournés par la base Overture) et les autres, et même si ce n'est pas parfait, c'est, je crois, maintenant au même niveau que les autres moteurs...
merci pour votre réponse! Il serait peut-être intéressant d'étudier aussi les liens de détestation. A la recherche "boite à images", qui est un blog assez connu et réputé, google ne le répertorie qu'à la fin de la huitième page, alors que yahoo le mete en premier! Apparemment, google n'aime pas hautetfort, mais je ne sais pas pourquoi...
Mikado>Ah oui, ça c'est plus difficile... On entre dans la cuisine, inconnue des pondérations des différents moteurs. Et, croyez-moi, la pureté de cristal de l'algorithme PageRank est bien loin...
Ce que je trouve vraiment déplorable, c'est le manque de normalisation des chaînes de caractères Unicode. Les recherches "école" et "école" donnent encore des résultats différents sur la majorité des moteurs de recherche. À ma connaissance seuls Yahoo! et Altavista considèrent ces deux chaînes comme là même, ce qui est correct.
J'ai l'impression qu'il n'est pas venu le temps du réflexe Quaero, plutôt que le réflexe Google.
Bonjour Jean.
Très bonne enquête... il faudra continuer à soumettre aux moteurs des axes d'amélioration.
Une seule question : pourquoi ne pas avoir testé les autres moteurs de l'enquête 2005 ? Une analyse de l'évolution de la note de tous les moteurs sur les mêmes critères aurait été, elle aussi, pertinente.
Jean-Pierre> pourquoi ne pas avoir testé les autres moteurs de l'enquête 2005 ? -- C'est juste une question de moyens humains. Avec deux moteurs, le test dure environ 30 à 40 minutes par utilisateur, et ils veulent bien généralement donner ce temps gracieusement. Avec 5 moteurs (puisque Dir est mort) cela ferait une durée de test de l'ordre d'une heure et demie. Il faut fractionner l'épreuve en deux parties avec une pause, ça fait un truc de deux heures et là, on ne trouve guère de bénévoles. En 2005, j'avais pu caler ça dans le cadre d'un projet noté, et je n'ai pas eu cette possibilité cette fois-ci. Mais je reconnais être frustré !
Un point intéressant serait de voir comment Voilà traite les URL des concurrents directs d'Orange : Free et Neuf. Quand je cherche mon site, je ne le trouve que par des liens indirects et non par le titre, les mots d'un texte, le nom d'une page, des URL précises (je me demande d'ailleurs si Voila peut traiter les URL comme Yahoo! et Google).
blind-test ou test à l'aveugle ?
Jcd> Vous voyez une différence ?
yes/oui, je ne suis pas aveugle, I am not blind.
Bonjour,
Juste une petite remarque d'ordre méthodologique. Je présume que les étudiants qui ont évaluer les deux moteurs de recherche ne sont pas les mêmes que ceux qui ont évalué les six la dernières fois. Et comme vous le savez, les accords entre évaluateurs sont peu répandus. De plus, vous avez légèrement changé le protocole en ne prenant en compte que le premier résultat retourné (les 10 premiers pour le précédent test).
Ma question est donc la suivante : comment évaluer la pertinence de la comparaison des résultats sachant qu'il ne s'agit pas eactement d'une même protocole et pas des mêmes évaluateurs ? Les résultats sont-ils tout simplement comparables ?
J'aurais tendance à dire qu'ils apparaissent significatifs pour "Voilà" mais pas assez spectaculaires pour "Google"...
Tartempion> Vous soulevez deux points différents. Le premier, c'est-à-dire le fait que les évaluateurs soient différents, ne me semble pas poser de problème. C'est le cas dans la quasi totalité des enquêtes utilisateur (et, soit dit en passant) des sondages. On estime que le grand nombre de sujets (ici, 55) annule, de façon statistique, le variations individuelles. Je ne voudrais pas fatiguer les lecteurs avec des considérations compliquée, mais on peut calculer (ce que j'ai fait), un écart-type, puis une erreur-type etc., et fournir une fourchette ou intervalle de confiance. Il est très réduit ici (de l'ordre de 0,1 point pour un intervalle de confiance à 95%).
L'autre problème que vous soulevez est un peu plus gênant, car je ne peux pas vous opposer d'argument mathématique clair et précis comme dans le premier cas. Je ne peux vous livrer que mon "intime conviction", et vous n'êtes pas obligé de me croire. Il est vrai que dans la première étude, les utilisateurs jugeaient 10 liens par requête et il peut donc y avoir un biais dans la mesure où cette fois-ci ils n'en jugent plus qu'un. J'y ai pensé... Néanmoins, dans la première étude, les liens étaient proposés en ordre aléatoire, et évidemment sans connaissance non plus du moteur (en aveugle). Donc, je vois mal dans quel sens et pourquoi un biais systématique pourrait intervenir, mais sait-on jamais.
La tendance est néanmoins suffisamment importante (surtout pour Voilà, comme vous le mentionnez) pour que je sois assez confiant dans l'amélioration observée.
J'espère pouvoir refaire un test dans les mêmes conditions dans quelques semaines, et on verra si les choses bougent...
Très intéressante étude, Jean. A propos de cette phrase :
Or, lorsqu’une requête sur l’Abbé Pierre renvoie des offres de livres sur le travail de la pierre, par exemple, il s’agit plus de bruit que d’autre chose pour l’utilisateur (alors que des liens commerciaux sur des livres concernant l’Abbé Pierre seraient pertinents).
J’ai essayé la requête « Abbé Pierre (sans guillemets, langue = français) sur www.live.com, avec le nouveau moteur de Microsoft. Le lien « sponsorisé » renvoie vers des livres sur ou de l’Abbé Pierre sur Amazon.com. (Le premier est « Confessions »). Il y a donc peut-être de l’espoir ;-)))
Bien à toi,
Thierry [MSFT]
Bonjour Jean Véronis,
Si vous avez des tests à faire faire, étant donné que je lis beaucoup vos articles, je suis prêt à participer.
Je lis rarement les commentaires, donc si vous souhaitez faire des tests avec vos lecteurs, mettez le sur un billet.
David
Ps:Pour moi, la disponibilité arrivera dans 1 mois (en gros), après mes écrits aux concours.
Bonjour,
ca fait plaisir de te lire à nouveau traiter de sujets plus 'techniques' à cette période très propice aux posts plus politiques.
concernant les résultats des test, je pense qu'il faut prendre en compte le fait que Google renvoie de plus en plus de resultats provenant de Wikipedia, comme on a pu le lire assez souvent ces derniers mois. Cf: http://photos1.blogger.com/x/blogger/2818/1046/1600/769009/wikipedia-goog.png
Mais est ce que ca a vraiment impacté sur tes résultats?
Je serais curieux de savoir combien d'articles Wikipedia ont été renvoyés par les différentes recherches effectués sur ce test.
Et si Google en a renvoyé plus que Voila.
Instructif en tout cas. Merci.
bonjour Jean,
merci pour cette enquête intéressante.
Elle m'a redonné envie de consulter le moteur voila que j'avais délaissé il y a plusieurs années. Après essai, je regrette qu'il ne fournisse pas le nombre de réponses à une requète (ce qui un outil utile). De plus, j'ai l'impression que les trucs utilisés sur google ne marchent pas sur voila : guillements, signe moins...
Est-ce que ces critèers sont pris en compte ?
A mon niveau c'est suffisant pour préférer google.
Pour le confort des yeux, la sobrièté de google est aussi très appréciable, comparée aux pages surchargées de voila.
Enregistrer un commentaire