Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

lundi, novembre 26, 2007

Moteurs : Comparaison Google-Yahoo


Je viens de réaliser une évaluation de la pertinence des moteurs Google et Yahoo (versions françaises www.google.fr et fr.search.yahoo.com). 70 utilisateurs (étudiants) ont posé chacun 20 requêtes qu’ils choisissaient librement dans 10 thèmes proposés de façon aléatoire (2 requêtes par thème, 1400 requêtes au total) :
  • Actualités
  • Animaux
  • Géo-voyages
  • Littérature
  • Musique
  • Nature
  • Célébrités
  • Politique
  • Santé
  • Sports
Chaque étudiant devait noter en aveugle la qualité du premier lien retourné par chacun des deux moteurs (c’est-à-dire qu’aucune information ne permettait d’identifier les moteurs). Les liens étaient présentés dans un ordre également aléatoire pour éviter un biais éventuel. 2800 pages ont donc été vues et évaluées. Après examen des pages, l’utilisateur était invité à saisir une note sur une échelle de 0 à 5 pour chacune :
  • 0 = Totalement mécontent du résultat
  • 1 = Mécontent du résultat
  • 2 = Plutôt mécontent du résultat
  • 3 = Plutôt satisfait du résultat
  • 4 = Satisfait du résultat
  • 5 = Totalement satisfait du résultat
Google dépasse légèrement Yahoo, de 0,2 points (3,6 contre 3,4). La différence n'est pas énorme, mais elle est statistiquement significative (test t : p = 3,5 x 10-5). Bien entendu, ce test n’est que partiel, puisqu’il ne porte (pour des raisons de coût humain) que sur le premier lien retourné par chacun des moteurs, mais il donne néanmoins une indication intéressante de la pertinence relative de chacun d’entre eux. Je note également une très légère progression de Google par rapport à une comparaison que j’avais faite en avril avec le moteur Voilà (et hélas pas Yahoo) exactement avec le même protocole mais cette différence n’est pas statistiquement significative.



L’examen détaillé des liens retournés est également instructif. Google et Yahoo retournent un premier lien identique dans 27% des cas. Dans une étude précédente (dont le protocole était légèrement différent), réalisée en décembre 2005, la proportion était de 24%. L’ordre de grandeur est donc semblable.

Le résultat le plus étonnant provient de l’utilisation de Wikipedia. Cette utilisation était marginale en décembre 2005 (voir étude). A l’époque, sur l’ensemble des 10 résultats de la première page, Google retournait 2% de liens provenant de Wikipedia et Yahoo 4%. Sur le premier lien seul, Google ne retournait aucun résultat de Wikipedia (du moins dans notre échantillon) et Yahoo 7%.

Les stratégies ont complètement changé. Google retourne désormais 27% de résultats de Wikipedia sur le seul premier lien, et Yahoo 31%.

Comment expliquer cet intérêt soudain pour Wikipedia de la part des deux moteurs ? Il est sans doute à mettre en relation avec la difficulté croissante qu’ont les moteurs à calculer des fonctions de pertinence (ranking) satisfaisantes. Le bon vieux temps de l’algorithme PageRank est révolu. Il était relativement adapté à un réseau assez stable dans le temps et assez fortement interconnecté. L’explosion des blogs et des sites de news a fortement changé la donne. La plus grande partie du Web est désormais de nature volatile et éphémère, et sauf exception, les billets et dépêches d’actualité sont très peu liés.

Face à ces difficultés, Wikipedia et quelques autres sites de référence comme Doctissimo, Allociné, et les sites des grands quotidiens (La Tribune, Le Monde, Le Figaro, etc.) sont des valeurs sûres. Leur image est bonne et j’ai pu constater en questionnant les utilisateurs que même quand Wikipedia et les autres sites de référence ne renvoient pas vraiment la réponse à la question posée (par exemple dans le domaine de l’actualité), l’appréciation portée sur le moteur reste très positive. L’utilisateur se dit en gros « ce n’est pas ce que je cherche, mais c’est pertinent quand même ».

La note moyenne attribuée par les utilisateurs lorsque le résultat est dans Wikipedia est de près d’un point supérieure, dans le cas de Google comme de Yahoo, à la note attribuée aux autres résultats.



Pousser Wikipedia à l’extrême est donc une stratégie payante à peu de frais. Elle est toutefois dangereuse. Le jour où les utilisateurs s’apercevront que, par exemple grâce à la barre de recherche de Firefox, ils peuvent chercher directement dans Wikipedia s’ils veulent des informations encyclopédiques, dans Wikio pour l’actu et les blogs, dans Allociné pour le cinéma et ainsi de suite, le concept (vieillot, à mon sens) du moteur généraliste aura du plomb dans l’aile. On commence à en percevoir les limites.



A lire aussi


46 Commentaires:

Anonymous Vonric a écrit...

Pas d'accord sur la conclusion. En effet sur le principe de qui peu le plus peu le moins, je préfère souvent avoir le choix entre différentes sources: en recherchant des infos sur telle personnalité, les infos Wikipedia peuvent m'intéresser, mais peut être y-a t'il un site d'archives audio/vidéo propre par exemple, que je ne verrais pas avec uen recherche se limitant a l'encyclopédie.

26 novembre, 2007 12:49  
Blogger Jean Véronis a écrit...

Ca dépend évidemment de ce qu'on cherche. J'ai moi-même une utilisation alternative des moteurs spécialisés (Wikipedia, Wikio, etc.) et d'un moteur généraliste. Mais je m'aperçois que j'ai tendance de plus en plus à aller vers le spécialisé (en particulier pour l'actu avec Wikio qui est vraiment superbe). Donc, ce n'est pas la fin définitive du moteur généraliste, mais ça peut signifier une perte de business pour Google (et Yahoo, mais ils en ont déà bien peu ;-).

26 novembre, 2007 12:57  
Blogger Jean-Marie Le Ray a écrit...

Bonjour Jean,

J'y ajouterais Microsoft, mais également la taille, les fonctionnalités de cache et le taux de rafraîchissement des index, chose que j'ai faite, de manière très artisanale, je vous l'accorde. :-)

Jean-Marie

P.S. Est-il besoin de préciser, Google gagnait sur toute la ligne : exhaustivité, pertinence, rapidité.

26 novembre, 2007 12:59  
Anonymous foobar a écrit...

Peut il exister un biais pro-google dans les requetes ? J'ai l'impression que on peut aussi creer les requetes afin que google nous donne un meilleur resultat (en tout cas je n'utilise clairement pas les memes requetes au fil des ans, entre 2000 et aujourd'hui par exemple).

26 novembre, 2007 13:04  
Blogger Jean Véronis a écrit...

jean-maire> merci pour le lien ! Je n'avais pas vu cette étude. Très intéressant...

26 novembre, 2007 13:05  
Blogger Jean Véronis a écrit...

Foobar> Vous voulez dire que les gens, au fil des années, se sont conditionnés à formuler des requêtes qui marchent bien sur Google ? Pas impossible ! (mais difficile à démontrer...)

En tout cas, c'est une donnée incontournable à un instant t pour tout moteur qui veut faire du business. Il faut qu'ils prennent les utilisateurs comme ils sont...

Une chose est certaine: les comportement changent. Dans cette étude, 67% des requêtes étaient à plusieurs termes. Une proportion bien plus importante que ce qu'on observait il y a quelques années.

En revanche, seules 6,6% des requêtes utilisaient les guillemets de recherche exacte, même chand les requêtes étaient manifestement des expressions ("britney spears", etc.). Ca irait dans votre sens: les utilisateurs ont sans doute "appris" que ça ne fait pas grande différence avec Google.

26 novembre, 2007 13:11  
Blogger Solal a écrit...

Le jour où les utilisateurs s’apercevront que, par exemple grâce à la barre de recherche de Firefox, ils peuvent chercher directement dans Wikipedia s’ils veulent des informations encyclopédiques,

Mouais, on en reparlera le jour où le meilleur moyen de rechercher de l'info sur Wikipedia ne sera plus justement de faire une recherche Google limitée au domaine (en|fr|...).wikipedia.org .

26 novembre, 2007 13:43  
Blogger Jean Véronis a écrit...

Solal> Vrai... mais ça peut changer. En même temps, il n'y a pas grand monde (à part nous autres geeks) qui utilise ce genre de fonctionnalité (en tout cas pas assez pour que ça fasse du business!).

26 novembre, 2007 13:46  
Anonymous Laurent a écrit...

Pour les recherches sur Wikipedia, Exalead s'en sort assez bien avec une page dédiée à ça (http://www.exalead.fr/wikipedia/). D'ailleurs, il serait intéressant de re-tester Exalead la prochaine fois (il a fait des progrès depuis 2005).

L'étude est très intéressante. Pour ma part, je trouve que le taux de pages Wikipédia est trop important. Je trouve que ça pollue un peu les résultats, et aimerais avoir plus d'alternatives (même s'il faut reconnaitre qu'elles sont souvent pertinentes).

26 novembre, 2007 14:12  
Anonymous Jerome a écrit...

> Le jour où les utilisateurs s’apercevront que, par exemple grâce à la barre de recherche de Firefox, ils peuvent chercher directement dans Wikipedia

Mouais... je suis également sceptique sur cette fonctionnalité. J'ai essayé plusieurs fois de m'y mettre, c'est très lourd. On oublie en général de remettre son moteur préféré après une recherche sur tel ou tel site, la requête suivante on s'énerve.

Comme dit plus haut par foobar, il vaut mieux adapter ses requêtes. Par exemple google retourne les résultats de wikipédia dès qu'on met "wik" en début de requête. Pour 90% des titres de films, allociné sort, sinon un petit "allocine" dans la requête force les résutats.

Après, sur le fond de l'étude, reste à savoir qui sont ces étudiants, leurs besoins, et leur promptitude a être satisfaits ! Perso en tant qu'informaticien, google reste le maître incontesté dans la recherche de solutions aux problèmes d'informaticiens... 3 mots clé dans la requête et il sort 2 ou 3 bons threads de forums dans la première page... Mais pour les célébrités, les animaux, la santé... là, je sais pas ;)

26 novembre, 2007 14:14  
Anonymous cratyle a écrit...

Je crois que la remarque de foobar est déterminante.

Non seulement les utilisateurs apprenent à formuler des requètes adapatées à Google, mais surtout, ils ont au fil du temps développé des attentes vis-à-vis des moteurs de recherche. Ils savent intuitivement ce qu'il peuvent obtenir et mesure leur satisfaction par rapport à ce point de référence - c'est en fait un trait général pour tous les médias.

Jean> Il est possible de tester -un peu- cet effet en proposant un questionnaire sur les attentes des étudiants avant que la recherche soit effectuée et en la comparant avec leur profil / expérience d'utilisation du net.

26 novembre, 2007 15:10  
Anonymous Port-Royal a écrit...

Comme Laurent, je regrette que le moteur Exalead ne soit pas plus souvent évoqué car je trouve ses modalités de recherche “intelligente” particulièrement intéressantes. Quant aux critères de classement, il me semble que ceux d’Exalead sont un peu différents de ceux de Google - ce pour quoi je conseille, pour ma part, dans les recherches d’utiliser en parallèle ces deux moteurs.
Solal signale l’intérêt de la barre de recherche dans Firefox : je ne crois pas que ce soit là un usage de “geek” (en tout cas je ne me sens pas “geek” dans ma recherche d’efficacité…). J’indique à Jean qu’il y a mieux encore. Je n’emploie Firefox qu’en complément éventuel de Safari - je suis sur Mac. Or sur Safari le plug-in AcidSearch permet de multiplier les possibilités à partir de la barre de recherche : tous les moteurs de recherche existants sont accessibles ainsi mais également les sites de références et les sites marchands. Evidemment je peux obtenir de la sorte une définition sur n’importe quelle encyclopédie ou dictionnaire en ligne, mais l’inscription de l’ISSN d’un produit culturel dans cet espace me permet d’atteindre la page de ce produit chez Amazon, Alapage, Decitre ou tout autre site en ligne, sans même passer par la page d’accueil. Puisqu’il existe aujourd’hui une version de Safari pour ceux qui utilisent Windows, cela méritait peut-être d’être signalé…

26 novembre, 2007 15:33  
Anonymous Paul de Montréal a écrit...

> En revanche, seules 6,6% des requêtes utilisaient les guillemets de recherche exacte, même chand les requêtes étaient manifestement des expressions ("britney spears", etc.). Ca irait dans votre sens: les utilisateurs ont sans doute "appris" que ça ne fait pas grande différence avec Google.

Ou ca indique qu'il ne connaisse pas la commande.
Et puis si ca fait une grosse difference il y a comme un probleme.
Je l'utise quand il y a trop de mauvais résultats "sans".

J'ai trouvé l'article via cozop. La conclusion m'a fait sourir connaissant l'actualité récente avec TC.

26 novembre, 2007 15:41  
Anonymous Sébastien Billard a écrit...

Je suis aussi sceptique sur l'utilisation de la barre de recherche Firefox : c'est plutôt pénible de selectionner le moteur, et bien plus rapide de taper directement dans google le nom du site plus la recherche, par ex "théorie de la relativité wikipedia" (surtout avec GG en page de démarrage qui récupère tout seul le focus).

26 novembre, 2007 16:09  
Blogger Jean Véronis a écrit...

Laurent> Oui, l'onglet de recherche Wikipedia dans Exalead est une très bonne idée. Et c'est vrai que ce serait intéressant de suivre aussi Exalead dans ces évaluations. Je pense aussi qu'il y a eu des progrès.

Mais évidemment, plus on teste de moteurs, plus le coût humain est important...

26 novembre, 2007 18:22  
Blogger Jean Véronis a écrit...

Jerôme & Sébastien> C'est un peu la même remarque que pour Solal : je ne suis pas sûr que l'utilisateur de base connaisse ces raccourcis (fort utiles). Il faut garder présent à l'esprit que nous ne sommes guère représentatifs. Depuis que je fais passer des tests (et je ne les publie pas tous sur ce blog), je n'ai jamais vu une seule fois quelqu'un utiliser "site:" etc.

26 novembre, 2007 18:26  
Blogger Jean Véronis a écrit...

Port-Royal> Je travaille sur Mac moi aussi, et effectivement Safari et AcidSearch sont très bien. Mais vous dite : "tous les moteurs de recherche existants sont accessibles ainsi mais également les sites de références et les sites marchands." N'est-ce pas aussi le cas avec la barre de Firefox ?

26 novembre, 2007 18:49  
Blogger Bernard G a écrit...

Cette analyse me paraît contestable sur un point majeur : qui regarde seulement le premier résultat? Personne! Lorsque nous faisons une requête nous lisons les premiers résultats (en général 4 ou 5 avant de sélectionner celui qui nous paraît le plus pertinent. C'est à cela que servent les quelques mots qui indiquent le contexte dans lequel le mot de la requête est inséré (exemple récent : je recherche l'économiste Robert Frank, il a un homonyme aussi célèbre que lui, la lecture du contexte me fait choisir). J'ajouterai qu'une recherche est un travail qui suppose des étapes. Lire la notice wikipedia est souvent utile pour mettre en situation des informations que l'on va trouver ensuite ailleurs.

26 novembre, 2007 21:24  
Blogger Jean Véronis a écrit...

Bernard G> Vous avez parfaitement raison. Je le dis moi-même, d'ailleurs: ce test est tout à fait partiel. Il donne une indication, sans plus. Je n'en conclurais pas à la supériorité définitive de Google sur Yahoo ! D'ailleurs dans une enquête précédente j'avais montré que les résultats s'inversaient si on faisait la moyenne des notes sur les 10 premiers liens...

26 novembre, 2007 21:44  
Anonymous Cyril a écrit...

Vous semblez suggérer que la croissance de Wikipédia est due à une «stratégie» consciente. Pourtant, dans l'analogie hub/authority utilisée par PageRank, et sans doute par Yahoo, ne paraît-il pas vraisemblable que Wikipedia soit devenu au fil du temps une «autorité» de plus en plus importante (et donc mieux classée) ?

À propos du t-test : celui-ci fait généralement l'hypothèse de scores (ou écarts, pour le test par paires) Gaussiens. Lors de l'application aux scores discrets, y-a-t-il une correction tenant compte de cela ? Ou bien jugez-vous que ce n'est pas nécessaire ?

Votre conclusion est très intéressante : cela m'a fait prendre conscience que j'utilise de plus en plus les recherches directes dans Wikipedia, Merriam-Webster ou Amazon par la barre d'outil de ff. J'imagine que de nombreux utilisateurs de firefox finissent par découvrir cette fonctionnalité, quoi qu'on en dise.

26 novembre, 2007 22:51  
Blogger tonfa a écrit...

Pour les gens qui savent taper relativement vite, la fonction de "keyword" search de firefox est tres tres utile.
Par exemple un "wiki une_requete" dans la barre d'addresse va renvoyer la page de recherche de wikipedia, etc.
Personnelement j'utilise finalement peu les keywords search et je me repose presque exclusivement sur le "lucky search" de google (le 1er resultat), par exemple je tape "wikipedia une_requete" dans la barre d'adresse et dans 99% des cas j'ai la page wikipedia qui apparait (sans passer par une page de recherche).
Pour d'autres requetes plus compliqué il m'arrive de passer par une page de recherche (dans ce cas je tape "google ma_requete" dans la barre d'adresse, desolé la mozcorp de pas vous apporter plus de sous, j'utilise pas la barre de recherche)

26 novembre, 2007 23:17  
Anonymous Anonyme a écrit...

Votre billet me fait réaliser qu'il y a deux choses : primo, il y a la satisfaction de l'utilisateur, et secundo, il y a l'exactitude de l'information.
Pour la satisfaction, avec Wikipedia, il n'y a pas de problème : Wikipedia parle de tout et n'importe quoi (jusqu'à s'aventurer sur des terrains pas très recommandables). Mais le problème c'est l'exactitude, et là, sur Wikipédia, au niveau exactitude : c'est vraiment pas terrible. Des explications simplistes, fausses, mensongères, etc. et qui peuvent rester très longtemps ainsi.
Et le problème, c'est que l'utilisateur va être satisfait par une information inexacte.

27 novembre, 2007 00:08  
Blogger br1o a écrit...

Vous oubliez une chose importante dans votre étude : le rôle de Google dans l'inconscient collectif en train de se créer.

Si la grande messe du 20h n'est plus suivie avec assiduité, ce n'est pas parce que le public a évolué, il a simplement changé de paroisse.

Google est LA vérité. Je dis ça sans ironie aucune, étant moi-même un grand consommmateur de moteurs de recherche que j'essaie de diversifier au maximum.

Force est de constater que les résultats de Google ont force de loi. D'ailleurs quand on parle de référencement, tout le monde fait semblant de considérer Yahoo! et live, mais ça ne compte pas vraiment : 97% des résultats issus des moteurs de recherche proviennent du seul Google...

27 novembre, 2007 00:17  
Blogger Jean Véronis a écrit...

Cyril> Il y a longtemps que le PageRank n'est plus qu'un mythe. Les fonctions de ranking des moteurs intègrent désormais des dizaines de paramètres, et pas mal de réglages "éditoriaux", c'est-à-dire manuels.

Pour ce qui concerne le t-test, les données sont raisonnablement proches d'une distribution normale. Il n'y a pas de souci particulier à se faire. De toute façon on a montré une bonne robustesse du test par rapport à la normalité (dans des limites raisonnables, bien sûr).

Il serait intéressant d'avoir un sondage sur l'utilisation directe des moteurs dans la barre d'outils. Ca fait autant de business en moins dans Google... Qant on voit que la seule utilisation 'marginale pourtant) du bouton "j'ai de la chance" leur fait perdre 110 millions de $ par an (voir ici)...

27 novembre, 2007 08:21  
Blogger Jean Véronis a écrit...

Anonyme> Sur l'exactitude ou pas de Wikipedia, il y a tout un débat, comme vous le savez. J'aurais tendance, quant à moi, à le contourner, en disant: ok, même si ce n'est pas parfait, quelle et l'alternative, c'est-à-dire que nous propose-t-on de mieux ?

Mais sur votre remarque selon laquelle les utilisateurs peuvent être satisfaits d'informations approximatives, incomplètes (voire fausses) : oui bien sûr. Il n'y a qu'à voir le comportement des télespectateurs face à TF1 ;-) Mais il y aurait beaucoup à dire sur l'utilisation des moteurs de recherche. je ne suis pas sûr qu'elle s'apparente dans tous les cas à une recherche de la vérité. Il y a certainement de multiples comportements et buts conscients ou non de la part des utilisateurs. Ca peut varier entre recherche de la bonne orthographe à une localisation vague du domaine pour un mot donné...

27 novembre, 2007 08:28  
Blogger Jean Véronis a écrit...

br1o> Oui. Google est devenu l'oracle des temps modernes. Ca m'inquiète un peu à dire vrai... Le manque de recul même chez des gens qui se prétendent par ailleurs intellectuels (collègues universitaires par exemple) est confondant.

27 novembre, 2007 08:29  
Anonymous Anonyme a écrit...

Je pense aussi qu'il faut distinguer deux choses.
Les moteurs de recherche, quels qu'ils soient répondent à la question posée : les liens sont bien en correspondance avec le sujet demandé.
Mais les documents proposés sont-ils la meilleure réponse ?
Pour l'actualité peut-être , à condition qu'elle ne soit pas recouverte par wikipedia qui vient toujours en premier du moins, mais pour le reste ?

Pour le reste justement , le fait que ce soit wikipedia qui vienne toujours en premier , ne peut être considéré comme satisfaisant car à la fois , dans une majorité de cas wikipedia ne traite pas le sujet , et de plus les sujets tels qu'ils sont traités par wikipedia sont très partiaux et déformés.

Pour l'actualité wikio est bien meilleur et beaucoup plus intéressant.
Et contrairement à se qu'elle prétend plus ou moins wikipedia est toujours très en retard sur les sujets contemporains : elle ne publie ce qui est paru dans la presse ou sur le net qu'avec des années de retard. Quand elle le publie. Car tout un pan des informations est systématiquement squeezée et ne peut être publié (ils appellent cela des détails sans intérêt) et c'est généralement tout ce qui va dans le sens de la liberté d'expression : par exemple dire que Cuba est une dictature, ou la Tunisie ou l'Algérie, ce que la Corée ou l'Iran ambitionnent avec le nucléaire, parler d'exécutions sommaires dans certains pays, du traitement fait aux femmes, surtout dans le monde musulman, de la torture, des persécutions en Birmanie, en Iran, etc. etc., tout ce genre de sujets ne sont jamais traités et ne sont ni ne seront jamais présents sur wikipedia .

Pour le contemporain wikipedia est nulle, aussi bien pour les informations et la politique, que pour l'histoire et que pour les idées, la culture, l'art etc. Et de plus wikipedia déforme beaucoup les sujets.
A part les informations factuelles, qui sont partielles et lacunaires du fait des choix et de la sélection opérée, wikipedia n'est pas fiable et ne peut être considérée comme une source d'information.


Pour les sujets plus "encyclopédiques" concernant la connaissance, non plus.

Pour les sujets de fond, les liens qui viennent derrière wikipedia conduisent presque toujours à des documents qui sont également beaucoup plus intéressants et mieux faits.

Donc à une recherche Google ou Yahoo, si on ne prend en compte que l'intitulé du lien on a une réponse adéquate et un taux de satisfaction élevé.
Mais si on prend en compte le contenu, et donc la véritable réponse à la requête, le fait que wikipedia vienne en tête ne constitue pas la meilleure réponse, et bien souvent, pas la bonne.

IL faut donc approfondir les sondages pour voir si au-delà de l'intitulé correct des liens, les gens sont encore satisfaits à la lecture du document proposé en 1°.

Sinon l'opinion ainsi sondée reste formelle et ne montre que ce dont on se doutait déjà pas mal (sauf pour l'équité Google-yahoo qui n'était pas établie jusque là)

Mais le véritable indice de satisfaction serait de savoir si le document trouvé répond à la question.
Sinon cela revient à renforcer l'évidence que le net se résume (presque) à Google-wikipedia (+ Yahoo), seule nouvelle nouvelle.

[j'arrive pas à m'inscrire, donc anonyme par necessité]

27 novembre, 2007 09:58  
Anonymous Anonyme a écrit...

Attention néanmoins : il est tout à fait possible que les 2 moteurs aient classé les requetes dans une catégorie où les reponses pertinentes sont de types wikipedia

Pourrait-on avoir une exemple de ces requetes ?

Non je ne rentrerai pas plus dans les details ;)

27 novembre, 2007 11:47  
Blogger Vicnent a écrit...

"je ne suis pas sûr que l'utilisateur de base connaisse ces raccourcis (fort utiles). Il faut garder présent à l'esprit que nous ne sommes guère représentatifs." :-)

Je dois avoir 25% de mes requêtes qui ont soit du """" ou du "site:" ou du "filetype:"...

Sur le fond de l'enquête : tu ne notes pas la pertinence de tel ou tel moteur mais la pertinence de "j'ai de la chance". Or, je pense avoir "appris" comment "pense" google, et de fait, dans .... (?) 95% des cas, 3 mots clés ou des phrases "qui sont logiques d'être trouvées ainsi formulées" donnent le résultat que j'attends dans les 5 premiers liens. (Mais pourquoi donc devrais-je attendre de Google de la pertinence sur ce seul premier lien...)

D'autre part, j'ai la barre firefox avec wikipédia par défaut et google pleine page. Je m'étonne moi même du nombre de fois où je vais d'abord dans la wiki... (qui a bien progressé pour la France !!).

Sinon, des news sur le web sémantique ?

27 novembre, 2007 16:05  
Anonymous Cyril a écrit...

br10: Combien, parmi le public, pensent que Google fournit de l'information et pas seulement de simples liens vers l'information ?

Ces gens qui pensent que les pages "viennent de Google" font penser aux personnes qui écrivent à leur journal télé pour demander de changer la programmation de leur feuilleton favori. ;-)

Quant aux parts de marché, searchenginewatch place Google aux alentours de 57% aux États-Unis (et Yahoo vers 24%). Ce qui n'est déjà pas si mal.

27 novembre, 2007 23:22  
Anonymous Olivier a écrit...

Sur la "petite barre de recherche" de Firefox, j'avais cet après-midi un cours de recherche documentaire avec mes 50 étudiants. Et je m'aperçois en me baladant entre les allées que quasiment tous (étudiants de première année d'IUT), au moment ou je leur demande de "taper l'adresse d'un site" le font dans la barre de recherche Firefox, et non dans la barre d'adresse. Je leur demande pourquoi en leur expliquant qu'ils perdent du temps, mais la réponse surgit :"Mais monsieur, si on tape l'adresse dans la barre d'adresse et qu'on fait une faute, il faut tout retaper. Alors que si on tape dans la barre de recherche de firefox, même si on fait un faute de frappe, Google nous renvoie toujours sur le bon site."
Voila, voila ...

27 novembre, 2007 23:24  
Anonymous Cyril a écrit...

jean véronis: J'apprécie beaucoup vos billets, mais je trouve que des réponses lapidaires comme «Il y a longtemps que le PageRank n'est plus qu'un mythe» un peu curieuses.

Jusqu'à récemment, des informations concordantes suggéraient que PageRank fait toujours partie des nombreuses sources d'informations utilisées pour classer les liens retournés... Qu'il ne soit plus un facteur prépondérant, ça paraît clair, mais de là à dire qu'il s'agit d'un «mythe», c'est un peu exagéré. (À moins que vous n'ayez une connaissance poussée des mécanismes intimes de Google, ce dont je doute vu la discrétion dont la société fait preuve en la matière!)

Plus généralement, si Wikipédia «remonte» dans les résultats de Google et Yahoo, cela peut être, comme vous le suggérez, parceque ceux-ci bricolent leurs fonctions d'ordonnancement, mais cela pourrait tout simplement venir du fait que Wikipedia gagne, sinon en qualité, au moins en notoriété... Ce qui fatalement transparaît dans la fonction de pertinence, en admettant que les ingénieurs de Google/Yahoo font bien leur travail.

27 novembre, 2007 23:53  
Anonymous Laurent Bourrelly a écrit...

Bonjour Jean,
j'aime beaucoup la conclusion de l'article.
En effet, le squattage des requêtes par Wikipedia pourrait se retourner contre les moteurs puisque le rôle d'agent qualifiant va se détourner du moteur pour aller vers l'encyclopédie en ligne.
C'est dommage car je trouve Wikipedia peu fiable, mais c'est tout de même savoureux comme idée.

28 novembre, 2007 00:08  
Anonymous Jacou a écrit...

Bonjour,
Tous ces moteurs perdent de plus en plus de leur charme.
Je ne suis qu'une utilisatrice de la toile et je suis de plus en plus agacée par la fumée des liens commerciaux qui cache les "vrais" articles.
Il m'arrive de plus en plus souvent de passer directement à la 3°page.
Et je ne clique jamais sur les liens commerciaux qu'on m'impose, encore moins sur le clips publicitaires, lesquels n'ont pour effet que de ralentir ma connexion.

28 novembre, 2007 06:41  
Blogger Jean Véronis a écrit...

Anonyme (27/11 11:47)> Exemples de requêtes (qui retournent Wikipedia) :

claire chazal
myopie
texas
claire chazal
Death metal
Judas priest
James hetfield
antibiotiques
"malaise vagal"

28 novembre, 2007 08:27  
Blogger Jean Véronis a écrit...

Vicnent> tu ne notes pas la pertinence de tel ou tel moteur mais la pertinence de "j'ai de la chance". -- c'est ce que j'ai dit, je crois: le test n'est que partiel. Il donne une indication en termes d'ordre de grandeur (car on peut quand même supposer que le "meilleur" lien que retourne les moteurs est en première position...)

Web sémantique: non, rien. Je n'y crois guère...

28 novembre, 2007 08:31  
Blogger Jean Véronis a écrit...

Cyril> En france, c'est 90% pour Google et 3% pour Yahoo (voir carte interactive). Ce que montre mon étude, même partielle, c'est que la différence très modérée entre Google et Yahoo ne justifie pas cet écart en termes de parts de marché...

28 novembre, 2007 08:35  
Blogger Jean Véronis a écrit...

Cyril> La formule est peut-être lapidaire, mais je veux dire par là que je rencontre quotidiennement des gens qui croient encore que c'est le PageRank qui est le seul critère de classement. Ce n'est plus qu'un facteur parmi pleins d'autres, et pas forcément le plus important dans le somment du classement. C'est amusant, d'ailleurs, la façon désespérée dont les Google fans voudraient à tout prix sauver cette "pureté" originelle...

28 novembre, 2007 08:40  
Blogger Jean Véronis a écrit...

Laurent> Wikipedia, fiable, pas fiable... : comme je disais plus haut, c'est tout un débat, et les études expérimentales menées jusqu'ici ne sont pas franchement décisives. Mais la question est plutôt à mon sens : qu'y a-t-il d'autre ?

28 novembre, 2007 08:41  
Anonymous Pilou a écrit...

Ayant méchamment critiqué, dans un ancien billet, l'utilisation de mots uniques comme test de recherche, je ne peux que vous féliciter (ou vos étudiants ?) de l'emploi de requètes multi-mots.
Je reste persuadé que l'on ne peut bien tester un moteur que si l'on connait déjà toutes les réponses à la question posée.

Un exemple à résultats finis ; j'ai passé les 2 mots stade {NomFamille} tel qu'il n'existe qu'un seul stade en France portant ce nom, nom peu usité.
Le test est fait sur Google, Yahoo et Exalead ; il donne les résultats suivants :
pages annoncées G 43 , Y 18 , E 24
pages affichées G 24 , Y 12 , E 8
pages pertinentes G 14 , Y 6 , E 5
Les pages pertinentes sont presque toutes en tête, dans les 3 moteurs ; les 2 mots y étant accolés ou trés proches, il semble que ce soit le caractère de pertinence utilisé, équivalent au fait de passer par expression exacte. Les faux échos sont dus à l'utilisation du mot stade dans une expression "à ce stade" au sens de "à ce momemt de"

28 novembre, 2007 16:15  
Blogger br1o a écrit...

Ca me rappelle que je m'étais amusé à passé au crible toutes les lettres de l'alphabet dans google pour analyser les résultats : http://www.css4design.com/blog/index.php/2006/11/26/51-google-de-a-a-z-beta

Dans un autre ordre d'idée, voici un autre billet qui contient quelques éléments de réflexion sur l'utilisation de mots-clés au regard du référencement : http://www.notoriousblog.fr/index.php/referencement/31-ecrire-pour-google-des-mots-cles-au-clickrank

J'espère que ça ne sera pas pris pour de la vulgaire auto-promotion ;)

28 novembre, 2007 18:28  
Blogger slamp a écrit...

Est-ce la pertinence ou la quantite de documents dont wikipedia dispose qui interesse les moteurs de recherche ?

29 novembre, 2007 20:21  
Anonymous Thibault a écrit...

Surprenant que Google n'arrive pas loin devant!!! Comme quoi Yahoo est loin d'être largué!

08 mai, 2008 22:53  
Blogger Jean Véronis a écrit...

Effectivement, Yahoo n'est pas largué du tout du point de vue technique. Tout ça c'est de la com : les gens préfèrent le Coca au Pepsi... mais sont incapables de distinguer l'un de l'autre s'ils ne voient pas la boîte...

09 mai, 2008 08:43  
Anonymous Adrien a écrit...

Bonjour,

je me souvenais de ce billet, je pensais l'exhumer en réagissant sur une actualité (j'y viens) mais je constate qu'il provoque toujours l'intérêt ! Belle preuve de la pertience de vos travaux !

En bref, je voulais savoir ce que vous pensiez de la controverse du jour sur le PR des articles Wikipedia concernant entreprises du CAC et le buzz créé par Euro RSCG à ce sujet...

Mes interrogations :
qui des moteurs de recherches, qui sur(?)-valorisent une information à la vérité "relative" ; de wikipedia, sur son principe de collaboration ; des entreprises qui contrôlent les informations les concernant, serait le coupable de l'affaire...

Mon premier sentiment est que l'exclusion de la communication professionnelle per se d'un sanctuaire du "libre" témoigne de la segmentation des espaces d'internet... il y aurait donc des endroits où des locuteurs, même identifiés comme tels ne seraient pas les bienvenus... Est-le la preuve qu'internet est une aggrégation d'espaces privés (exclusifs) et non un espace public, comme on souhaiterait nous le faire accroire ?

12 juin, 2008 12:33  
Blogger Jean Véronis a écrit...

Adrien> Justement ! j'étais en train de me demander si j'allais faire un billet (et de me demander aussi si j'allais avoir le temps)...

Il y a quelques mois en constater cette nouvelle stratégie de Google (et Yahoo et les autres...), je me demandais quel genre de réaction ça allait entraîner. Eh bien voilà, nous y sommes ! Passionnant. Et bien entendu, il n'y a pas de réponse simple...

Et tout cela pose bien sûr le problème de Google, en position de quasi monopole, arbitre de l'information qu'il veut bien nous laisser voir ou pas, nous mettre en évidence ou nous enfouir. Je vais voir si j'ai le temps d'écrire là-dessus... Pas toujours facile de bloguer en temps réel ! En tout cas merci d'avoir laissé un mot.

12 juin, 2008 12:53  

Enregistrer un commentaire