Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

jeudi, décembre 09, 2010

Google: De plus en plus de Wikipedia, mais les internautes semblent se lasser

Les lecteurs fidèles de ce blog savent que je conduis régulièrement des études utilisateurs sur divers moteurs de recherches, dont Google. La dernière en date contient une foule d'éléments intéressants, dont l'un m'a particulièrement frappé. J'avais souligné à plusieurs reprises la place importante que Google (et d'autres moteurs...) accordaient à Wikipedia dans les résultats (voir ici, ici ou ici).

La dernière étude montre un niveau encore jamais atteint de présence dans l'encyclopédie. Elle a été conduite fin novembre selon le protocole que j'ai déjà exposé ici. 226 utilisateurs, tous étudiants à l'Université de Provence, ont été invités à taper deux requêtes de leur choix dans 13 thèmes différents (soit 26 requêtes par utilisateur), et à attribuer une note au premier lien organique retourné par le moteur, entre 0 (totalement mécontent du résultat) à 5 (totalement satisfait du résultat). Je remercie au passage les collègues qui se sont chargés de faire passer le test à leurs étudiants.

Au total, ce sont donc 5876 requêtes qui ont pu être analysées. La présence de l'encyclopédie en premier lien atteint le niveau le plus élevé depuis le début de cette série de tests, puisque près du tiers des résultats aboutit à Wikipedia sur le premier lien (31,2 % exactement).

Proportion de résultats Google dans Wikipedia (premier lien)

Encore plus étonnant, le score attribué aux résultats décroit régulièrement depuis 2008. Pour la première fois, les résultats hors Wikipedia sont mieux notés que les résultats dans l'encyclopédie (3,47 contre 3,52). Ces résultats avaient pourtant atteint des sommets de satisfaction (jusqu'à 4,48 en novembre 2007). On notera également une érosion, faible mais statistiquement significative, du score global de Google, qui est au plus bas de toute la série de tests (3,5 contre 3,72 au plus haut), en grande partie à cause de la baisse sur Wikipedia.


Score des résultats (premier lien)

Les raisons de la présence plus ou moins élevée de Wikipedia dans les résultats sont inconnues, et l'on ne peut que spéculer. Je doute bien évidemment que ces fluctuations soient simplement dues au "PageRank", c'est-à-dire au plus ou moins grand nombre de liens que font les internautes vers l'encyclopédie. On sait depuis longtemps que de multiples autres facteurs entrent en ligne de compte dans le classement des résultats, et il est pour moi à peu près certain que les sites les plus retournés par le moteur font l'objet d'un examen très particulier de la part des équipes de Google et très probablement de réglages ad hoc.

Une des hypothèses que j'avais émises, c'est que Wikipedia est un expédient bien pratique en temps de difficultés. On sait que le Web est une jungle assez difficile à maîtriser, avec une activité intense de spam et de pratiques SEO qui n'ont d'autre but que de contourner les algorithmes des moteurs, ce qui les met régulièrement dans des positions difficiles comme lors de la folle invasion des splogs de l'été 2005 (voir ici), ou des évolutions du Web lui-même (voir ici et ici). C'est la lutte du glaive et du bouclier : les moteurs réagissent par des ajustements constants, algorithmiques et éditoriaux. Or, Wikipedia est une variable d'ajustement facile : les interviews d'utilisateurs montraient jusqu'ici que l'encyclopédie jouissait d'un crédit a priori favorable, même lorsque la page retournée ne correspondait pas exactement à la requête. Ainsi, par exemple, la page d'une personnalité politique ou d'un artiste était perçue comme résultat pertinent, même si l'intention derrière la requête était plutôt l'actualité, ou un achat (CD, livre, etc.). Comme le mentionnaient régulièrement les utilisateurs, il vaut mieux aboutir sur une page Wikipedia que sur un de ces forums sans intérêt et fermes à contenu qui sont la plaie du Web, ou pire, une page de spam.

Cet a priori positif s'érode manifestement. Divers facteurs sont sans doute à l'œuvre. Tout d'abord, il est probable que le niveau d'exigence des internautes est de plus en plus élevé. Le public apprend au fur et à mesure de son utilisation des moteurs (et désormais d'autres moyens d'accès à l'information, comme les réseaux sociaux). On notera par exemple que les nouvelles générations d'étudiants qui entrent à l'université sont les premières qui ont eu un ordinateur dans leur foyer depuis leur naissance, et Google comme moteur de recherche pendant quasiment toute leur scolarité. Il est donc bien possible que l'effet de succédané mentionné ci-dessus joue moins qu'auparavant, et qu'il soit au contraire progressivement remplacé par une certaine lassitude des utilisateurs face à des résultats Wikipedia qui ne constituent pas toujours une réponse directe à leur requête.

Il est possible également que la qualité (perçue en tout cas) des pages Wikipedia soit globalement moins bonne. Si plus de pages sont retournées en résultat par Google, il est logique, statistiquement parlant, que des pages plus profondes, moins travaillées et contrôlées par la communauté Wikipedia finissent par surgir. On peut se demander d'ailleurs si l'accroissement constant du nombre de pages de Wikipedia ne contient pas en lui-même une diminuation quasiment programmée de la qualité. C'est une vraie question, sans intention polémique (je ne fais pas partie des universitaires qui font la fine bouche sur Wikipedia, ou qui se pincent le nez, bien au contraire : je pense que c'est une des aventures intellectuelles les plus passionnantes de ce début de siècle).

Je ne sais pas si les équipes de Google ont réalisé cette érosion (je ne sais pas non plus si elle se vérifie sur les autres langues). Quelle qu'en soit la cause, elle impacte clairement l'un des leviers qu'a le moteur pour le contrôle de sa qualité.

21 Commentaires:

OpenID robinryder a écrit...

Une autre hypothèse pourrait être plausible (cela dépend des détails du protocole) : Wikipédia est devenue tellement connue que les internautes ont peut-être tendance à lancer certaines de leurs recherches directement sur Wikipédia. Personnellement, je ne fais pas le même type de recherche sur Google que sur Wikipédia. Il y a un biais de sélection parmi les recherches que je fais sur Google : ce sont plutôt le genre de recherches pour lesquelles je pense que Wikipédia sera moins performante...

09 décembre, 2010 10:24  
Blogger Jean Véronis a écrit...

Robynrider> Dans le protocole, les utilisateurs n'avaient pas le choix du moteur (donc ils ne pouvaient pas aller sur Wikipedia, Amazon ou autre).

Le phénomène que vous décrivez existe (c'est ce que j'appelle la "fuite" vers les moteurs verticaux). Mais il touche principalement les "power users" que nous sommes. J'ai pu vérifier à de multiples reprises que les utilisateurs en général avaient une pratique des outils extrêmement basique -- cela inclut les étudiants, qui paradoxalement ont (dans l'ensemble) une pratique très sommaire du Web (Google, MSN, Facebook...).

09 décembre, 2010 10:35  
Blogger JF a écrit...

Peut-on aussi proposer une explication optimiste, qui serait que au fur et à mesure que le web se développe, il existe de plus en plus de pages "intéressantes" sur n'importe quel sujet donné; dès lors, même si la qualité "absolue" de Wikipedia ne change pas, en revanche elle est progressivement rattrapée et dépassée par d'autres pages plus spécialisées, si bien que sa qualité "par comparaison" diminue?

De façon évidente, votre méthodologie rend assez difficile les comparaisons entre deux batchs d'étudiants, puisque rien ne garantit qu'un "5" de 2010 soit la même chose qu'un "5" de 2005.... Les notes sont donc plus utiles à regarder en tant que comparaison, comme vous le faites d'ailleurs en vous focalisant sur wikipedia/total plutôt que sur la note absolue. Mais dans ce cas, la seule information que vous avez, ce n'est pas la qualité absolue (perçue) de wikipedia, mais plutôt sa qualité relativement aux autres sources disponibles...

09 décembre, 2010 14:10  
Blogger Jean Véronis a écrit...

JF> Il y a de plus en plus de pages intéressantes, ou alors de spam, de fermes à contenus, etc. La tâche de Google est bien difficile !

Bien sûr rien ne garantit que l'échelle soit stable dans le temps, c'est le problème de tout baromètre. Les écarts entre groupes de résultats (ou entre moteurs comme Google/Yahoo) sont certainement plus intéressants.

09 décembre, 2010 14:15  
Anonymous Pilou a écrit...

Quand je veux m'informer sur un sujet dont j'ignore tout -souvent un nom propre- je privilégie Wikipédia, en passant par Google ; ainsi je bénéficie de l'esprit critique de la communauté, là où, a cause de mon ignorance, je ne peux l'exercer. Par contre, pour approfondir un savoir, je vais privilégier les sources originales.

Wikipédia évolue : j'ai l'impression subjective que la taille des articles s'accroit, qu'ils deviennent plus encyclopédiques. (Voir l'entrée 'Verrières-le-buisson' qui relève plus de la monographie que du bref de guide touristique.)
Du coup il se peut que les étudiants puissent les trouver plus savants qu'ils ne souhaitent ; emmerdants, quoi !

09 décembre, 2010 18:01  
Blogger Jerome a écrit...

Autre hypothèse: les étudiants sont blasés par internet et hésitent à donner une bonne note à ce qu'il considèrent comme normal.

Pour tester cette hypothèse, il faudrait demander aux mêmes étudiants d'identifier (voire de noter) le meilleur des liens dans les pages suivantes. Cette valeur pourrait servir à étaloner les notes données.

09 décembre, 2010 19:09  
Blogger Jean Véronis a écrit...

Pilou> Je trouve que certaines entrées devient trop volumineuses, ce qui est assez rebutant pour une première approche sur un sujet. Une bonne évolution serait d'avoir un découpage à deux niveaux des articles touffus: une intro et un approfondissement.

Par ailleurs, certains articles, de mathématiques ou physique, par exemple, sont manifestement écrits par des spécialistes, mais sont incompréhensibles par le grand public. Je ne suis pas tout à fait ignorant dans ces matières, mais j'ai souvent moi-même du mal.

C'est assez amusant de constater que Wikipedia retombe parfois dans les mêmes travers que les encyclopédies classiques. J'ai eu la chance d'avoir la toute première édition (papier) de l'Universalis, à partir de 1968. Mon père dans sa grande sagesse me l'a offerte: on recevait un volume à la fois. Les problèmes étaient les mêmes. articles écrits par les meilleurs experts, mais qui ne se mettaient pas toujours à la portée, et par exemple, bien que j'ai fait Terminale C et MP à la fac, j'étais souvent incapable de comprendre les articles dans ces domaines...

Mais c'est intéressant de voir qu'une population large (des milliers de contributeurs non encyclopédistes au départ) refont le chemin, redécouvrent et améliorent. Je suis confiant pour la suite. C'est tout à fait fascinant.

10 décembre, 2010 09:49  
Blogger Jean Véronis a écrit...

Jérôme> Oui, c'est possible... La population étudiante (et la population en général) évolue au fil des années, dans son approche, ses exigences... On sait qu'on a appris à filtrer les pubs par exemple (le fameux banner-blindness). On peut relativement facilement faire des comparatifs instantanés (Google vs Yahoo etc.), mais c'est plus délicat d'interpréter les variations dans le temps: beaucoup de paramètres changent à la fois: les utilisateurs eux-mêmes, le contenu du Web (et de Wikipedia en l'occurrence), les algos des moteurs, etc. Il faudrait avoir le temps (et l'argent) pour faire des études approfondies...

10 décembre, 2010 09:54  
Anonymous Anonyme a écrit...

C'est ce qu'on appelle l'« effet arrosoir » : http://danstonchat.com/8109.html

10 décembre, 2010 09:59  
Blogger Jean Véronis a écrit...

Anonyme> Excellent ! Je la note celle-là c'est très bien vu ! Merci du lien.

10 décembre, 2010 10:02  
Anonymous Gnouros a écrit...

Je suis également persuadé que les bonnes positions de Wikipédia dans les résultats de Google proviennent moins d'un nombre de liens entrants élevé vers les pages de l'encyclopédie, que d'une décision éditoriale. Barbara Cassin avait essayé d'étudier (certes très maladroitement compte tenu de ses modestes compétences techniques) cette collusion entre Google et Wikipédia dans son ouvrage Google-Moi, dévastatrice selon elle.

Je pense que Google doit être parfaitement au courant que les liens vers Wikipédia sont moins cliqués : ils ont parfaitement les moyens techniques de le savoir. Ainsi, par exemple, pour tout utilisateur possédant un compte Google et logué, chaque lien retourné par le moteur de recherche est transformé : une page intermédiaire est ajoutée, ayant vocation sans doute d'observer le comportement des utilisateurs, et donc de s'ajuster.

10 décembre, 2010 15:52  
Anonymous Claude_r a écrit...

Sur l'âge des étudiants. J'ai fait un rapide calcul (plutôt masochiste, si on y réfléchit bien) et j'ai découvert avec horreur que ceux qui entraient aujourd'hui à l'université étaient nés en...1992...
Argh... Pour reprendre une phrase d'un ami, 1992 c'est une bonne année pour un vin mais pas pour un étudiant... Si on continue le raisonnement, on s'apperçoit qu'au moment où ils ont su lire (vers 7 ans), soit vers 1999-2000, Internet était aussi déjà dans nombre de foyers.

10 décembre, 2010 15:57  
Blogger Jean Véronis a écrit...

Gnouros> Google monitore de très près les comportements des utilisateurs. Il n'y a guère de doute qu'ils aient un tableau de bord complet sur le #1 des sites retournées dans les résultats ! L taux de clics est un premier indice, mais il y en a d'autres: l'utilisateur revient-il à la page de résultats pour un deuxième clic ? combien de temps reste-t-il sur la page d'arrivée, etc.

Mais je suis convaincu que par moments, c'est extrêmement difficile de présenter de bons résultats dans la jungle dont je parlais. Si on ne sort pas Wikipedia on risque de sortir quoi? un comparateur de prix bidon? un forum minable? un agrégateur à deux balles? du spam? du porn? Les experts (ou bidouilleurs) SEO passent leur temps à bourrer Google...

10 décembre, 2010 16:02  
Blogger Jean Véronis a écrit...

Claude_r> Voilà. Ils sont nés avec une souris dans la main, et ne peuvent pas imaginer un monde sans Google...

10 décembre, 2010 16:03  
Anonymous Cochonfucius a écrit...

Autre détail fascinant: une recherche où le mot est imposé avec une orthographe déviante, disons, "arrosoire" sera loin d'être infructueuse.

10 décembre, 2010 17:36  
Anonymous Cochonfucius a écrit...

Faute de frappe, je rétablis:

"arrosoire".

10 décembre, 2010 17:39  
Anonymous Manu1400 a écrit...

Bonjour,

Les quatre seules raisons que je vois :
* éventuellement lassitude comme tu l'as expliqué.
* les performances web sont restés plutôt les même, contrairement aux autres sites qui améliore leurs perfs.
* "niveau d'exigence des internautes est de plus en plus élevé" comme tu le signale
* le niveau d'accessibilité web des sites augmente, donc la satisfaction augmente, car l'internaute peut accéder facilement au contenu. De plus, un site accessible aura plus de chance d'être correctement indexé et donc d'être pertinent.

Je suis d'accord avec Pilou quand il dit qu'"il se peut que les étudiants puissent les trouver plus savants qu'ils ne souhaitent ; emmerdants, quoi !"

Notons que beaucoup de personnes demandent à ce que Google leur retourne un article Wikipédia quand elles font certaines recherches. Elles le font par exemple en précisant le mot-clé "wiki" ou "wikipédia". C'est visible dans les suggestions Google par exemple.

Es ce qu'il est prévu de continuer cette étude ? Merci.

11 décembre, 2010 21:46  
Anonymous John a écrit...

Il serait intéressant de savoir si les utilisateurs mécontents de Wikipedia sont prêts ou non à modifier le contenu de l'article recherché, ou d'autres articles, pour améliorer l'encyclopédie.

Il n'y a que la réponse à cette question qui peut déterminer si Wikipedia est sur la voie du succès ou du déclin.

Il faudrait intégrer cette question au prochain sondage : "Si vous êtes mécontent de l'information donnée au lien trouvé, êtes-vous prêt à mettre sur le net les éléments d'information dont vous disposez pour améliorer l'information disponible ?

30 décembre, 2010 19:14  
Blogger Jean Véronis a écrit...

John> Il est probable que non, dans l'ensemble, sinon les gens le feraient spontanément. Je suppose que le "ticket d'entrée" est trop élevé pour l'utilisateur occasionnel: il faut du temps, il faut la patience de comprendre au minimum la structure des pages et la langage de balisage, avoir une notion minimale de ce qu'est la communauté Wikipedia, ses codes et son fonctionnement... probablement trop pour le consommateur moyen.

30 décembre, 2010 19:27  
Blogger pièce détachée a écrit...

À la question de John je répondrais comme J.V., mais pas seulement parce que c'est «trop pour le consommateur moyen». Aussi, et surtout, parce que Wikipedia, c'est comme les documentaires élitistes d'Arte qui passent à pas d'heure : quand on n'y connaît rien, on trouve ça bien, sinon c'est à se lamenter par terre, et les bras vous tombent à l'idée d'apprendre tous les protocoles de Wikipedia rien que pour essayer de commencer à dissiper des malentendus préliminaires dans des discussions sans fin. Éric Chevillard voit bien Bouvard et Pécuchet, basques de redingote au vent, surfant sur Wikipedia (je ne retrouve pas son texte précis ; chercher quelque part là-dedans). La délicieuse arrosoire de Cochonfucius le confirme.

Le site est dans mon atelier, casier «boîte à outils» ; je "choisis" donc de passer par Google ou non (guillemets = j'ai un compte Google et je suis loguée). Cliquer direct sur WP permet souvent d'aller à saute-mouton par-dessus le contenu pour collecter des références en tout bas de page. Parfois aussi, la consultation d'une entrée WP est plus fertile dans une langue que dans une autre, comme le remarque J.V. ci-dessus (en ce cas, la comparaison entre les versions est souvent hilarante). Ça permet aussi, c'est vrai, d'échapper à dix pages de Google sans intérêt ou carrément délétères (même si un regard de hyène a vite fait de repérer les forums minables, les industriels du renseignement, et même les sites pointés spécialement pour moi par Google).

Le chat... le regard de hyène de la souris...

07 janvier, 2011 00:26  
Blogger Christian Hivert a écrit...

Il y a également le fait que Wikipédia est un repère de contributeurs partiaux, hégémoniques et peu scrupuleux qui mettent gravement en question le véritable fonctionnement collaboratif de l'encyclopedie et que cela commence à se savoir sur un peu tous les sujets au point d'en être exaspérant.
un exemple: http://fr.wikipedia.org/wiki/Discussion:Mouvement_autonome_en_France/Neutralit%C3%A9
et il en est plein d'autres, cela commence à se savoir.

21 avril, 2011 19:05  

Enregistrer un commentaire