Technologies du Langage: décembre 2010

lundi, décembre 27, 2010

Radio: Est-ce qu'on parle mal la France ?

Je vous retrouve demain sur France Inter de 10h à 11h, dans l'Emission Service Public, en compagnie de Jeanne Bordeau, sur le thème "Est-ce qu'on parle mal la France ?" (sic -- ce n'est pas moi qui ai choisi le titre).

Vieux serpent de mer, auquel on ne finit plus de couper la tête -- elle repousse aussitôt !

NB: L'émission pourra être écoutée en podcast sur le site après enregistrement.

Pour ceux qui prennent le train des commentaires en route, la discussion (fort intéressante, merci amis lecteurs une fois de plus !) enchaîne sur mon interview dans Libération du 6 mars (maintenant en libre accès), à propos du langage de Nicolas Sarkozy (buzz provoqué par la lettre du député François Loncle et la réponse du Ministre de l'Education Nationale).

PPS

L'affaire dépasse maintenant nos frontières... Je viens d'être interviewé sur BBC 4 dans le Six O'Clock news sur le sujet. Les observateurs étrangers sont quelques peu ébahis !

29 Commentaires:

estellebeaurivage a écrit...: Moi, je veux bien que Sarkozy touche par sa rhétorique talentueuse, selon ce que vous laissez entendre. Mais on ne me retirera pas de l'idée que la connaissance de la langue, de sa syntaxe,de sa prononciation font partie de l'étiquette qui légitime (ou du moins rend crédible)le pouvoir.
Les Fançais sont entrain de s'apercevoir que non seulement ils n'ont pas voté pour un Marchais, mais pour un sous-Poulidor.
Ceci dit émission très intéressante.; 28 décembre, 2010 15:33
Ø a écrit...: S'il s'agit d'un serpent dont la tête repousse, ne devrait-on pas parler d'hydre (de Lerne) ?; 28 décembre, 2010 23:42
Jean Véronis a écrit...: 0> Je suis bien d'accord: en écrivant je me disais que ni le serpent de mer, ni l'Hydre ne correspondaient tout à fait à l'image dont j'avais besoin, et je me suis permis de fabriquer un croisement... Mais peut-être que l'Hydre était un serpent de mer, finalement ?; 29 décembre, 2010 16:58
Jean Véronis a écrit...: Estellebeaurivage> Ce n'est pas contradictoire. On peut être bête de rhétorique et massacrer la langue académique. C'était le cas de Georges Marchais par exemple. Parler "popu" dans son cas était quasiment une garantie d'authenticité... En ce qui concerne le président de la République, je partage votre avis: cela le desservira. Je suis convaincu que la majorité des français, y compris des classes populaires, ouvrières ou rurales, qu'il tente de séduire, ont en tête le stéréotype du monarque lettré, qui représente et glorifie la France, et constitue en quelque sorte le but ultime de l'ascenseur social à la française.; 29 décembre, 2010 16:59
Anonyme a écrit...: L'hydre de Lerne est effectivement un serpent des marécages!; 29 décembre, 2010 19:21
Emmanuel a écrit...: bonjour, j'ai écouté l'émission et j'y ai découvert que le corpus français comptait entre 500 000 et 800 000 mots !(à 2 min 55) Mais en cherchant confirmation sur le net, je n'ai rien trouvé de cet ordre. (Le chiffre des mes cours en SCL tournait autour de 100 000)
Je sais bien que la notion de "mot" est variable mais où trouver la source du chiffre donné par J Bordeau ?; 02 janvier, 2011 18:11
Jean Véronis a écrit...: Emmanuel> Non, ce chiffre est totalement fantaisiste (ce n'est pas moi qui l'ai donné d'ailleurs !). Tout comme les affirmations du journaliste sur le nombre de mots dans les discours de Nicolas Sarkozy. Il est extrêmement difficile de quantifier le lexique du langue. La notion même ne veut pas dire grand chose... Compte-ton les mots techniques (et qu'est-ce qu'un mot technique ?) Si oui, rien que la chimie nous en offre des centaines de milliers... De plus, le langage est potentiellement infini par le jeu des préfixes et des suffixes. Très difficile. Trop difficile pour jeter des chiffres à la va-cite à la radio !; 02 janvier, 2011 18:16
Anonyme a écrit...: Et comment qu'on l'écrit la France ?
"ce n'est pas moi qui ai" (je pense que c'est de l'indicatif et en plus à la limite si c'était du subjonctif, ç'aurait été "aie", non ?); 03 janvier, 2011 10:34
Jean Véronis a écrit...: Oui, bien sûr, l'accord se fait avec l'antécédent du pronom relatif. Merci d'être passé(e).; 03 janvier, 2011 11:12
Anonyme a écrit...: Dans la série tout vient à point à qui sait refréner sa rage infinie, libé propose un joli article sur le président et sa façon de parler.
On y apprendra avec joie que, d'après Luc Chatel, si le président parle comme le beauf-frêre de mon voisin, c'est parce qu'il a envie que celui-ci le comprenne. Donc son élocution n'est que le reflet de sa proximité avec la France qui parle mal la France.

"(..) Juger de son expression en puriste, c'est donc non seulement lui intenter un injuste procès, mais aussi ignorer son sens de la proximité."
CQFD.
http://www.liberation.fr/politiques/01012311588-sarkozy-ne-parle-pas-mal-il-refuse-le-style-amphigourique

Bonne année pleine de posts amphigouriques (j'ai bon, je crois pas..? je suis toujours ému quand j'emploi un nouveau mot, désolé)
Djamé; 05 janvier, 2011 00:29
David Desgouilles a écrit...: Bonjour Mr Véronis. J'ai appris, en écoutant la revue de presse de France Inter de ce matin, l'existence de votre analyse sur le langage de Nicolas Sarkozy et votre analogie avec Georges Marchais.
je souhaitais donc vous faire part de l'article que j'avais rédigé en mars 2009 sur ce sujet et qui recouvre une bonne part cette analyse.

http://carnet.causeur.fr/antidote/la-strategie-des-deux-georges,00239

Cordialement à vous,

David Desgouilles
Blog Antidote
Collaborateur à Causeur.fr et blogueur associé de Marianne2.fr; 06 janvier, 2011 10:30
Anonyme a écrit...: Bonjour,

Je suis désolé, je n'ai pas pu trouver votre analyse donc je ne connais pas son contenu. Avez-vous effectué une analyse statistique des fautes de français commises par notre Président ?

Si tel est le cas, il faudrait pour que cela soit significatif comptabiliser le nombre de fautes par rapport au nombre de mots prononcés et non seulement "dans l'absolu".

Vous le savez, notre Président s'exprime beaucoup, sur tous les sujets et souvent spontanément il n'est donc pas impossible que ses fautes ne soient finalement pas si fréquentes.

Un autre argument que j'ai lu ici et là me dérange : On dit d'une part qu'il parle "popu" par démagogie et d'autre part qu'il n'est pas lettré et donc qu'il ne maîtrise pas son langage.

C'est - comme la plupart des critiques à son égard, mais ceci est un autre débat - tout à fait contradictoire : S'il est peu lettré et qu'il parle réellement comme cela, alors où est le calcul ? S'il calcule un langage "popu" alors comment expliquer qu'il réussisse à ne jamais "déraper" et à parler toujours sur le même ton ?

A mon avis, un homme (ou une femme) médiatisé ne peut pas vraiment tricher sur sa façon de communiquer, car à force de débats, d'interviews, de discours, ses défauts et sa véritable "nature" se révèlent.

Sur le "fond" (même si on parle de forme), je ne pense pas que le langage "familier" soit incompatible avec la politique. On demande aux politiciens d'écouter, d'organiser, de légiférer, de prendre des décisions. Il ne faut pas attendre d'eux une maîtrise parfaite de tous les domaines comme le font les français.

Enfin, un argument évident : A l'oral n'importe qui commet bien plus de fautes qu'à l'écrit et se permet des raccourcis, et on ne peut pas se "relire".

Alors Monsieur Veronis, ma question est simple : Si vous vous adressiez à plusieurs millions de français tous les jours, êtes-vous bien certain que vous ne feriez pas de fautes ?; 06 janvier, 2011 14:13
Jean Véronis a écrit...: Anonyme> Votre commentaire est long et nécessiterait peut-être un billet en réponse... Je vais essayer de répondre sur ces quelques points.

> Avez-vous effectué une analyse statistique des fautes de français commises par notre Président ?

Non, j'adorerais pouvoir le faire. Mais il faudrait pour cela disposer de la transcription (fidèle, pas retouchée) de nombreuses heures d'enregistrement, ce dont nul dispose.

> Si tel est le cas, il faudrait pour que cela soit significatif comptabiliser le nombre de fautes par rapport au nombre de mots prononcés et non seulement "dans l'absolu".

Oui, et non. Il y a certes un point de vue quantitatif: les meilleurs lettrés s'embrouillent parfois la langue dans un lapsus ou un "accident" d'élocution. C'est normal, et c'est le propre de l'oral. Dans le cas de Nicolas Sarkozy, si autant de monde remarque les erreurs, c'est très probablement qu'elles dépassent le seuil de l'habituel. Mais au-delà du quantitatif, il y a le qualitatif. Certaines fautes sont "typantes". Quant vous les faites, elles suffisent à vous "cataloguer" comme "non-éduqué" (c'est un constat, pas une approbation du phénomène de ma part). C'est le cas de mauvaises constructions du type "Qu'est-ce que j'm'aperçois" ou "si y'en a qu'ça les démange", ou bien de pronnociations du type "chu pas sûr, M'ame Chabot". Prenez des personnalité politique du même âge et à peu près du même parcours: Villepin, Royal, et vous verrez que, s'ils "buggent" à l'oral comme tout un chacun, ils ne produisent pas ce type d'énoncé.

Comme je l'ai dit à plusieurs reprises, le seul équivalent parmi les personnalités politiques connues, c'est Georges marchais, ce qui est paradoxal.

> Un autre argument que j'ai lu ici et là me dérange : On dit d'une part qu'il parle "popu" par démagogie et d'autre part qu'il n'est pas lettré et donc qu'il ne maîtrise pas son langage. C'est - comme la plupart des critiques à son égard, mais ceci est un autre débat - tout à fait contradictoire : S'il est peu lettré et qu'il parle réellement comme cela, alors où est le calcul ? S'il calcule un langage "popu" alors comment expliquer qu'il réussisse à ne jamais "déraper" et à parler toujours sur le même ton ?

Je ne suis pas d'accord avec cet argument. Nicolas Sarkoy ne calcule pas son "langage popu". C'est bel et bien son langage, même si, en bon politique, il se connaît et le "surjoue" de temps à autre (comme chez Alsthom). Mais c'est ancré en lui, depuis son enfance.

... suite -->; 06 janvier, 2011 14:34
Jean Véronis a écrit...: --suite-->

> A mon avis, un homme (ou une femme) médiatisé ne peut pas vraiment tricher sur sa façon de communiquer, car à force de débats, d'interviews, de discours, ses défauts et sa véritable "nature" se révèlent.

Nous sommes d'accord.

Sur le "fond" (même si on parle de forme), je ne pense pas que le langage "familier" soit incompatible avec la politique. On demande aux politiciens d'écouter, d'organiser, de légiférer, de prendre des décisions. Il ne faut pas attendre d'eux une maîtrise parfaite de tous les domaines comme le font les français.

> Nous sommes d'accord aussi. Je crois que ce qui surprend c'est

1. La "rupture" avec les autres présidents de la Ve, tous extrêmement lettrés

2. le côté "langage popu" plus que le langage familier (ce n'est pas la même chose, et hélas on confond souvent les deux).

> Enfin, un argument évident : A l'oral n'importe qui commet bien plus de fautes qu'à l'écrit et se permet des raccourcis, et on ne peut pas se "relire".

Oui.

> Alors Monsieur Veronis, ma question est simple : Si vous vous adressiez à plusieurs millions de français tous les jours, êtes-vous bien certain que vous ne feriez pas de fautes ?

J'en ferais. J'en ai fait très probablement à l'instant dans l'émission à laquelle je viens de participer sur le sujet sur RMC. Je ne saurais pour autant "parler popu", car ce n'est pas mon "sociolecte" (bien que je ne sois pas né avec une cuiller en argent dans la bouche, loin de là). Le paradoxe, c'est que ce "parler popu" est en voie de régression, car les classes populaires (ouvriers, agriculteurs) avec lesquelles on l'associait, à tort ou à raison, vont désormais suffisamment longtemps à l'école de la République pour qu'elle parlent un français tout à fait standard, sans parler, bien sûr, de l'effet de nivellement des médias, et de la télévision en particulier.; 06 janvier, 2011 14:36
Anonyme a écrit...: Vous avez beau jeu aujourd'hui de souligner les fautes des autres et en particulier celles de Sarkozy, m'est souvenir que vous prenez mal qu'on vous reprenne vous sur des erreurs que vous faites volontiers. (Je parle d'une fois où vous aviez été repris sur ce blog, et aviez répondu vertement que non, vous aviez raison)
Mais je suppose que vous êtes ravi de revenir sur le devant de la scène en vous attaquant au président.; 06 janvier, 2011 19:34
Jean Véronis a écrit...: Cher anonyme courageux(se)> Ah bon? si vous le dites...

Quel était le cas en question au fait?; 06 janvier, 2011 19:45
olive a écrit...: Un peu en vrac, et je n'ai pas pris le temps d'écouter l'émission :

En d'autres termes, ce qui frappe chez Sarkozy, c'est le hiatus entre tous les autres signes de distinction supposée auxquels on n'aurait rien à redire (costards, petits fours, épouse, véhicules, etc., un rien trop affichés mais bon) et celui de la langue (gestuelle comprise), qu'il n'arrive pas à maîtriser, qui jure. Ce manque de maîtrise en un point dévoile d'emblée ce que l'entassement des autres signes prétendait masquer. Patatras !

Tenter de rattraper la mayonnaise en clamant «foin de l'amphigourique je parle pour être compris du "peuple"», c'est surimposer l'insulte à la vulgarité du galimatias. Dans le coin on ne peut peut plus rural et sinistré où j'habite, ceux qui ont voté pour lui sont les premiers à rejeter cette posture, en un français parfois singulier, toujours parfaitement adéquat et qu'ils n'entendent pas qu'on essaie de singer. — Bien sûr, le tout-puissant «stéréotype du monarque lettré» est pour beaucoup dans ces protestations : un monarque, oui, mais parlant un français qui a de la gueule dans tous les sens du terme (les références à Charles de Gaulle rivalisant avec le goût pour les brèves de comptoir compilées par J.-M. Gouriau — et ma foi...).

Faire le compte des fautes de français me semble vain : les meilleurs en commettent parfois délibérément, parce que respecter la règle donne parfois des formes hideuses (© Paul Valéry). On en revient au début : trousser la règle en brûlant ses jupons ? Patatras !

@ Estellebeaurivage : «sous-Polidor», on ne saurait mieux dire.; 06 janvier, 2011 21:42
Unknown a écrit...: Cher Professeur,

Ayant entendu une radio faire état de votre article dans Libé de ce jeudi, j'ai eu le plaisir de constater que pour une fois on vous avait accordé l'espace mérité et particulièrement apprécié le rappel de cette "fatitude" bien oubliée.

Pour ma part, j'ai réagi à la réponse de Luc Chatel. Si vous en avez le temps, vous pourrez la lire ici :

http://malesherbes.blogs.nouvelobs.com/archive/2011/01/06/si-pres-des-gens.html

Cordialement.; 07 janvier, 2011 12:38
J. a écrit...: "Popu" pour "popu" et impératif pour impératif, il est plus efficace de dire "Taisez-vous Elkabbach" que "Casse-toi, pôv' con".
@pièce détachée : belle analyse; 07 janvier, 2011 15:29
Jean Véronis a écrit...: Il n'y avait pas de mépris dans la phrase de Marchais.; 07 janvier, 2011 17:37
Jean Véronis a écrit...: David> Merci pour ce lien vers Causeur. Je ne partage pas tout à fait votre avis, cependant. Nicolas Sarkozy ne singe pas le parler "popu". C'est sa vraie façon de parler (ce qui, comme je l'ai dit dans l'article de Libé ou sur la BBC l'autre soir, est assez incompréhensible pour un enfant élevé dans les beaux quartiers de Paris). On ne peut pas imiter à ce point en toute situation, le naturel reviendrait au galop. Et les vidéos les plus anciennes montrent qu'il avait déjà ces caractéristiques de parler "popu" dans son langage.

Ceci dit :

1) il le "surjoue" notamment comme vous le dites quand il va dans des usines ;

2) il assume et ne cherche pas à se corriger le moins du monde, sauf rare exception comme sa dernière interview avec Pujadas etc. où les spin doctors lui avaient manifestement conseillé de se "présidentialiser". Mais on voit que ça ne dure pas.; 08 janvier, 2011 09:38
Jean Véronis a écrit...: Piève détachée> Y a-t-il forcément hiatus entre des signes extérieurs de richesses et un langage peu soigné ? Ca colle au contraire assez bien avec un style bling-bling nouveau riche, cf. "La vérité si je mens...".

Sinon, je pense aussi que les classes populaires, rurales, n'aiment pas ce style, et que cela nuira à Sarkozy en 2012, à moins que les spin doctors le travaillent en profondeur, et qu'il nous dise (encore) "J'ai changé...".; 08 janvier, 2011 09:44
Anonyme a écrit...: réponse au com du 6 jan 19h45.
(Traitez-moi de "courageux" entre guillemets pour vous moquer et continuer à prendre les contradictions de haut!)
la conversation était celle-ci :
http://blog.veronis.fr/2008/05/actu-la-une-du-mondefr.html; 08 janvier, 2011 10:37
Jean Véronis a écrit...: Eh bé, comme on dit par ici ! si vous trouvez que j'ai été péremptoire dans ma réponse sur ce post (ici), alors les bras m'en tombent. Les lecteurs jugeront.

En tout cas, merci de venir troller un peu, ça manque sur ce blog ;-); 08 janvier, 2011 11:01
Anonyme a écrit...: Dieu merci la politique, et son analyse, ne se résume pas à l'orthographe, et à sa stigmatisation publicitaire. Le linguiste-poticien est un poisson d'eau trouble.; 08 janvier, 2011 15:16
J. a écrit...: @jean veronis
C'est vrai que ça sent le troll.
Laissons tomber.; 08 janvier, 2011 15:36
olive a écrit...: @ J.V. :

Ce que je voulais souligner, ce n'est pas tant l'entassement de «signes extérieurs de richesse», amplement ressenti et commenté, que le manque de maîtrise, en un point qui suffit à tout flanquer par terre, de «signes de distinction supposée auxquels on n'aurait rien à redire». Même sans bling-bling, cela suffirait pour que Sarkozy ruine ce que vous appelez à raison le «stéréotype du monarque lettré» — un stéréotype tout-puissant pour nous tous, plus ou moins consciemment, que nous le voulions ou non. Un indice : même des gens que leur formation et leurs opinions politiques porteraient à penser les questions de statut selon d'autres schémas, formulent leurs critiques, sans s'en rendre compte le moins du monde, en des termes parfaitement conformes à ce stéréotype : noblesse oblige, Sarkozy déroge...; 12 janvier, 2011 18:20
joële Hugon a écrit...: Ben Ali, lui aussi, a tenté de parler"popu" : son dernier discours télévisé a été prononcé en arabe dialectal (il paraît que c'était la 1° fois).
ça n'a pas marché.; 17 janvier, 2011 11:31
Anansi a écrit...: Trop tard pour écouter le podcast, mais j'aurais voulu revenir sur l'objet original du billet.
Depuis bientôt dix ans RFI diffuse à 21 h TU et publie sur son site un journal en français facile.
Il est bien écrit, bien articulé, moins francocentré que les autres, il parle bien la France.
Pourtant, je n'arrive pas à analyser l'intérêt de cette initiative, unanimement raillée par mes connaissances puristes.
Est-ce une simple copie des journaux en easy english ? Est-ce que cela contribue à la diffusion du français ?
Quelle est votre analyse ?; 27 février, 2011 14:25

Enregistrer un commentaire

jeudi, décembre 16, 2010

Google: The largest linguistic corpus of all time

When I was a student at the end of the 1970's, I never dared imagine, even in my wildest dreams, that the scientific community would one day have the means of analyzing computerized corpuses of texts of several hundreds of billions of words. At the time, I marvelled at the Brown Corpus, which included an extraordinary quantity of one million words of American English, and that after serving to compile the American Heritage Dictionary, was made widely available to scientists. This corpus, despite its size, which now seems derisory, enabled an impressive quantity of studies and largely contributed to the development of language technologies... The study to be published tomorrow in Science by a team comprising scientists from Google, Harvard, MIT, the Encyclopaedia Britannica and Houghton Mifflin Harcourt (publisher of the American Heritage Dictionary) deals with the largest linguistic corpus of all time: 500 billion words. This is the data collected by Google in its (sometimes controversial) programme to digitise books, used, for the first time to my knowledge, for an extensive linguistic study.

I was lucky to have had access to the study before publication, and I felt rather light-headed on reading it... My fingers were itching to talk about it on this blog, but I was forced to respect the embargo (I think the team have organised a bit of a buzz, you'll hear about it in the press as far as I can tell by all the journalists calling me). This corpus contains 4% of all the books ever published on Earth. As the authors say, to read only the texts published in only 2000 (i.e. a tiny fraction of the whole), without pausing to eat or sleep, you would need 80 years, a whole life time for us humans. The sequence of letters in the whole corpus is 1000 times longer than our genome, and if it was all written on one line, it would reach to the moon and back 10 times!

Let's not get carried away though, the corpus will not be accessible to common mortals, who will have to make do with pre-calculated results, the list of words and "n-grams" (i.e. sequences of n consecutive words) extracted from the corpus (limited to 5 words), for English and six other languages, including French. It's already a lot, let's not be churlish, all the more so as the data are organised consolidated by year, allowing for some very interesting studies, and can already be tasted from the on-line interface.

The authors provide a few examples, illustrated with curves that are rather like those from the Chronologue – some readers may remember this tool I made in 2005 for French (and which unfortunately died with the decline of the Dir.com search engine by Free, where I was working at the time). Except of course I had neither the resources nor the material collected by Google, that can trace lexical curves over more than two centuries! The fields covered are as varied as the evolution of grammar (compared usage of regular and irregular forms of English verbs such as burnt/burned), or the effect of censorship (the disappearance of names such as Marc Chagall during the Nazi period)...

The correlation between the use of names of diseases and peaks in epidemics especially hit me, as it reminded me exactly of the curves I obtained on bird 'flu [fr] – except these new data go all the way back to the 19th century! I won't take an image from Science, I'll let you read the article, but here's another image, from an internal team report, that illustrates peaks in the use of the word cholera since 1800. The bluish zones correspond to the terrible epidemics that hit the United States and Europe (in particular the south of France, there area where i live, with thousands of deaths in Marseille, Toulon, etc.).

For the occasion, the team came up with a new word, culturomics, to qualify this new activity, a portmanteau word that starts with culture and ends like genomics, and it is interesting to note that except for computer scientists (Dan Clancy and Peter Norvig at Google, for example) and lexicographers (including Joe Pickett, the current director of the American Heritage Dictionary), the team includes cognitive scientists and biologists, such as the well-known Steven Pinker and Martin Nowak, and two mathematician-biologists, main authors of the study, Jean-Baptiste Michel (a Frenchman, from the Ecole Polytechnique and doing a post-doc at Harvard) and Erez Liberman Aiden. This is no coincidence: biology and language processing share many things alongside algorithms and mathematics (I gave one example myself with phylogenetic trees – for example here, here or here).

And for French? Well, it all remains to be done. My sleeves are rolled up! Here's the very first curve, obtained exclusively thanks to the complicity of the team, who in passing, I would like to thank warmly. It's for the word blog in French, the adoption of which from English we can see as it happened [see update below]...

Today, I am feeling the fascination that astronomers must have felt when they turned Hubble for the first time on an unexplored corner of the universe. Something has happened, a giant step has been taken in the tools available to the linguist.

Will linguists (French ones anyway) be aware of it? That's a whole other story. There is often a huge gap between numbers and letters...

Update : superimposed curves for blog in French (light blue) and in American English (dark blue). The shift between the two languages is clearly visible (NB: vertical scales do not match).

The www.culturomics.org site
The Science article
Very interesting posts by Geoff Nunberg and Mark Liberman on LanguageLog

4 Commentaires:

Olivier Aubert a écrit...: Funny. Following the "blog" example, I tried with "internet", and guess what, it looks like some visionary used the word between 1900 and 1905 (see http://ngrams.googlelabs.com/graph?content=internet&year_start=1800&year_end=2008&corpus=0&smoothing=3 ).

For instance, the 1888 "Memoirs and proceedings of the Manchester Literary & Philosophical Society" (
http://books.google.com/books?id=y6vaAAAAMAAJ&q=%22internet%22&dq=%22internet%22&hl=fr&ei=DYMKTaCOOczysgapuICrCg&sa=X&oi=book_result&ct=result&resnum=15&ved=0CGYQ6AEwDg ) mentions that "The estimated user-base of the Internet is in excess of 20 million world-wide".

Alright, usual OCR+classification errors, but funny anyway. More seriously, has there been any study of the error rate that could give some idea of the precision of said data?; 16 décembre, 2010 22:27
Jean Véronis a écrit...: Right probably OCR errors. Yes, although there was probably not enough space to detail this int he Science papier, the authors have been very careful about this, and have done precise evaluation of OCR error rate per language/period -- it's part of the Google Book process, actually. Books with low OCR quality have been eliminated, although the team admits that English has been better checked that other languages for which the corpora "may not be as reliable". The team estimates that estimates that over 98% of words are correctly digitized for modern English books, which is not bad !

I assume that with such sizes, we have to accept the fact (as in all other sciences) that there is some noise in the data. It's the same for telescopes. It's upon us to develop filtering methods and so on -- although the area in linguistics is still in infancy !; 16 décembre, 2010 22:41
Jice a écrit...: Jean, do you have a twitter account? I always come back to your blog after weeks of oblivion, but I am always interested by your posts (and I found wikio a great tool).

I must confess that I don't have the force to read through all your blog to find this out.... sorry, I have been raised in Corsica ;-); 17 décembre, 2010 00:31
Jean Véronis a écrit...: Jice> aixtal; 17 décembre, 2010 07:20

Enregistrer un commentaire

Google: Le plus grand corpus linguistique de tous les temps

Lorsque j'étais étudiant, à la fin des années 70, je n'aurais jamais osé imaginer, même dans mes rêves les plus fous, que la communauté scientifique ait un jour les moyens d'analyser des corpus de textes informatisés de plusieurs de centaines de milliards de mots. A l'époque, j'étais émerveillé par le Brown Corpus, qui comportait la quantité extraordinaire d'un million de mots d'anglais américain, et qui après avoir servi à la compilation de l'American Heritage Dictionary, avait été mis assez largement à disposition des chercheurs. Ce corpus, malgré sa taille, qui apparaît maintenant dérisoire, a permis une quantité impressionnante d'études et a contribué largement à l'essor des technologies du langage... L'étude que publiera demain dans Science une équipe composée de chercheurs de Google, de Harvard, du MIT, de l'Encyclopaedia Britannica et d'Houghton Mifflin Harcourt (éditeur de l'American Heritage Dictionary) a porté sur le plus gros corpus linguistique de tous les temps : 500 milliards de mots. Il s'agit des données engrangées par Google dans son programme (parfois controversé) de numérisation de livres, qui servent ainsi à ma connaissance pour la première fois à une étude linguistique de grande ampleur.

J'ai eu la chance d'avoir pu accéder à l'étude avant publication, et j'ai eu quelque peu le vertige... Les doigts me démangeaient d'en parler sur ce blog, mais je me suis forcé à respecter l'embargo (je crois que l'équipe a quelque peu organisé un buzz, vous devriez voir ça dans la presse si j'en juge par les appels de journalistes que j'ai reçus). Ce corpus contient 4% des livres jamais publiés sur Terre. Comme le disent les auteurs, pour lire seulement les textes de l'année 2000 (c'est à dire une toute petite portion du tout, qui s'étale sur plus de deux siècles !), sans s'arrêter pour manger ni pour dormir, il faudrait 80 ans, soit une vie entière, à un être humain. La séquence de lettres du corpus dans sa totalité est 1000 fois plus longue que notre génome, et si on écrivait le tout sur une ligne, celle-ci ferait 10 fois l'aller-retour de la Terre à la Lune !

Hélas, il ne faut pas trop rêver tout de même, le corpus ne sera pas accessible au commun des mortels, qui devra se contenter de résultats précalculés, en l'occurrence la liste des mots et "n-grammes" (c'est-à-dire des suites de n mots consécutifs) extraits du corpus (avec une limite à 5 mots), pour l'anglais et six autres langues dont le français. Mais c'est déjà beaucoup, ne boudons pas notre plaisir, d'autant que les données sont organisées avec une consolidation par année qui permettra des études tout à fait intéressantes, comme le montre l'interface de recherche en ligne, qui, j'en suis sûr va avoir un franc succès !

Les auteurs donnent quelques exemples édifiants, illustrés par des courbes qui ne sont pas sans rappeler celles du Chronologue — quelques lecteurs se souviennent peut-être de cet outil que je m'étais amusé à réaliser en 2005 (et qui malheureusement est mort avec le déclin du moteur Dir.com de Free, avec qui je collaborais à l'époque). Sauf que, bien entendu, je n'avais ni les moyens ni le matériau engrangé par Google, qui permettent de tracer de telles courbes lexicales sur plus de deux siècles ! Les domaines couverts sont aussi variés que l'évolution grammaticale (l'usage comparé des formes régulières et irrégulières pour des verbes anglais comme burnt/burned), ou l'effet de la censure (la disparition de noms comme Marc Chagall pendant la période nazie)...

La corrélation entre l'usage des noms de maladie et les pics d'épidémie m'a particulièrement frappé, car elle m'a rappelé très exactement les courbes que j'avais obtenues sur la grippe aviaire — sauf que les nouvelles données permettent de remonter au XIXè siècle ! Je ne vais pas reprendre une image de Science, je vous laisse y lire l'article, mais voici une autre image, issue d'un rapport interne de l'équipe, qui illustre les pics d'usage du mot cholera (en anglais) depuis 1800. Les zones bleutées correspondent aux terribles périodes d'épidémie qui ont frappé les Etats-Unis et l'Europe (notamment le sud de la France, avec des milliers de morts à Marseille, Toulon, etc.).

L'équipe a pour l'occasion forgé un mot, culturomics, pour qualifier ce nouveau type d'activité, un mot-valise qui débute comme culture et qui finit comme genomics, et il est tout à fait intéressant de noter qu'à part des informaticiens (Dan Clancy et Peter Norvig de Google, par exemple) et des lexicographes (dont Joe Pickett, le directeur actuel de l'American Heritage Dictionary), l'équipe comporte des cogniticiens et biologistes, dont les bien connus Steven Pinker et Martin Nowak, et de jeunes et brillants mathématiciens-biologistes principaux auteurs de l'étude : Jean-Baptiste Michel (c'est un français, issu de l'Ecole Polytechnique et en post-doc à Harvard) et Erez Liberman Aiden. Ce n'est pas un hasard : la biologie et le traitement des langues partagent beaucoup de choses du côté des algorithmes et des mathématiques (j'en ai moi-même donné un exemple avec les arbres phylogénétiques -- par exemple ici, ici ou ici).

Et pour le français ? Eh bien, tout est à faire. Je remonte les manches ! Voici la toute première courbe, obtenue en avant première grâce à la complicité de l'équipe, que je remercie vivement au passage. Il s'agit du mot blog, dont on peut assister à la naissance en direct [voir mise à jour en bas du billet]...

Je ressens aujourd'hui la fascination qu'ont eue sans doute les astronomes qui ont braqué pour la première fois Hubble vers un coin inexploré de l'univers. Quelque chose s'est passé, une étape a été franchie dans l'outillage à disposition du linguiste.

Les linguistes (français en tout cas) en auront-ils conscience ? C'est une autre histoire. Entre les chiffres et les lettres, il y a parfois un bien grand fossé...

Mise à jour : superposition des courbes pour blog en français (bleu pâle) et en anglais américain (bleu soutenu). On voit clairement le décalage entre les deux langues ! (NB: les échelles verticales ne sont pas identiques, seule l'échelle horizontale l'est).

Pour en savoir plus

Le site www.culturomics.org
L'article dans Science
La discussion continue sur Le Temps, Le Figaro, Slate
Billets extrêmement intéressants de Geoff Nunberg et Mark Liberman sur LanguageLog
Réactions sur d'autres blogs: Affordance, Effets de serre, La Feuille, Henri Verdier, A la Toison d'Or

68 Commentaires:

bituur esztreym a écrit...: ce corpus de 500 milliards de mots, c'est tous les livres publiés en 2000 - autre ensemble que vous évoquez dans la suite du même paragraphe ?; 16 décembre, 2010 20:09
Jean Véronis a écrit...: Non, c'est 4% de tous les livres publiés depuis 2 siècles !!! Je vais essayer d'améliorer ma phrase, merci de la remarque...; 16 décembre, 2010 20:12
FabriceB a écrit...: Fichtre il fallait bien ça pour apprendre qu'on parle plus d'une maladie quand on en est atteint et que personne ne parlait de blog en 1990.
C'est quoi la prochaine découverte ? Que le mot Internet n'existait pas en 1900 ?
Je croyais que la science servait à découvrir des choses qu'on ignorait, pas à découvrir que le haut est au dessus du bas.; 16 décembre, 2010 20:26
Jean Véronis a écrit...: Lisez l'article, et plongez dans les données, Fabrice, vous verrez, je suis sûr qu'il y a des choses à découvrir, et que parfois le bas est très bas. Mais en bons scientifiques, les collègues en question ont d'abord vérifié que leur télescope se comporte correctement sur l'attendu.; 16 décembre, 2010 20:33
Amanda a écrit...: Jean,

Est-ce qu'il y a un phénomène de "délai" mesurable, sachant que les nouvelles (textes) sont déjà sur le net dès qu'on prononce un nouveau mot, alors que dans le 19ème, il devait y avoir un certain "delay" (dans le sens anglais), avant qu'un mot soit publié...?; 16 décembre, 2010 20:40
TOMHTML a écrit...: Jean, c'est en ligne maintenant. Exemple sympa ici.; 16 décembre, 2010 20:40
TOMHTML a écrit...: Également : l'évolution entre "clef" et "clé". Génial !; 16 décembre, 2010 20:42
Jean Véronis a écrit...: Amanda> Ah voilà ! Excellente remarque... Les mots apparaissent quasiment en temps réel à l'écrit, comme je l'avais montré pour la toomuchité, mais sur le net. Dans l'écrit imprimé (qui est le cas de ce corpus), le délai doit être plus long, à supposer que les mots y perfusent (ce ne sera peut-être pas le cas pour toomuchité !).

Comment mesure l'évolution de ce délai au cours des siècles ? Voilà un beau sujet de recherche !; 16 décembre, 2010 20:45
FabriceB a écrit...: Ah oui sur l'exemple choisis, ça devient franchement plus intéressant pour les lexicographe. On doit pouvoir s'aider de ce genre d'informations pour choisir quand une faute n'en est plus une mais l'évolution d'un usage. La courbe de l'épouvantable « solutionner » est marrante par exemple. Elle me rassure en fait.; 16 décembre, 2010 20:56
Jean Véronis a écrit...: Fabrice> ... a attrapé le virus ;-); 16 décembre, 2010 20:57
grugru a écrit...: excellent cet outil ! c'est incroyablement puissant. Merci pour ce chouette lien. Google, via ses mégadatabases, est vraiment en possession d'outils fabuleux.

Guerre et paix vont de pair....; 16 décembre, 2010 20:59
Jean Véronis a écrit...: TomHtml> Oui, ça vient juste d'ouvrir, merci !

On va pouvoir organiser des combats de mots... Exemple.; 16 décembre, 2010 21:03
Eve La Fée a écrit...: Il y a un petit problème sur la datation de certains documents et/ou de certaines parties des documents. Parlait-on déjà d'informatique au 17ème siècle ? ;)

Voyant ça, j'ai fait une recherche google classique entre 1600 et 1900 pour avoir des exemples, il me semble que les introductions récentes des documents anciens portent la même date, et d'autres sont manifestement des documents modernes mal datés.
Un biais à connaitre lorsqu'on exploite ce corpus :); 16 décembre, 2010 21:05
Jean Véronis a écrit...: Eve> Oui, comme sur tous les instruments scientifiques (y compris les télescopes ;-), il y a un peu de bruit de fond ici où là, parfois dus à des problèmes d'OCR -- les auteurs le savent et en tiennent comptent, j'ai eu accès à des documents qui montrent une rigueur extrême de leur part. A nous d'en tenir compte, vous avez tout à fait raison !; 16 décembre, 2010 21:34
karl a écrit...: Il semble pour de nombreuses données, le volume augmente brûtalement autour de 1800. Je me demande ce que le percentile représentait réellement. Est-ce que les valeurs sont normalisées localement ?

Également quelque chose qui manque et qui serait fascinant c'est le volume de catégorisation du livre.

Je faisais une recherche sur le mot sodomie ainsi que fodomie (pour l'OCR) et je me posais la question du champ sémantique autour: religieux, médical, érotique, etc.

Il y a des recherches amusantes autour des moyens de transports, des institutions, des religions, de la cuisine. Il y a sûrement des choses à regarder du côté des noms de pays (leur anciens et nouveaux noms).; 17 décembre, 2010 03:02
Laurent LB a écrit...: Fascinant !

Ce pic révolutionnaire sur France et Europe m'intrigue.

Jésus se porte mal depuis la première guerre mondiale. La natalité est bien sûr un sujet d'après-guerre. Les tsiganes sont plus vieux que les roms. Quant au racisme, on en parle de plus de plus.; 17 décembre, 2010 03:14
all a écrit...: quelle différence entre "culturomic' et "mème" ?; 17 décembre, 2010 06:17
Jean Véronis a écrit...: Karl> Oui, les valeurs sont normalisées. Mais les auteurs admettent que les autres langues ont été moins vérifiées que l'anglais, et il se peut donc qu'il y ait quelques éléments de bruit.; 17 décembre, 2010 07:13
Jean Véronis a écrit...: Laurent LB> Addicitif n'est-ce pas ?

Attention l'outil est sensible aux majuscules : Jésus; 17 décembre, 2010 07:17
Jean Véronis a écrit...: All> En effet... Peut-être que le "mics" insiste la technique, sur les outils et algorithme qui permettent d'extraire les mèmes (comme "genomics")...; 17 décembre, 2010 07:18
Marchand a écrit...: Il n'y a pas q'un problème d'OCR dans Google BOoks, il y a aussi un gros problème de métadonnées qui limite quand même un peu la portée du moteur, ou en tout cas qui demandera d'interpréter les résultats avec précautions. Par exemple une recherche sur "internet" avant 1900 donne des résultats, et pas uniquement dûs à la proximité avec "interne".; 17 décembre, 2010 09:27
Gaétan a écrit...: Pic de Solidarité vers 1981; 17 décembre, 2010 09:27
Amanda a écrit...: Il semblerait que la fraternité est un peu négligée...
http://ngrams.googlelabs.com/graph?content=libert%C3%A9%2C%C3%A9galit%C3%A9%2Cfraternit%C3%A9&year_start=1500&year_end=2008&corpus=7&smoothing=10; 17 décembre, 2010 09:28
Jean Véronis a écrit...: Marchand> Oui, en tout cas pour le français. Les métadonnées ont été beaucoup moins vérifiées que pour l'anglais. Le travail reste à faire...; 17 décembre, 2010 09:30
Jean Véronis a écrit...: Amanda> Mais la sororité progresse!; 17 décembre, 2010 09:31
Jean Véronis a écrit...: Gaetan> Oui, mais attention, l'outil est sensible aux majuscules:

Solidarité, Walesa

solidarité; 17 décembre, 2010 09:36
Jean Véronis a écrit...: Ah zut, mauvais copier-coller pour le deuxième:

solidarité (en minuscules); 17 décembre, 2010 10:19
Gaétan a écrit...: Solidarnosc, bien sur ! Et moi qui croyait a un effet du Mitterrandisme... <a hreh="http://goo.gl/Gy6MT>http://goo.gl/Gy6MT</a>; 17 décembre, 2010 10:56
Gaétan a écrit...: Solidarnosc, bien sur ! Et moi qui croyait a un effet du Mitterrandisme... http://goo.gl/Gy6MT; 17 décembre, 2010 10:58
g1 a écrit...: nous, eux

Intéressant, non ?; 17 décembre, 2010 11:00
Epsi a écrit...: La fameuse bataille du "autant pour moi" contre le "au temps pour moi" :

http://ngrams.googlelabs.com/graph?content=autant+pour+moi%2Cau+temps+pour+moi&year_start=1700&year_end=2008&corpus=7&smoothing=3

Curieux que la graphie "au temps pour moi" n'apparaisse pas, non ?; 17 décembre, 2010 12:27
Laurent LB a écrit...: Le subjonctif imparfait est passé de mode, même à la troisième personne.; 17 décembre, 2010 13:26
Laurent LB a écrit...: La république est remplacée par la démocratie.

On parle autant de nazisme aujourd'hui qu'en 45 ! Je me demande combien d'années il faudra pour que ça retombe. De son côté, le fascisme a eu son apogée vers 76.; 17 décembre, 2010 15:14
Jeanviet a écrit...: par contre ou en revanche, depuis 1980, on dit moins souvent par contre... une grande richesse toutes ces données !; 17 décembre, 2010 17:16
Jean Véronis a écrit...: Epsi> "Autant pour moi" apparaît, mais avec une fréquence si faible que la courbe est quasiment confondue avec l'axe des abscisses. On la voit quand on la trace seule : autant pour moi.

Plutôt normal dans un corpus de ce type (livres), que ce soit la forme normative "au temps" qui prédomine...; 17 décembre, 2010 17:21
Jean Véronis a écrit...: Laurent LB> Je crois que les historiens vont s'en donner à coeur joie:

Trotsky, Lénine, Staline, Mao

Géniale la petite "réplique" sur Staline dans les années 60, ainsi que les pics Lénine, Troktsy dans les années 70 (avec Mao, bien sûr !). Trotksy juste un poil plus tard que les autres...; 17 décembre, 2010 17:25
Jean Véronis a écrit...: Et Hitler avec une courbe en dos de chameau ! Etonnant, cet oubli dans les années 50, suivi d'un retour à la fin des années 60 !; 17 décembre, 2010 17:27
Laurent LB a écrit...: Comme toutes les données sont téléchargeables en CSV, on peut jouer avec (en faisant attention, car c'est très gros) !

Il serait intéressant par exemple d'avoir un outil qui essaie de deviner à quelle date un texte donné a été écrit (en affichant la courbe des probabilités).

À l'inverse, on pourrait vouloir donner un texte et une date, l'outil relèverait alors les anachronismes potentiels (mots qui sont peu ou pas utilisés à cette époque). Ce serait utile aux écrivains !

D'autres idées ?; 17 décembre, 2010 20:00
GTA 5 a écrit...: Excellent outil! Vraiment très puissant!; 18 décembre, 2010 01:48
Emmanuel a écrit...: Bonjour,

Merci pour cet article, et ouah ! Quelle bonne nouvelle !

Est-ce que notre hôte, ou un lecteur, aurait une idée du pourquoi de la percée très nette des couleurs pendant la révolution et l'empire ?
Désolé, lien barbare, sinon, faites une recherche avec plusierus couleurs

http://ngrams.googlelabs.com/graph?content=vert%2Crouge%2Corange%2Cnoir%2Cblanc%2Cgris%2C+jaune%2C+bleu&year_start=1750&year_end=2000&corpus=7&smoothing=3; 18 décembre, 2010 03:00
Jean Véronis a écrit...: Emmanuel> Vous pointez là quelque chose de tout à fascinant. Je remets votre lien en version cliquable: vert,rouge,orange,noir,blanc,gris,jaune,bleu. On a les mêmes pics sur couleur,couleurs. Cela me semble correspondre très exactement aux études théoriques sur la couleur qui ont culminé avec le Traité des couleurs de Goethe, publié fin XVIIIe-début XIXe et qui a eu un retentissement considérable en Europe.; 18 décembre, 2010 11:59
raphaël a écrit...: Chouette, on peut même devenir apprenti sociologue/historien:

Intéressante évolution de "libre échange", "sans emploi" et "sans domicile fixe" depuis les années 1980.

On a davantage écrit sur le communisme que le nazisme ?

Libération du mot sexe après 1789 et 1960; 18 décembre, 2010 14:24
Anonyme a écrit...: Quels termes s'entendent le mieux, capitalisme et communisme ou capitalisme et marxisme ?; 18 décembre, 2010 15:06
TOMHTML a écrit...: Attention également au "s long" qui ressemble à un "f". Une recherche de "case" et "cafe" montre un brusque changement à un moment..; 18 décembre, 2010 20:38
Anonyme a écrit...: C'est qui ces auteurs de harvard ? on dirait qu'il y a un français dedans ??; 18 décembre, 2010 21:47
Jean Véronis a écrit...: TomHTML> Oui, j'avais mentionné ce problème dans l'OCR de Google il y a quelques mois (ici). La conséquence pour Google N-Grams a été discutée par Giles Thomas.

Difficile de comprendre pourquoi Google lance des projets pharaoniques de cette ampleur dans prendre des mesures minimales de redressement orthographique (qui seraient assez aisées à mettre en oeuvre étant donné la taille du corpus et les moyens de la firme...).

Bizarre.; 19 décembre, 2010 10:03
Jean Véronis a écrit...: Anonyme> Oui, Jean-Baptiste MIchel est un Polytechnicien en post-doc à Harvard.; 19 décembre, 2010 10:04
Cochonfucius a écrit...: En plus de tout ça, Google suggère des améliorations dans les haïku (suivre le lien).; 19 décembre, 2010 10:49
hpchavaz a écrit...: Très intéressant.

Il semble y avoir un léger problème non rédhibitoire toutefois concernant les valeurs des fréquences ou l'échelle des ordonnées.

La fréquence d'un terme semble dépendre parfois de l'insertion d'un autre terme :

http://ngrams.googlelabs.com/graph?content=langue%2C+t%C3%AAte&year_start=1820&year_end=2008&corpus=7&smoothing=2
Max Langue 0.026%

http://ngrams.googlelabs.com/graph?content=langue&year_start=1820&year_end=2008&corpus=7&smoothing=2
Max Langue 0.020%; 19 décembre, 2010 12:24
hpchavaz a écrit...: Très intéressant.

Il semble y avoir un léger problème non rédhibitoire toutefois concernant les valeurs des fréquences ou l'échelle des ordonnées.

La fréquence d'un terme semble dépendre parfois de l'insertion d'un autre terme :

http://ngrams.googlelabs.com/graph?content=langue%2C+t%C3%AAte&year_start=1820&year_end=2008&corpus=7&smoothing=2
Max Langue 0.026%

http://ngrams.googlelabs.com/graph?content=langue&year_start=1820&year_end=2008&corpus=7&smoothing=2
Max Langue 0.020%; 19 décembre, 2010 12:25
alain a écrit...: hpchavaz : la différence vient du paramètre de lissage de la courbe (smoothing) que vous avez modifié entre les deux cas.; 19 décembre, 2010 17:44
FishEatShark a écrit...: C'est rassurant, "bonheur" reste plus fréquent que "malheur", même s'il est en baisse.; 19 décembre, 2010 21:32
Pascal Lapointe a écrit...: Intéressant outil. En passant, on écrit "blogue" au Québec, ce qui introduit une 2e courbe.; 20 décembre, 2010 01:55
florent a écrit...: assurément on ne voit pas arriver des trucs pareils tous les jours !
Même si le graphème est un peu comme le fond du ciel rouge en astronomie ( en retard sur la réalité ) il y a de quoi rapporter de nombreuses spéculations linguistiques à des éléments observables.
Cela dit je me demande si le bruit qui vient de l'OCR est seul: la typographie évolue elle aussi non ? Ce qui est un f ou un s dans un cas sur deux peut devenir un s d'une année sur l'autre. Mais c'est marginal sans doute.; 20 décembre, 2010 14:05
Unknown a écrit...: Incroyable !

Il y a quelque chose que je ne comprend pas dans le guide d'explication fourni par Google.

Ils expliquent que les données sont normalisées par le nombre de livres publiés pour ne fausser les résultats. Je ne comprends pas pourquoi cela est nécessaire, étant donné que les résultats sont donnés en pourcentage d'utilisation : quel est l'intérêt de normaliser par le nombre de livre ?

Au passage, deux mots intéressants à regarder :"Dieu" en français et "God" en anglais. à comparer avec "Dieu est mort", et "God is dead" !! (pas sur les mêmes graphes car la courbe "Dieu" écrase "Dieu est mort" malgré tout...; 20 décembre, 2010 16:02
Météor a écrit...: Jean> Extraordinaire, ce chronologue v2.0 !

Plus haut vous disiez : "Plutôt normal dans un corpus de ce type (livres), que ce soit la forme normative "au temps" qui prédomine..."

C'est juste le contraire : la forme normative est "autant pour moi".
Autant pour vous ;-)); 21 décembre, 2010 12:07
Jonathan a écrit...: Bonjour,
Est-ce que quelqu'un a essayé de télécharger les données ?

Parce que dans le fichier googlebooks-eng-all-1gram-20090715-0.csv par exemple j'ai pas de mots mais des caractères ("#") ou des nombres... étrange.

# 1574 1 1 1
# 1584 6 6 1

http://ngrams.googlelabs.com/datasets; 21 décembre, 2010 12:19
Jean Véronis a écrit...: Méteor> L'hypothèse la plus couramment admise est que la forme originale est "Au temps pour moi", provenant de l'expression militaire "Au temps", qui signifie qu'il faut recommencer un mouvement de façon correcte. Il est vrai qu'il y a eu parfois un peu polémique, qu'on trouve des défenseurs du "autant".; 21 décembre, 2010 15:22
Jean Véronis a écrit...: Jonathan> C'est parce que les données sont classées par ordre alphabétiques et les premier tokens dont les signes, # etc, les chiffres et nombres, etc. Il faut arriver au fichier 9 (ligne 4105571) pour avoir les tokens alphabétiques...

A& 1631 8 8 1
A& 1644 11 11 1
A& 1660 1 1 1
A& 1670 3 3 1
A& 1674 5 5 1; 21 décembre, 2010 18:00
Jonathan a écrit...: Effectivement, merci beaucoup. Ils ont vraiment tout mis (AAAGH) !; 21 décembre, 2010 18:55
Unknown a écrit...: Très intéressant.

L'Alsace-Moselle était allemande de 1870 à 1918. En cherchant la ville de Metz et le département Mosel dans le corpus allemand, on obtient cette courbe.

En cherchant sur le nom allemand de la ville de Thionville "Diedenhofen", on a naturellement les pointes de 1870 (annexion), 1914-18 et 1939-45, mais un autre pic apparait au environ de 1895-99. Que s'est-il passé durant cette période?; 05 janvier, 2011 14:24
Inarius a écrit...: Intéressant aussi cette courbe sur les juifs et musulmans (et leur religion respective)
http://ngrams.googlelabs.com/graph?content=juif%2Cmusulman%2CIslam%2Cjuda%C3%AFsme&year_start=1750&year_end=2008&corpus=7&smoothing=3

alors que chez les anglais, l'intégration de l'Islam et du Musulman est plus récente

http://ngrams.googlelabs.com/graph?content=Jew%2CMuslim%2CIslam%2CJudaism&year_start=1750&year_end=2008&corpus=0&smoothing=3; 06 janvier, 2011 14:33
Anonyme a écrit...: bonjour,

drôle de constater qu'en tapant "guerre" pour la France, les livres annonçaient les guerres du XXe siècle un peu avant leurs apparitions réelles...; 12 janvier, 2011 00:23
Anonyme a écrit...: Le mot prolétaire pour le corpus en Français sur toute la période est savoureux, depuis 1980 il n'y en a plus, confirmation

mouvementautonome.com; 18 février, 2011 16:28
Escape a écrit...: Avec "geek" c'est surprenant.

Quelqu'un a une explication ?

http://ngrams.googlelabs.com/graph?content=geek&year_start=1800&year_end=2008&corpus=7&smoothing=3; 28 février, 2011 20:01
Jean Véronis a écrit...: Ca ne me semble pas anormal... Un pic de popularité vers 2002, puis le mot a un peu faibli, mais reste toujours présent. On voit mieux ici; 28 février, 2011 20:07
Escape a écrit...: Oui mais en fait, c'est surtout l'apparition du mot vers 1820-1840 (quel sens pouvait-il avoir ?) puis sa disparition, qui me pose problème...; 28 février, 2011 20:20
Jean Véronis a écrit...: Les fréquences sont très faibles.

On voit mieux en agrandissant la période 1800-1850; en cliquant sur les dates en bas de la page on a accès aux contextes.

On voit qu'il s'agit de noms de personnes, ou d'erreurs d'OCR, comme ici.; 28 février, 2011 20:25

Enregistrer un commentaire

vendredi, décembre 10, 2010

Google: More and more Wikipedia, but surfers seem weary

My faithful readers know that I regularly conduct user studies on various search engines, including Google. The latest one contains a slew of interesting elements, one of which grabbed my attention in particular. I have underlined several times the significant place that Google (and other engines...) give to Wikipedia in their results (see here, here [fr] or here).

The latest study shows a level of presence in the encyclopedia never yet reached. It was conducted at the end of November according to a protocol I have explained here. 226 users, all students at the University of Provence, were asked to enter two queries of their choice (in French) in 13 different themes (or 26 queries per user), and to allocate a mark to the first organic link returned by the engine, from 0 (totally dissatisfied with the result) to 5 (totally satisfied with the result). In passing, I would like to thank my colleagues who got their students to do the test.

In total, 5876 queries were able to be analyzed. The presence of the encyclopedia in the first link has reached its highest level since the start of this series of tests, as almost one third of the results lead to Wikipedia on the first link (31.2 % to be exact).

Proportion of Google results in Wikipedia (first link)

Even more surprising, the score given to the results has been dropping gradually since 2008. For the first time, results excluding Wikipedia are marked better than the results in the encyclopedia (3.47 compared to 3.52). These results had reached a peak of satisfaction (up to 4.48 in November 2007). An erosion can also be noted, low but statistically significant, in Google's overall score, which is the lowest in the whole series of tests (3.5 compared to 3.72 at its peak), mainly due to the drop on Wikipedia.

Results score (first link)

The reasons for Wikipedia's presence in the results, at whatever level, are unknown and we can only speculate. I doubt that these fluctuations are simply due to the "PageRank", i.e., roughly speaking, the number of links that web users make to the encyclopedia. For a while now we have known that many other factors are in play in the ranking of results, and I have no doubt that the sites that are most often returned by the engine are subject to very special examination by the teams at Google and very probably ad hoc settings.

One of the hypotheses I put forward is that Wikipedia is a very practical expedient in difficult times. We know that the web is a difficult jungle to control, with intense spamming and SEO practices that have the sole aim of getting around search engines' algorithms, regularly putting them in difficult positions, such as the mad invasion of splogs in the summer of 2005 (see here), or changes to the web itself (see here). It's a fight between the sword and the shield: engines react by making constant adjustments, algorithmic and editorial. Wikipedia is an easy adjustment variable: interviews with users showed that until now the encyclopedia benefitted from a priori favorable credit, even when the page returned did not quite correspond to the query. Thus, for example, the page of a politician or artist was perceived as a relevant result, even if the intention behind the query was for news or to make a purchase (CD, book, etc.). As users mentioned regularly, it's better to end up on a Wikipedia page than on one of those useless forums that are the plague of the web, or worse still a page of spam.

In all evidence, this positive perception is being eroded. Various factors are undoubtedly at work. First, it is likely that web users have become increasingly demanding. As they use search engines (and now other means of accessing information, such as social networks), the public is learning. For example, new generations of students entering university are the first to have had a computer at home since they were born, and Google as a search engine throughout most of their schooling. It is therefore possible that the substitute effect mentioned above is in play less than before, and that on the contrary, it is gradually being replaced by a certain weariness on the part of users with Wikipedia results, that are not always a direct response to their query.

It is also possible that the quality (perceived in any case) of Wikipedia pages is lower on the whole. If more pages are returned by Google, it is logical, statistically speaking, that deeper pages, that are less developed and controlled by the Wikipedia community, finish by appearing. We could also ask whether the constant increase in the number of Wikipedia pages is not itself an almost programmed drop in quality. This is a real question, without controversy (I am not one of those academics that snipes at or turns his nose up at Wikipedia, far from it: I believe it is one of the most fascinating intellectual adventures of the start of this century).

I don't know whether the Google teams are aware of this erosion (I don't know either whether it occurs in other languages). Whatever the reason, it is clearly affecting one of the levers the engine uses to control quality.

0 Commentaires:

Enregistrer un commentaire

jeudi, décembre 09, 2010

Google: De plus en plus de Wikipedia, mais les internautes semblent se lasser

Les lecteurs fidèles de ce blog savent que je conduis régulièrement des études utilisateurs sur divers moteurs de recherches, dont Google. La dernière en date contient une foule d'éléments intéressants, dont l'un m'a particulièrement frappé. J'avais souligné à plusieurs reprises la place importante que Google (et d'autres moteurs...) accordaient à Wikipedia dans les résultats (voir ici, ici ou ici).

La dernière étude montre un niveau encore jamais atteint de présence dans l'encyclopédie. Elle a été conduite fin novembre selon le protocole que j'ai déjà exposé ici. 226 utilisateurs, tous étudiants à l'Université de Provence, ont été invités à taper deux requêtes de leur choix dans 13 thèmes différents (soit 26 requêtes par utilisateur), et à attribuer une note au premier lien organique retourné par le moteur, entre 0 (totalement mécontent du résultat) à 5 (totalement satisfait du résultat). Je remercie au passage les collègues qui se sont chargés de faire passer le test à leurs étudiants.

Au total, ce sont donc 5876 requêtes qui ont pu être analysées. La présence de l'encyclopédie en premier lien atteint le niveau le plus élevé depuis le début de cette série de tests, puisque près du tiers des résultats aboutit à Wikipedia sur le premier lien (31,2 % exactement).

Proportion de résultats Google dans Wikipedia (premier lien)

Encore plus étonnant, le score attribué aux résultats décroit régulièrement depuis 2008. Pour la première fois, les résultats hors Wikipedia sont mieux notés que les résultats dans l'encyclopédie (3,47 contre 3,52). Ces résultats avaient pourtant atteint des sommets de satisfaction (jusqu'à 4,48 en novembre 2007). On notera également une érosion, faible mais statistiquement significative, du score global de Google, qui est au plus bas de toute la série de tests (3,5 contre 3,72 au plus haut), en grande partie à cause de la baisse sur Wikipedia.

Score des résultats (premier lien)

Les raisons de la présence plus ou moins élevée de Wikipedia dans les résultats sont inconnues, et l'on ne peut que spéculer. Je doute bien évidemment que ces fluctuations soient simplement dues au "PageRank", c'est-à-dire au plus ou moins grand nombre de liens que font les internautes vers l'encyclopédie. On sait depuis longtemps que de multiples autres facteurs entrent en ligne de compte dans le classement des résultats, et il est pour moi à peu près certain que les sites les plus retournés par le moteur font l'objet d'un examen très particulier de la part des équipes de Google et très probablement de réglages ad hoc.

Une des hypothèses que j'avais émises, c'est que Wikipedia est un expédient bien pratique en temps de difficultés. On sait que le Web est une jungle assez difficile à maîtriser, avec une activité intense de spam et de pratiques SEO qui n'ont d'autre but que de contourner les algorithmes des moteurs, ce qui les met régulièrement dans des positions difficiles comme lors de la folle invasion des splogs de l'été 2005 (voir ici), ou des évolutions du Web lui-même (voir ici et ici). C'est la lutte du glaive et du bouclier : les moteurs réagissent par des ajustements constants, algorithmiques et éditoriaux. Or, Wikipedia est une variable d'ajustement facile : les interviews d'utilisateurs montraient jusqu'ici que l'encyclopédie jouissait d'un crédit a priori favorable, même lorsque la page retournée ne correspondait pas exactement à la requête. Ainsi, par exemple, la page d'une personnalité politique ou d'un artiste était perçue comme résultat pertinent, même si l'intention derrière la requête était plutôt l'actualité, ou un achat (CD, livre, etc.). Comme le mentionnaient régulièrement les utilisateurs, il vaut mieux aboutir sur une page Wikipedia que sur un de ces forums sans intérêt et fermes à contenu qui sont la plaie du Web, ou pire, une page de spam.

Cet a priori positif s'érode manifestement. Divers facteurs sont sans doute à l'œuvre. Tout d'abord, il est probable que le niveau d'exigence des internautes est de plus en plus élevé. Le public apprend au fur et à mesure de son utilisation des moteurs (et désormais d'autres moyens d'accès à l'information, comme les réseaux sociaux). On notera par exemple que les nouvelles générations d'étudiants qui entrent à l'université sont les premières qui ont eu un ordinateur dans leur foyer depuis leur naissance, et Google comme moteur de recherche pendant quasiment toute leur scolarité. Il est donc bien possible que l'effet de succédané mentionné ci-dessus joue moins qu'auparavant, et qu'il soit au contraire progressivement remplacé par une certaine lassitude des utilisateurs face à des résultats Wikipedia qui ne constituent pas toujours une réponse directe à leur requête.

Il est possible également que la qualité (perçue en tout cas) des pages Wikipedia soit globalement moins bonne. Si plus de pages sont retournées en résultat par Google, il est logique, statistiquement parlant, que des pages plus profondes, moins travaillées et contrôlées par la communauté Wikipedia finissent par surgir. On peut se demander d'ailleurs si l'accroissement constant du nombre de pages de Wikipedia ne contient pas en lui-même une diminuation quasiment programmée de la qualité. C'est une vraie question, sans intention polémique (je ne fais pas partie des universitaires qui font la fine bouche sur Wikipedia, ou qui se pincent le nez, bien au contraire : je pense que c'est une des aventures intellectuelles les plus passionnantes de ce début de siècle).

Je ne sais pas si les équipes de Google ont réalisé cette érosion (je ne sais pas non plus si elle se vérifie sur les autres langues). Quelle qu'en soit la cause, elle impacte clairement l'un des leviers qu'a le moteur pour le contrôle de sa qualité.

21 Commentaires:

Anonyme a écrit...: Une autre hypothèse pourrait être plausible (cela dépend des détails du protocole) : Wikipédia est devenue tellement connue que les internautes ont peut-être tendance à lancer certaines de leurs recherches directement sur Wikipédia. Personnellement, je ne fais pas le même type de recherche sur Google que sur Wikipédia. Il y a un biais de sélection parmi les recherches que je fais sur Google : ce sont plutôt le genre de recherches pour lesquelles je pense que Wikipédia sera moins performante...; 09 décembre, 2010 10:24
Jean Véronis a écrit...: Robynrider> Dans le protocole, les utilisateurs n'avaient pas le choix du moteur (donc ils ne pouvaient pas aller sur Wikipedia, Amazon ou autre).

Le phénomène que vous décrivez existe (c'est ce que j'appelle la "fuite" vers les moteurs verticaux). Mais il touche principalement les "power users" que nous sommes. J'ai pu vérifier à de multiples reprises que les utilisateurs en général avaient une pratique des outils extrêmement basique -- cela inclut les étudiants, qui paradoxalement ont (dans l'ensemble) une pratique très sommaire du Web (Google, MSN, Facebook...).; 09 décembre, 2010 10:35
A.N. O'Nyme a écrit...: Peut-on aussi proposer une explication optimiste, qui serait que au fur et à mesure que le web se développe, il existe de plus en plus de pages "intéressantes" sur n'importe quel sujet donné; dès lors, même si la qualité "absolue" de Wikipedia ne change pas, en revanche elle est progressivement rattrapée et dépassée par d'autres pages plus spécialisées, si bien que sa qualité "par comparaison" diminue?

De façon évidente, votre méthodologie rend assez difficile les comparaisons entre deux batchs d'étudiants, puisque rien ne garantit qu'un "5" de 2010 soit la même chose qu'un "5" de 2005.... Les notes sont donc plus utiles à regarder en tant que comparaison, comme vous le faites d'ailleurs en vous focalisant sur wikipedia/total plutôt que sur la note absolue. Mais dans ce cas, la seule information que vous avez, ce n'est pas la qualité absolue (perçue) de wikipedia, mais plutôt sa qualité relativement aux autres sources disponibles...; 09 décembre, 2010 14:10
Jean Véronis a écrit...: JF> Il y a de plus en plus de pages intéressantes, ou alors de spam, de fermes à contenus, etc. La tâche de Google est bien difficile !

Bien sûr rien ne garantit que l'échelle soit stable dans le temps, c'est le problème de tout baromètre. Les écarts entre groupes de résultats (ou entre moteurs comme Google/Yahoo) sont certainement plus intéressants.; 09 décembre, 2010 14:15
Pilou a écrit...: Quand je veux m'informer sur un sujet dont j'ignore tout -souvent un nom propre- je privilégie Wikipédia, en passant par Google ; ainsi je bénéficie de l'esprit critique de la communauté, là où, a cause de mon ignorance, je ne peux l'exercer. Par contre, pour approfondir un savoir, je vais privilégier les sources originales.

Wikipédia évolue : j'ai l'impression subjective que la taille des articles s'accroit, qu'ils deviennent plus encyclopédiques. (Voir l'entrée 'Verrières-le-buisson' qui relève plus de la monographie que du bref de guide touristique.)
Du coup il se peut que les étudiants puissent les trouver plus savants qu'ils ne souhaitent ; emmerdants, quoi !; 09 décembre, 2010 18:01
Jerome a écrit...: Autre hypothèse: les étudiants sont blasés par internet et hésitent à donner une bonne note à ce qu'il considèrent comme normal.

Pour tester cette hypothèse, il faudrait demander aux mêmes étudiants d'identifier (voire de noter) le meilleur des liens dans les pages suivantes. Cette valeur pourrait servir à étaloner les notes données.; 09 décembre, 2010 19:09
Jean Véronis a écrit...: Pilou> Je trouve que certaines entrées devient trop volumineuses, ce qui est assez rebutant pour une première approche sur un sujet. Une bonne évolution serait d'avoir un découpage à deux niveaux des articles touffus: une intro et un approfondissement.

Par ailleurs, certains articles, de mathématiques ou physique, par exemple, sont manifestement écrits par des spécialistes, mais sont incompréhensibles par le grand public. Je ne suis pas tout à fait ignorant dans ces matières, mais j'ai souvent moi-même du mal.

C'est assez amusant de constater que Wikipedia retombe parfois dans les mêmes travers que les encyclopédies classiques. J'ai eu la chance d'avoir la toute première édition (papier) de l'Universalis, à partir de 1968. Mon père dans sa grande sagesse me l'a offerte: on recevait un volume à la fois. Les problèmes étaient les mêmes. articles écrits par les meilleurs experts, mais qui ne se mettaient pas toujours à la portée, et par exemple, bien que j'ai fait Terminale C et MP à la fac, j'étais souvent incapable de comprendre les articles dans ces domaines...

Mais c'est intéressant de voir qu'une population large (des milliers de contributeurs non encyclopédistes au départ) refont le chemin, redécouvrent et améliorent. Je suis confiant pour la suite. C'est tout à fait fascinant.; 10 décembre, 2010 09:49
Jean Véronis a écrit...: Jérôme> Oui, c'est possible... La population étudiante (et la population en général) évolue au fil des années, dans son approche, ses exigences... On sait qu'on a appris à filtrer les pubs par exemple (le fameux banner-blindness). On peut relativement facilement faire des comparatifs instantanés (Google vs Yahoo etc.), mais c'est plus délicat d'interpréter les variations dans le temps: beaucoup de paramètres changent à la fois: les utilisateurs eux-mêmes, le contenu du Web (et de Wikipedia en l'occurrence), les algos des moteurs, etc. Il faudrait avoir le temps (et l'argent) pour faire des études approfondies...; 10 décembre, 2010 09:54
Anonyme a écrit...: C'est ce qu'on appelle l'« effet arrosoir » : http://danstonchat.com/8109.html; 10 décembre, 2010 09:59
Jean Véronis a écrit...: Anonyme> Excellent ! Je la note celle-là c'est très bien vu ! Merci du lien.; 10 décembre, 2010 10:02
Gnouros a écrit...: Je suis également persuadé que les bonnes positions de Wikipédia dans les résultats de Google proviennent moins d'un nombre de liens entrants élevé vers les pages de l'encyclopédie, que d'une décision éditoriale. Barbara Cassin avait essayé d'étudier (certes très maladroitement compte tenu de ses modestes compétences techniques) cette collusion entre Google et Wikipédia dans son ouvrage Google-Moi, dévastatrice selon elle.

Je pense que Google doit être parfaitement au courant que les liens vers Wikipédia sont moins cliqués : ils ont parfaitement les moyens techniques de le savoir. Ainsi, par exemple, pour tout utilisateur possédant un compte Google et logué, chaque lien retourné par le moteur de recherche est transformé : une page intermédiaire est ajoutée, ayant vocation sans doute d'observer le comportement des utilisateurs, et donc de s'ajuster.; 10 décembre, 2010 15:52
Claude_r a écrit...: Sur l'âge des étudiants. J'ai fait un rapide calcul (plutôt masochiste, si on y réfléchit bien) et j'ai découvert avec horreur que ceux qui entraient aujourd'hui à l'université étaient nés en...1992...
Argh... Pour reprendre une phrase d'un ami, 1992 c'est une bonne année pour un vin mais pas pour un étudiant... Si on continue le raisonnement, on s'apperçoit qu'au moment où ils ont su lire (vers 7 ans), soit vers 1999-2000, Internet était aussi déjà dans nombre de foyers.; 10 décembre, 2010 15:57
Jean Véronis a écrit...: Gnouros> Google monitore de très près les comportements des utilisateurs. Il n'y a guère de doute qu'ils aient un tableau de bord complet sur le #1 des sites retournées dans les résultats ! L taux de clics est un premier indice, mais il y en a d'autres: l'utilisateur revient-il à la page de résultats pour un deuxième clic ? combien de temps reste-t-il sur la page d'arrivée, etc.

Mais je suis convaincu que par moments, c'est extrêmement difficile de présenter de bons résultats dans la jungle dont je parlais. Si on ne sort pas Wikipedia on risque de sortir quoi? un comparateur de prix bidon? un forum minable? un agrégateur à deux balles? du spam? du porn? Les experts (ou bidouilleurs) SEO passent leur temps à bourrer Google...; 10 décembre, 2010 16:02
Jean Véronis a écrit...: Claude_r> Voilà. Ils sont nés avec une souris dans la main, et ne peuvent pas imaginer un monde sans Google...; 10 décembre, 2010 16:03
Cochonfucius a écrit...: Autre détail fascinant: une recherche où le mot est imposé avec une orthographe déviante, disons, "arrosoire" sera loin d'être infructueuse.; 10 décembre, 2010 17:36
Cochonfucius a écrit...: Faute de frappe, je rétablis:

"arrosoire".; 10 décembre, 2010 17:39
Manu1400 a écrit...: Bonjour,

Les quatre seules raisons que je vois :
* éventuellement lassitude comme tu l'as expliqué.
* les performances web sont restés plutôt les même, contrairement aux autres sites qui améliore leurs perfs.
* "niveau d'exigence des internautes est de plus en plus élevé" comme tu le signale
* le niveau d'accessibilité web des sites augmente, donc la satisfaction augmente, car l'internaute peut accéder facilement au contenu. De plus, un site accessible aura plus de chance d'être correctement indexé et donc d'être pertinent.

Je suis d'accord avec Pilou quand il dit qu'"il se peut que les étudiants puissent les trouver plus savants qu'ils ne souhaitent ; emmerdants, quoi !"

Notons que beaucoup de personnes demandent à ce que Google leur retourne un article Wikipédia quand elles font certaines recherches. Elles le font par exemple en précisant le mot-clé "wiki" ou "wikipédia". C'est visible dans les suggestions Google par exemple.

Es ce qu'il est prévu de continuer cette étude ? Merci.; 11 décembre, 2010 21:46
John a écrit...: Il serait intéressant de savoir si les utilisateurs mécontents de Wikipedia sont prêts ou non à modifier le contenu de l'article recherché, ou d'autres articles, pour améliorer l'encyclopédie.

Il n'y a que la réponse à cette question qui peut déterminer si Wikipedia est sur la voie du succès ou du déclin.

Il faudrait intégrer cette question au prochain sondage : "Si vous êtes mécontent de l'information donnée au lien trouvé, êtes-vous prêt à mettre sur le net les éléments d'information dont vous disposez pour améliorer l'information disponible ?; 30 décembre, 2010 19:14
Jean Véronis a écrit...: John> Il est probable que non, dans l'ensemble, sinon les gens le feraient spontanément. Je suppose que le "ticket d'entrée" est trop élevé pour l'utilisateur occasionnel: il faut du temps, il faut la patience de comprendre au minimum la structure des pages et la langage de balisage, avoir une notion minimale de ce qu'est la communauté Wikipedia, ses codes et son fonctionnement... probablement trop pour le consommateur moyen.; 30 décembre, 2010 19:27
olive a écrit...: À la question de John je répondrais comme J.V., mais pas seulement parce que c'est «trop pour le consommateur moyen». Aussi, et surtout, parce que Wikipedia, c'est comme les documentaires élitistes d'Arte qui passent à pas d'heure : quand on n'y connaît rien, on trouve ça bien, sinon c'est à se lamenter par terre, et les bras vous tombent à l'idée d'apprendre tous les protocoles de Wikipedia rien que pour essayer de commencer à dissiper des malentendus préliminaires dans des discussions sans fin. Éric Chevillard voit bien Bouvard et Pécuchet, basques de redingote au vent, surfant sur Wikipedia (je ne retrouve pas son texte précis ; chercher quelque part là-dedans). La délicieuse arrosoire de Cochonfucius le confirme.

Le site est dans mon atelier, casier «boîte à outils» ; je "choisis" donc de passer par Google ou non (guillemets = j'ai un compte Google et je suis loguée). Cliquer direct sur WP permet souvent d'aller à saute-mouton par-dessus le contenu pour collecter des références en tout bas de page. Parfois aussi, la consultation d'une entrée WP est plus fertile dans une langue que dans une autre, comme le remarque J.V. ci-dessus (en ce cas, la comparaison entre les versions est souvent hilarante). Ça permet aussi, c'est vrai, d'échapper à dix pages de Google sans intérêt ou carrément délétères (même si un regard de hyène a vite fait de repérer les forums minables, les industriels du renseignement, et même les sites pointés spécialement pour moi par Google).

Le chat... le regard de hyène de la souris...; 07 janvier, 2011 00:26
Anonyme a écrit...: Il y a également le fait que Wikipédia est un repère de contributeurs partiaux, hégémoniques et peu scrupuleux qui mettent gravement en question le véritable fonctionnement collaboratif de l'encyclopedie et que cela commence à se savoir sur un peu tous les sujets au point d'en être exaspérant.
un exemple: http://fr.wikipedia.org/wiki/Discussion:Mouvement_autonome_en_France/Neutralit%C3%A9
et il en est plein d'autres, cela commence à se savoir.; 21 avril, 2011 19:05

Enregistrer un commentaire

A propos de l'auteur

Billets récents

Archives

Outils

Ma startup

Mes livres

lundi, décembre 27, 2010

Radio: Est-ce qu'on parle mal la France ?

29 Commentaires:

jeudi, décembre 16, 2010

Google: The largest linguistic corpus of all time

4 Commentaires:

Google: Le plus grand corpus linguistique de tous les temps

68 Commentaires:

vendredi, décembre 10, 2010

Google: More and more Wikipedia, but surfers seem weary

0 Commentaires:

jeudi, décembre 09, 2010

Google: De plus en plus de Wikipedia, mais les internautes semblent se lasser

21 Commentaires:

Cherchez sur ce blog