Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

jeudi, décembre 16, 2010

Google: Le plus grand corpus linguistique de tous les temps

Lorsque j'étais étudiant, à la fin des années 70, je n'aurais jamais osé imaginer, même dans mes rêves les plus fous, que la communauté scientifique ait un jour les moyens d'analyser des corpus de textes informatisés de plusieurs de centaines de milliards de mots. A l'époque, j'étais émerveillé par le Brown Corpus, qui comportait la quantité extraordinaire d'un million de mots d'anglais américain, et qui après avoir servi à la compilation de l'American Heritage Dictionary, avait été mis assez largement à disposition des chercheurs. Ce corpus, malgré sa taille, qui apparaît maintenant dérisoire, a permis une quantité impressionnante d'études et a contribué largement à l'essor des technologies du langage... L'étude que publiera demain dans Science une équipe composée de chercheurs de Google, de Harvard, du MIT, de l'Encyclopaedia Britannica et d'Houghton Mifflin Harcourt (éditeur de l'American Heritage Dictionary) a porté sur le plus gros corpus linguistique de tous les temps : 500 milliards de mots. Il s'agit des données engrangées par Google dans son programme (parfois controversé) de numérisation de livres, qui servent ainsi à ma connaissance pour la première fois à une étude linguistique de grande ampleur.

J'ai eu la chance d'avoir pu accéder à l'étude avant publication, et j'ai eu quelque peu le vertige... Les doigts me démangeaient d'en parler sur ce blog, mais je me suis forcé à respecter l'embargo (je crois que l'équipe a quelque peu organisé un buzz, vous devriez voir ça dans la presse si j'en juge par les appels de journalistes que j'ai reçus). Ce corpus contient 4% des livres jamais publiés sur Terre. Comme le disent les auteurs, pour lire seulement les textes de l'année 2000 (c'est à dire une toute petite portion du tout, qui s'étale sur plus de deux siècles !), sans s'arrêter pour manger ni pour dormir, il faudrait 80 ans, soit une vie entière, à un être humain. La séquence de lettres du corpus dans sa totalité est 1000 fois plus longue que notre génome, et si on écrivait le tout sur une ligne, celle-ci ferait 10 fois l'aller-retour de la Terre à la Lune !

Hélas, il ne faut pas trop rêver tout de même, le corpus ne sera pas accessible au commun des mortels, qui devra se contenter de résultats précalculés, en l'occurrence la liste des mots et "n-grammes" (c'est-à-dire des suites de n mots consécutifs) extraits du corpus (avec une limite à 5 mots), pour l'anglais et six autres langues dont le français. Mais c'est déjà beaucoup, ne boudons pas notre plaisir, d'autant que les données sont organisées avec une consolidation par année qui permettra des études tout à fait intéressantes, comme le montre l'interface de recherche en ligne, qui, j'en suis sûr va avoir un franc succès !

Les auteurs donnent quelques exemples édifiants, illustrés par des courbes qui ne sont pas sans rappeler celles du Chronologue — quelques lecteurs se souviennent peut-être de cet outil que je m'étais amusé à réaliser en 2005 (et qui malheureusement est mort avec le déclin du moteur Dir.com de Free, avec qui je collaborais à l'époque). Sauf que, bien entendu, je n'avais ni les moyens ni le matériau engrangé par Google, qui permettent de tracer de telles courbes lexicales sur plus de deux siècles ! Les domaines couverts sont aussi variés que l'évolution grammaticale (l'usage comparé des formes régulières et irrégulières pour des verbes anglais comme burnt/burned), ou l'effet de la censure (la disparition de noms comme Marc Chagall pendant la période nazie)...

La corrélation entre l'usage des noms de maladie et les pics d'épidémie m'a particulièrement frappé, car elle m'a rappelé très exactement les courbes que j'avais obtenues sur la grippe aviaire — sauf que les nouvelles données permettent de remonter au XIXè siècle ! Je ne vais pas reprendre une image de Science, je vous laisse y lire l'article, mais voici une autre image, issue d'un rapport interne de l'équipe, qui illustre les pics d'usage du mot cholera (en anglais) depuis 1800. Les zones bleutées correspondent aux terribles périodes d'épidémie qui ont frappé les Etats-Unis et l'Europe (notamment le sud de la France, avec des milliers de morts à Marseille, Toulon, etc.).


L'équipe a pour l'occasion forgé un mot, culturomics, pour qualifier ce nouveau type d'activité, un mot-valise qui débute comme culture et qui finit comme genomics, et il est tout à fait intéressant de noter qu'à part des informaticiens (Dan Clancy et Peter Norvig de Google, par exemple) et des lexicographes (dont Joe Pickett, le directeur actuel de l'American Heritage Dictionary), l'équipe comporte des cogniticiens et biologistes, dont les bien connus Steven Pinker et Martin Nowak, et de jeunes et brillants mathématiciens-biologistes principaux auteurs de l'étude : Jean-Baptiste Michel (c'est un français, issu de l'Ecole Polytechnique et en post-doc à Harvard) et Erez Liberman Aiden. Ce n'est pas un hasard : la biologie et le traitement des langues partagent beaucoup de choses du côté des algorithmes et des mathématiques (j'en ai moi-même donné un exemple avec les arbres phylogénétiques -- par exemple ici, ici ou ici).

Et pour le français ? Eh bien, tout est à faire. Je remonte les manches ! Voici la toute première courbe, obtenue en avant première grâce à la complicité de l'équipe, que je remercie vivement au passage. Il s'agit du mot blog, dont on peut assister à la naissance en direct [voir mise à jour en bas du billet]...


Je ressens aujourd'hui la fascination qu'ont eue sans doute les astronomes qui ont braqué pour la première fois Hubble vers un coin inexploré de l'univers. Quelque chose s'est passé, une étape a été franchie dans l'outillage à disposition du linguiste.

Les linguistes (français en tout cas) en auront-ils conscience ? C'est une autre histoire. Entre les chiffres et les lettres, il y a parfois un bien grand fossé...


PS
Mise à jour : superposition des courbes pour blog en français (bleu pâle) et en anglais américain (bleu soutenu). On voit clairement le décalage entre les deux langues ! (NB: les échelles verticales ne sont pas identiques, seule l'échelle horizontale l'est).



Pour en savoir plus

68 Commentaires:

Anonymous bituur esztreym a écrit...

ce corpus de 500 milliards de mots, c'est tous les livres publiés en 2000 - autre ensemble que vous évoquez dans la suite du même paragraphe ?

16 décembre, 2010 20:09  
Blogger Jean Véronis a écrit...

Non, c'est 4% de tous les livres publiés depuis 2 siècles !!! Je vais essayer d'améliorer ma phrase, merci de la remarque...

16 décembre, 2010 20:12  
Blogger FabriceB a écrit...

Fichtre il fallait bien ça pour apprendre qu'on parle plus d'une maladie quand on en est atteint et que personne ne parlait de blog en 1990.
C'est quoi la prochaine découverte ? Que le mot Internet n'existait pas en 1900 ?
Je croyais que la science servait à découvrir des choses qu'on ignorait, pas à découvrir que le haut est au dessus du bas.

16 décembre, 2010 20:26  
Blogger Jean Véronis a écrit...

Lisez l'article, et plongez dans les données, Fabrice, vous verrez, je suis sûr qu'il y a des choses à découvrir, et que parfois le bas est très bas. Mais en bons scientifiques, les collègues en question ont d'abord vérifié que leur télescope se comporte correctement sur l'attendu.

16 décembre, 2010 20:33  
Blogger Amanda a écrit...

Jean,

Est-ce qu'il y a un phénomène de "délai" mesurable, sachant que les nouvelles (textes) sont déjà sur le net dès qu'on prononce un nouveau mot, alors que dans le 19ème, il devait y avoir un certain "delay" (dans le sens anglais), avant qu'un mot soit publié...?

16 décembre, 2010 20:40  
Blogger TOMHTML a écrit...

Jean, c'est en ligne maintenant. Exemple sympa ici.

16 décembre, 2010 20:40  
Blogger TOMHTML a écrit...

Également : l'évolution entre "clef" et "clé". Génial !

16 décembre, 2010 20:42  
Blogger Jean Véronis a écrit...

Amanda> Ah voilà ! Excellente remarque... Les mots apparaissent quasiment en temps réel à l'écrit, comme je l'avais montré pour la toomuchité, mais sur le net. Dans l'écrit imprimé (qui est le cas de ce corpus), le délai doit être plus long, à supposer que les mots y perfusent (ce ne sera peut-être pas le cas pour toomuchité !).

Comment mesure l'évolution de ce délai au cours des siècles ? Voilà un beau sujet de recherche !

16 décembre, 2010 20:45  
Blogger FabriceB a écrit...

Ah oui sur l'exemple choisis, ça devient franchement plus intéressant pour les lexicographe. On doit pouvoir s'aider de ce genre d'informations pour choisir quand une faute n'en est plus une mais l'évolution d'un usage. La courbe de l'épouvantable « solutionner » est marrante par exemple. Elle me rassure en fait.

16 décembre, 2010 20:56  
Blogger Jean Véronis a écrit...

Fabrice> ... a attrapé le virus ;-)

16 décembre, 2010 20:57  
Anonymous grugru a écrit...

excellent cet outil ! c'est incroyablement puissant. Merci pour ce chouette lien. Google, via ses mégadatabases, est vraiment en possession d'outils fabuleux.

Guerre et paix vont de pair....

16 décembre, 2010 20:59  
Blogger Jean Véronis a écrit...

TomHtml> Oui, ça vient juste d'ouvrir, merci !

On va pouvoir organiser des combats de mots... Exemple.

16 décembre, 2010 21:03  
Anonymous Eve La Fée a écrit...

Il y a un petit problème sur la datation de certains documents et/ou de certaines parties des documents. Parlait-on déjà d'informatique au 17ème siècle ? ;)

Voyant ça, j'ai fait une recherche google classique entre 1600 et 1900 pour avoir des exemples, il me semble que les introductions récentes des documents anciens portent la même date, et d'autres sont manifestement des documents modernes mal datés.
Un biais à connaitre lorsqu'on exploite ce corpus :)

16 décembre, 2010 21:05  
Blogger Jean Véronis a écrit...

Eve> Oui, comme sur tous les instruments scientifiques (y compris les télescopes ;-), il y a un peu de bruit de fond ici où là, parfois dus à des problèmes d'OCR -- les auteurs le savent et en tiennent comptent, j'ai eu accès à des documents qui montrent une rigueur extrême de leur part. A nous d'en tenir compte, vous avez tout à fait raison !

16 décembre, 2010 21:34  
Anonymous karl a écrit...

Il semble pour de nombreuses données, le volume augmente brûtalement autour de 1800. Je me demande ce que le percentile représentait réellement. Est-ce que les valeurs sont normalisées localement ?

Également quelque chose qui manque et qui serait fascinant c'est le volume de catégorisation du livre.

Je faisais une recherche sur le mot sodomie ainsi que fodomie (pour l'OCR) et je me posais la question du champ sémantique autour: religieux, médical, érotique, etc.

Il y a des recherches amusantes autour des moyens de transports, des institutions, des religions, de la cuisine. Il y a sûrement des choses à regarder du côté des noms de pays (leur anciens et nouveaux noms).

17 décembre, 2010 03:02  
Anonymous Laurent LB a écrit...

Fascinant !

Ce pic révolutionnaire sur France et Europe m'intrigue.

Jésus se porte mal depuis la première guerre mondiale. La natalité est bien sûr un sujet d'après-guerre. Les tsiganes sont plus vieux que les roms. Quant au racisme, on en parle de plus de plus.

17 décembre, 2010 03:14  
Anonymous all a écrit...

quelle différence entre "culturomic' et "mème" ?

17 décembre, 2010 06:17  
Blogger Jean Véronis a écrit...

Karl> Oui, les valeurs sont normalisées. Mais les auteurs admettent que les autres langues ont été moins vérifiées que l'anglais, et il se peut donc qu'il y ait quelques éléments de bruit.

17 décembre, 2010 07:13  
Blogger Jean Véronis a écrit...

Laurent LB> Addicitif n'est-ce pas ?

Attention l'outil est sensible aux majuscules : Jésus

17 décembre, 2010 07:17  
Blogger Jean Véronis a écrit...

All> En effet... Peut-être que le "mics" insiste la technique, sur les outils et algorithme qui permettent d'extraire les mèmes (comme "genomics")...

17 décembre, 2010 07:18  
Anonymous Marchand a écrit...

Il n'y a pas q'un problème d'OCR dans Google BOoks, il y a aussi un gros problème de métadonnées qui limite quand même un peu la portée du moteur, ou en tout cas qui demandera d'interpréter les résultats avec précautions. Par exemple une recherche sur "internet" avant 1900 donne des résultats, et pas uniquement dûs à la proximité avec "interne".

17 décembre, 2010 09:27  
Anonymous Gaétan a écrit...

Pic de Solidarité vers 1981

17 décembre, 2010 09:27  
Blogger Amanda a écrit...

Il semblerait que la fraternité est un peu négligée...
http://ngrams.googlelabs.com/graph?content=libert%C3%A9%2C%C3%A9galit%C3%A9%2Cfraternit%C3%A9&year_start=1500&year_end=2008&corpus=7&smoothing=10

17 décembre, 2010 09:28  
Blogger Jean Véronis a écrit...

Marchand> Oui, en tout cas pour le français. Les métadonnées ont été beaucoup moins vérifiées que pour l'anglais. Le travail reste à faire...

17 décembre, 2010 09:30  
Blogger Jean Véronis a écrit...

Amanda> Mais la sororité progresse!

17 décembre, 2010 09:31  
Blogger Jean Véronis a écrit...

Gaetan> Oui, mais attention, l'outil est sensible aux majuscules:

Solidarité, Walesa

solidarité

17 décembre, 2010 09:36  
Blogger Jean Véronis a écrit...

Ah zut, mauvais copier-coller pour le deuxième:

solidarité (en minuscules)

17 décembre, 2010 10:19  
Anonymous Gaétan a écrit...

Solidarnosc, bien sur ! Et moi qui croyait a un effet du Mitterrandisme... <a hreh="http://goo.gl/Gy6MT>http://goo.gl/Gy6MT</a>

17 décembre, 2010 10:56  
Anonymous Gaétan a écrit...

Solidarnosc, bien sur ! Et moi qui croyait a un effet du Mitterrandisme... http://goo.gl/Gy6MT

17 décembre, 2010 10:58  
Anonymous g1 a écrit...

nous, eux

Intéressant, non ?

17 décembre, 2010 11:00  
Anonymous Epsi a écrit...

La fameuse bataille du "autant pour moi" contre le "au temps pour moi" :

http://ngrams.googlelabs.com/graph?content=autant+pour+moi%2Cau+temps+pour+moi&year_start=1700&year_end=2008&corpus=7&smoothing=3

Curieux que la graphie "au temps pour moi" n'apparaisse pas, non ?

17 décembre, 2010 12:27  
Anonymous Laurent LB a écrit...

Le subjonctif imparfait est passé de mode, même à la troisième personne.

17 décembre, 2010 13:26  
Anonymous Laurent LB a écrit...

La république est remplacée par la démocratie.

On parle autant de nazisme aujourd'hui qu'en 45 ! Je me demande combien d'années il faudra pour que ça retombe. De son côté, le fascisme a eu son apogée vers 76.

17 décembre, 2010 15:14  
Anonymous Jeanviet a écrit...

par contre ou en revanche, depuis 1980, on dit moins souvent par contre... une grande richesse toutes ces données !

17 décembre, 2010 17:16  
Blogger Jean Véronis a écrit...

Epsi> "Autant pour moi" apparaît, mais avec une fréquence si faible que la courbe est quasiment confondue avec l'axe des abscisses. On la voit quand on la trace seule : autant pour moi.

Plutôt normal dans un corpus de ce type (livres), que ce soit la forme normative "au temps" qui prédomine...

17 décembre, 2010 17:21  
Blogger Jean Véronis a écrit...

Laurent LB> Je crois que les historiens vont s'en donner à coeur joie:

Trotsky, Lénine, Staline, Mao

Géniale la petite "réplique" sur Staline dans les années 60, ainsi que les pics Lénine, Troktsy dans les années 70 (avec Mao, bien sûr !). Trotksy juste un poil plus tard que les autres...

17 décembre, 2010 17:25  
Blogger Jean Véronis a écrit...

Et Hitler avec une courbe en dos de chameau ! Etonnant, cet oubli dans les années 50, suivi d'un retour à la fin des années 60 !

17 décembre, 2010 17:27  
Anonymous Laurent LB a écrit...

Comme toutes les données sont téléchargeables en CSV, on peut jouer avec (en faisant attention, car c'est très gros) !

Il serait intéressant par exemple d'avoir un outil qui essaie de deviner à quelle date un texte donné a été écrit (en affichant la courbe des probabilités).

À l'inverse, on pourrait vouloir donner un texte et une date, l'outil relèverait alors les anachronismes potentiels (mots qui sont peu ou pas utilisés à cette époque). Ce serait utile aux écrivains !

D'autres idées ?

17 décembre, 2010 20:00  
Anonymous GTA 5 a écrit...

Excellent outil! Vraiment très puissant!

18 décembre, 2010 01:48  
Blogger Emmanuel a écrit...

Bonjour,

Merci pour cet article, et ouah ! Quelle bonne nouvelle !

Est-ce que notre hôte, ou un lecteur, aurait une idée du pourquoi de la percée très nette des couleurs pendant la révolution et l'empire ?
Désolé, lien barbare, sinon, faites une recherche avec plusierus couleurs

http://ngrams.googlelabs.com/graph?content=vert%2Crouge%2Corange%2Cnoir%2Cblanc%2Cgris%2C+jaune%2C+bleu&year_start=1750&year_end=2000&corpus=7&smoothing=3

18 décembre, 2010 03:00  
Blogger Jean Véronis a écrit...

Emmanuel> Vous pointez là quelque chose de tout à fascinant. Je remets votre lien en version cliquable: vert,rouge,orange,noir,blanc,gris,jaune,bleu. On a les mêmes pics sur couleur,couleurs. Cela me semble correspondre très exactement aux études théoriques sur la couleur qui ont culminé avec le Traité des couleurs de Goethe, publié fin XVIIIe-début XIXe et qui a eu un retentissement considérable en Europe.

18 décembre, 2010 11:59  
Anonymous raphaël a écrit...

Chouette, on peut même devenir apprenti sociologue/historien:


Intéressante évolution de "libre échange", "sans emploi" et "sans domicile fixe" depuis les années 1980.


On a davantage écrit sur le communisme que le nazisme ?


Libération du mot sexe après 1789 et 1960

18 décembre, 2010 14:24  
Anonymous Anonyme a écrit...

Quels termes s'entendent le mieux, capitalisme et communisme ou capitalisme et marxisme ?

18 décembre, 2010 15:06  
Blogger TOMHTML a écrit...

Attention également au "s long" qui ressemble à un "f". Une recherche de "case" et "cafe" montre un brusque changement à un moment..

18 décembre, 2010 20:38  
Anonymous Anonyme a écrit...

C'est qui ces auteurs de harvard ? on dirait qu'il y a un français dedans ??

18 décembre, 2010 21:47  
Blogger Jean Véronis a écrit...

TomHTML> Oui, j'avais mentionné ce problème dans l'OCR de Google il y a quelques mois (ici). La conséquence pour Google N-Grams a été discutée par Giles Thomas.

Difficile de comprendre pourquoi Google lance des projets pharaoniques de cette ampleur dans prendre des mesures minimales de redressement orthographique (qui seraient assez aisées à mettre en oeuvre étant donné la taille du corpus et les moyens de la firme...).

Bizarre.

19 décembre, 2010 10:03  
Blogger Jean Véronis a écrit...

Anonyme> Oui, Jean-Baptiste MIchel est un Polytechnicien en post-doc à Harvard.

19 décembre, 2010 10:04  
Anonymous Cochonfucius a écrit...

En plus de tout ça, Google suggère des améliorations dans les haïku (suivre le lien).

19 décembre, 2010 10:49  
Blogger hpchavaz a écrit...

Très intéressant.

Il semble y avoir un léger problème non rédhibitoire toutefois concernant les valeurs des fréquences ou l'échelle des ordonnées.

La fréquence d'un terme semble dépendre parfois de l'insertion d'un autre terme :

http://ngrams.googlelabs.com/graph?content=langue%2C+t%C3%AAte&year_start=1820&year_end=2008&corpus=7&smoothing=2
Max Langue 0.026%

http://ngrams.googlelabs.com/graph?content=langue&year_start=1820&year_end=2008&corpus=7&smoothing=2
Max Langue 0.020%

19 décembre, 2010 12:24  
Blogger hpchavaz a écrit...

Très intéressant.

Il semble y avoir un léger problème non rédhibitoire toutefois concernant les valeurs des fréquences ou l'échelle des ordonnées.

La fréquence d'un terme semble dépendre parfois de l'insertion d'un autre terme :

http://ngrams.googlelabs.com/graph?content=langue%2C+t%C3%AAte&year_start=1820&year_end=2008&corpus=7&smoothing=2
Max Langue 0.026%

http://ngrams.googlelabs.com/graph?content=langue&year_start=1820&year_end=2008&corpus=7&smoothing=2
Max Langue 0.020%

19 décembre, 2010 12:25  
Anonymous alain a écrit...

hpchavaz : la différence vient du paramètre de lissage de la courbe (smoothing) que vous avez modifié entre les deux cas.

19 décembre, 2010 17:44  
Anonymous FishEatShark a écrit...

C'est rassurant, "bonheur" reste plus fréquent que "malheur", même s'il est en baisse.

19 décembre, 2010 21:32  
Anonymous Pascal Lapointe a écrit...

Intéressant outil. En passant, on écrit "blogue" au Québec, ce qui introduit une 2e courbe.

20 décembre, 2010 01:55  
Anonymous florent a écrit...

assurément on ne voit pas arriver des trucs pareils tous les jours !
Même si le graphème est un peu comme le fond du ciel rouge en astronomie ( en retard sur la réalité ) il y a de quoi rapporter de nombreuses spéculations linguistiques à des éléments observables.
Cela dit je me demande si le bruit qui vient de l'OCR est seul: la typographie évolue elle aussi non ? Ce qui est un f ou un s dans un cas sur deux peut devenir un s d'une année sur l'autre. Mais c'est marginal sans doute.

20 décembre, 2010 14:05  
Blogger Unknown a écrit...

Incroyable !

Il y a quelque chose que je ne comprend pas dans le guide d'explication fourni par Google.

Ils expliquent que les données sont normalisées par le nombre de livres publiés pour ne fausser les résultats. Je ne comprends pas pourquoi cela est nécessaire, étant donné que les résultats sont donnés en pourcentage d'utilisation : quel est l'intérêt de normaliser par le nombre de livre ?

Au passage, deux mots intéressants à regarder :"Dieu" en français et "God" en anglais. à comparer avec "Dieu est mort", et "God is dead" !! (pas sur les mêmes graphes car la courbe "Dieu" écrase "Dieu est mort" malgré tout...

20 décembre, 2010 16:02  
Anonymous Météor a écrit...

Jean> Extraordinaire, ce chronologue v2.0 !

Plus haut vous disiez : "Plutôt normal dans un corpus de ce type (livres), que ce soit la forme normative "au temps" qui prédomine..."

C'est juste le contraire : la forme normative est "autant pour moi".
Autant pour vous ;-))

21 décembre, 2010 12:07  
Anonymous Jonathan a écrit...

Bonjour,
Est-ce que quelqu'un a essayé de télécharger les données ?

Parce que dans le fichier googlebooks-eng-all-1gram-20090715-0.csv par exemple j'ai pas de mots mais des caractères ("#") ou des nombres... étrange.

# 1574 1 1 1
# 1584 6 6 1

http://ngrams.googlelabs.com/datasets

21 décembre, 2010 12:19  
Blogger Jean Véronis a écrit...

Méteor> L'hypothèse la plus couramment admise est que la forme originale est "Au temps pour moi", provenant de l'expression militaire "Au temps", qui signifie qu'il faut recommencer un mouvement de façon correcte. Il est vrai qu'il y a eu parfois un peu polémique, qu'on trouve des défenseurs du "autant".

21 décembre, 2010 15:22  
Blogger Jean Véronis a écrit...

Jonathan> C'est parce que les données sont classées par ordre alphabétiques et les premier tokens dont les signes, # etc, les chiffres et nombres, etc. Il faut arriver au fichier 9 (ligne 4105571) pour avoir les tokens alphabétiques...

A& 1631 8 8 1
A& 1644 11 11 1
A& 1660 1 1 1
A& 1670 3 3 1
A& 1674 5 5 1

21 décembre, 2010 18:00  
Anonymous Jonathan a écrit...

Effectivement, merci beaucoup. Ils ont vraiment tout mis (AAAGH) !

21 décembre, 2010 18:55  
Blogger Unknown a écrit...

Très intéressant.

L'Alsace-Moselle était allemande de 1870 à 1918. En cherchant la ville de Metz et le département Mosel dans le corpus allemand, on obtient cette courbe.

En cherchant sur le nom allemand de la ville de Thionville "Diedenhofen", on a naturellement les pointes de 1870 (annexion), 1914-18 et 1939-45, mais un autre pic apparait au environ de 1895-99. Que s'est-il passé durant cette période?

05 janvier, 2011 14:24  
Anonymous Inarius a écrit...

Intéressant aussi cette courbe sur les juifs et musulmans (et leur religion respective)
http://ngrams.googlelabs.com/graph?content=juif%2Cmusulman%2CIslam%2Cjuda%C3%AFsme&year_start=1750&year_end=2008&corpus=7&smoothing=3

alors que chez les anglais, l'intégration de l'Islam et du Musulman est plus récente

http://ngrams.googlelabs.com/graph?content=Jew%2CMuslim%2CIslam%2CJudaism&year_start=1750&year_end=2008&corpus=0&smoothing=3

06 janvier, 2011 14:33  
Anonymous Anonyme a écrit...

bonjour,

drôle de constater qu'en tapant "guerre" pour la France, les livres annonçaient les guerres du XXe siècle un peu avant leurs apparitions réelles...

12 janvier, 2011 00:23  
Anonymous Anonyme a écrit...

Le mot prolétaire pour le corpus en Français sur toute la période est savoureux, depuis 1980 il n'y en a plus, confirmation

mouvementautonome.com

18 février, 2011 16:28  
Blogger Escape a écrit...

Avec "geek" c'est surprenant.

Quelqu'un a une explication ?

http://ngrams.googlelabs.com/graph?content=geek&year_start=1800&year_end=2008&corpus=7&smoothing=3

28 février, 2011 20:01  
Blogger Jean Véronis a écrit...

Ca ne me semble pas anormal... Un pic de popularité vers 2002, puis le mot a un peu faibli, mais reste toujours présent. On voit mieux ici

28 février, 2011 20:07  
Blogger Escape a écrit...

Oui mais en fait, c'est surtout l'apparition du mot vers 1820-1840 (quel sens pouvait-il avoir ?) puis sa disparition, qui me pose problème...

28 février, 2011 20:20  
Blogger Jean Véronis a écrit...

Les fréquences sont très faibles.

On voit mieux en agrandissant la période 1800-1850; en cliquant sur les dates en bas de la page on a accès aux contextes.

On voit qu'il s'agit de noms de personnes, ou d'erreurs d'OCR, comme ici.

28 février, 2011 20:25  

Enregistrer un commentaire