Google: Le plus grand corpus linguistique de tous les temps
Lorsque j'étais étudiant, à la fin des années 70, je n'aurais jamais osé imaginer, même dans mes rêves les plus fous, que la communauté scientifique ait un jour les moyens d'analyser des corpus de textes informatisés de plusieurs de centaines de milliards de mots. A l'époque, j'étais émerveillé par le Brown Corpus, qui comportait la quantité extraordinaire d'un million de mots d'anglais américain, et qui après avoir servi à la compilation de l'American Heritage Dictionary, avait été mis assez largement à disposition des chercheurs. Ce corpus, malgré sa taille, qui apparaît maintenant dérisoire, a permis une quantité impressionnante d'études et a contribué largement à l'essor des technologies du langage... L'étude que publiera demain dans Science une équipe composée de chercheurs de Google, de Harvard, du MIT, de l'Encyclopaedia Britannica et d'Houghton Mifflin Harcourt (éditeur de l'American Heritage Dictionary) a porté sur le plus gros corpus linguistique de tous les temps : 500 milliards de mots. Il s'agit des données engrangées par Google dans son programme (parfois controversé) de numérisation de livres, qui servent ainsi à ma connaissance pour la première fois à une étude linguistique de grande ampleur.
J'ai eu la chance d'avoir pu accéder à l'étude avant publication, et j'ai eu quelque peu le vertige... Les doigts me démangeaient d'en parler sur ce blog, mais je me suis forcé à respecter l'embargo (je crois que l'équipe a quelque peu organisé un buzz, vous devriez voir ça dans la presse si j'en juge par les appels de journalistes que j'ai reçus). Ce corpus contient 4% des livres jamais publiés sur Terre. Comme le disent les auteurs, pour lire seulement les textes de l'année 2000 (c'est à dire une toute petite portion du tout, qui s'étale sur plus de deux siècles !), sans s'arrêter pour manger ni pour dormir, il faudrait 80 ans, soit une vie entière, à un être humain. La séquence de lettres du corpus dans sa totalité est 1000 fois plus longue que notre génome, et si on écrivait le tout sur une ligne, celle-ci ferait 10 fois l'aller-retour de la Terre à la Lune !
Hélas, il ne faut pas trop rêver tout de même, le corpus ne sera pas accessible au commun des mortels, qui devra se contenter de résultats précalculés, en l'occurrence la liste des mots et "n-grammes" (c'est-à-dire des suites de n mots consécutifs) extraits du corpus (avec une limite à 5 mots), pour l'anglais et six autres langues dont le français. Mais c'est déjà beaucoup, ne boudons pas notre plaisir, d'autant que les données sont organisées avec une consolidation par année qui permettra des études tout à fait intéressantes, comme le montre l'interface de recherche en ligne, qui, j'en suis sûr va avoir un franc succès !
Les auteurs donnent quelques exemples édifiants, illustrés par des courbes qui ne sont pas sans rappeler celles du Chronologue — quelques lecteurs se souviennent peut-être de cet outil que je m'étais amusé à réaliser en 2005 (et qui malheureusement est mort avec le déclin du moteur Dir.com de Free, avec qui je collaborais à l'époque). Sauf que, bien entendu, je n'avais ni les moyens ni le matériau engrangé par Google, qui permettent de tracer de telles courbes lexicales sur plus de deux siècles ! Les domaines couverts sont aussi variés que l'évolution grammaticale (l'usage comparé des formes régulières et irrégulières pour des verbes anglais comme burnt/burned), ou l'effet de la censure (la disparition de noms comme Marc Chagall pendant la période nazie)...
La corrélation entre l'usage des noms de maladie et les pics d'épidémie m'a particulièrement frappé, car elle m'a rappelé très exactement les courbes que j'avais obtenues sur la grippe aviaire — sauf que les nouvelles données permettent de remonter au XIXè siècle ! Je ne vais pas reprendre une image de Science, je vous laisse y lire l'article, mais voici une autre image, issue d'un rapport interne de l'équipe, qui illustre les pics d'usage du mot cholera (en anglais) depuis 1800. Les zones bleutées correspondent aux terribles périodes d'épidémie qui ont frappé les Etats-Unis et l'Europe (notamment le sud de la France, avec des milliers de morts à Marseille, Toulon, etc.).
L'équipe a pour l'occasion forgé un mot, culturomics, pour qualifier ce nouveau type d'activité, un mot-valise qui débute comme culture et qui finit comme genomics, et il est tout à fait intéressant de noter qu'à part des informaticiens (Dan Clancy et Peter Norvig de Google, par exemple) et des lexicographes (dont Joe Pickett, le directeur actuel de l'American Heritage Dictionary), l'équipe comporte des cogniticiens et biologistes, dont les bien connus Steven Pinker et Martin Nowak, et de jeunes et brillants mathématiciens-biologistes principaux auteurs de l'étude : Jean-Baptiste Michel (c'est un français, issu de l'Ecole Polytechnique et en post-doc à Harvard) et Erez Liberman Aiden. Ce n'est pas un hasard : la biologie et le traitement des langues partagent beaucoup de choses du côté des algorithmes et des mathématiques (j'en ai moi-même donné un exemple avec les arbres phylogénétiques -- par exemple ici, ici ou ici).
Et pour le français ? Eh bien, tout est à faire. Je remonte les manches ! Voici la toute première courbe, obtenue en avant première grâce à la complicité de l'équipe, que je remercie vivement au passage. Il s'agit du mot blog, dont on peut assister à la naissance en direct [voir mise à jour en bas du billet]...
Je ressens aujourd'hui la fascination qu'ont eue sans doute les astronomes qui ont braqué pour la première fois Hubble vers un coin inexploré de l'univers. Quelque chose s'est passé, une étape a été franchie dans l'outillage à disposition du linguiste.
Les linguistes (français en tout cas) en auront-ils conscience ? C'est une autre histoire. Entre les chiffres et les lettres, il y a parfois un bien grand fossé...
J'ai eu la chance d'avoir pu accéder à l'étude avant publication, et j'ai eu quelque peu le vertige... Les doigts me démangeaient d'en parler sur ce blog, mais je me suis forcé à respecter l'embargo (je crois que l'équipe a quelque peu organisé un buzz, vous devriez voir ça dans la presse si j'en juge par les appels de journalistes que j'ai reçus). Ce corpus contient 4% des livres jamais publiés sur Terre. Comme le disent les auteurs, pour lire seulement les textes de l'année 2000 (c'est à dire une toute petite portion du tout, qui s'étale sur plus de deux siècles !), sans s'arrêter pour manger ni pour dormir, il faudrait 80 ans, soit une vie entière, à un être humain. La séquence de lettres du corpus dans sa totalité est 1000 fois plus longue que notre génome, et si on écrivait le tout sur une ligne, celle-ci ferait 10 fois l'aller-retour de la Terre à la Lune !
Hélas, il ne faut pas trop rêver tout de même, le corpus ne sera pas accessible au commun des mortels, qui devra se contenter de résultats précalculés, en l'occurrence la liste des mots et "n-grammes" (c'est-à-dire des suites de n mots consécutifs) extraits du corpus (avec une limite à 5 mots), pour l'anglais et six autres langues dont le français. Mais c'est déjà beaucoup, ne boudons pas notre plaisir, d'autant que les données sont organisées avec une consolidation par année qui permettra des études tout à fait intéressantes, comme le montre l'interface de recherche en ligne, qui, j'en suis sûr va avoir un franc succès !
Les auteurs donnent quelques exemples édifiants, illustrés par des courbes qui ne sont pas sans rappeler celles du Chronologue — quelques lecteurs se souviennent peut-être de cet outil que je m'étais amusé à réaliser en 2005 (et qui malheureusement est mort avec le déclin du moteur Dir.com de Free, avec qui je collaborais à l'époque). Sauf que, bien entendu, je n'avais ni les moyens ni le matériau engrangé par Google, qui permettent de tracer de telles courbes lexicales sur plus de deux siècles ! Les domaines couverts sont aussi variés que l'évolution grammaticale (l'usage comparé des formes régulières et irrégulières pour des verbes anglais comme burnt/burned), ou l'effet de la censure (la disparition de noms comme Marc Chagall pendant la période nazie)...
La corrélation entre l'usage des noms de maladie et les pics d'épidémie m'a particulièrement frappé, car elle m'a rappelé très exactement les courbes que j'avais obtenues sur la grippe aviaire — sauf que les nouvelles données permettent de remonter au XIXè siècle ! Je ne vais pas reprendre une image de Science, je vous laisse y lire l'article, mais voici une autre image, issue d'un rapport interne de l'équipe, qui illustre les pics d'usage du mot cholera (en anglais) depuis 1800. Les zones bleutées correspondent aux terribles périodes d'épidémie qui ont frappé les Etats-Unis et l'Europe (notamment le sud de la France, avec des milliers de morts à Marseille, Toulon, etc.).
L'équipe a pour l'occasion forgé un mot, culturomics, pour qualifier ce nouveau type d'activité, un mot-valise qui débute comme culture et qui finit comme genomics, et il est tout à fait intéressant de noter qu'à part des informaticiens (Dan Clancy et Peter Norvig de Google, par exemple) et des lexicographes (dont Joe Pickett, le directeur actuel de l'American Heritage Dictionary), l'équipe comporte des cogniticiens et biologistes, dont les bien connus Steven Pinker et Martin Nowak, et de jeunes et brillants mathématiciens-biologistes principaux auteurs de l'étude : Jean-Baptiste Michel (c'est un français, issu de l'Ecole Polytechnique et en post-doc à Harvard) et Erez Liberman Aiden. Ce n'est pas un hasard : la biologie et le traitement des langues partagent beaucoup de choses du côté des algorithmes et des mathématiques (j'en ai moi-même donné un exemple avec les arbres phylogénétiques -- par exemple ici, ici ou ici).
Et pour le français ? Eh bien, tout est à faire. Je remonte les manches ! Voici la toute première courbe, obtenue en avant première grâce à la complicité de l'équipe, que je remercie vivement au passage. Il s'agit du mot blog, dont on peut assister à la naissance en direct [voir mise à jour en bas du billet]...
Je ressens aujourd'hui la fascination qu'ont eue sans doute les astronomes qui ont braqué pour la première fois Hubble vers un coin inexploré de l'univers. Quelque chose s'est passé, une étape a été franchie dans l'outillage à disposition du linguiste.
Les linguistes (français en tout cas) en auront-ils conscience ? C'est une autre histoire. Entre les chiffres et les lettres, il y a parfois un bien grand fossé...
PS
Mise à jour : superposition des courbes pour blog en français (bleu pâle) et en anglais américain (bleu soutenu). On voit clairement le décalage entre les deux langues ! (NB: les échelles verticales ne sont pas identiques, seule l'échelle horizontale l'est).Pour en savoir plus
- Le site www.culturomics.org
- L'article dans Science
- La discussion continue sur Le Temps, Le Figaro, Slate
- Billets extrêmement intéressants de Geoff Nunberg et Mark Liberman sur LanguageLog
- Réactions sur d'autres blogs: Affordance, Effets de serre, La Feuille, Henri Verdier, A la Toison d'Or
68 Commentaires:
ce corpus de 500 milliards de mots, c'est tous les livres publiés en 2000 - autre ensemble que vous évoquez dans la suite du même paragraphe ?
Non, c'est 4% de tous les livres publiés depuis 2 siècles !!! Je vais essayer d'améliorer ma phrase, merci de la remarque...
Fichtre il fallait bien ça pour apprendre qu'on parle plus d'une maladie quand on en est atteint et que personne ne parlait de blog en 1990.
C'est quoi la prochaine découverte ? Que le mot Internet n'existait pas en 1900 ?
Je croyais que la science servait à découvrir des choses qu'on ignorait, pas à découvrir que le haut est au dessus du bas.
Lisez l'article, et plongez dans les données, Fabrice, vous verrez, je suis sûr qu'il y a des choses à découvrir, et que parfois le bas est très bas. Mais en bons scientifiques, les collègues en question ont d'abord vérifié que leur télescope se comporte correctement sur l'attendu.
Jean,
Est-ce qu'il y a un phénomène de "délai" mesurable, sachant que les nouvelles (textes) sont déjà sur le net dès qu'on prononce un nouveau mot, alors que dans le 19ème, il devait y avoir un certain "delay" (dans le sens anglais), avant qu'un mot soit publié...?
Jean, c'est en ligne maintenant. Exemple sympa ici.
Également : l'évolution entre "clef" et "clé". Génial !
Amanda> Ah voilà ! Excellente remarque... Les mots apparaissent quasiment en temps réel à l'écrit, comme je l'avais montré pour la toomuchité, mais sur le net. Dans l'écrit imprimé (qui est le cas de ce corpus), le délai doit être plus long, à supposer que les mots y perfusent (ce ne sera peut-être pas le cas pour toomuchité !).
Comment mesure l'évolution de ce délai au cours des siècles ? Voilà un beau sujet de recherche !
Ah oui sur l'exemple choisis, ça devient franchement plus intéressant pour les lexicographe. On doit pouvoir s'aider de ce genre d'informations pour choisir quand une faute n'en est plus une mais l'évolution d'un usage. La courbe de l'épouvantable « solutionner » est marrante par exemple. Elle me rassure en fait.
Fabrice> ... a attrapé le virus ;-)
excellent cet outil ! c'est incroyablement puissant. Merci pour ce chouette lien. Google, via ses mégadatabases, est vraiment en possession d'outils fabuleux.
Guerre et paix vont de pair....
TomHtml> Oui, ça vient juste d'ouvrir, merci !
On va pouvoir organiser des combats de mots... Exemple.
Il y a un petit problème sur la datation de certains documents et/ou de certaines parties des documents. Parlait-on déjà d'informatique au 17ème siècle ? ;)
Voyant ça, j'ai fait une recherche google classique entre 1600 et 1900 pour avoir des exemples, il me semble que les introductions récentes des documents anciens portent la même date, et d'autres sont manifestement des documents modernes mal datés.
Un biais à connaitre lorsqu'on exploite ce corpus :)
Eve> Oui, comme sur tous les instruments scientifiques (y compris les télescopes ;-), il y a un peu de bruit de fond ici où là, parfois dus à des problèmes d'OCR -- les auteurs le savent et en tiennent comptent, j'ai eu accès à des documents qui montrent une rigueur extrême de leur part. A nous d'en tenir compte, vous avez tout à fait raison !
Il semble pour de nombreuses données, le volume augmente brûtalement autour de 1800. Je me demande ce que le percentile représentait réellement. Est-ce que les valeurs sont normalisées localement ?
Également quelque chose qui manque et qui serait fascinant c'est le volume de catégorisation du livre.
Je faisais une recherche sur le mot sodomie ainsi que fodomie (pour l'OCR) et je me posais la question du champ sémantique autour: religieux, médical, érotique, etc.
Il y a des recherches amusantes autour des moyens de transports, des institutions, des religions, de la cuisine. Il y a sûrement des choses à regarder du côté des noms de pays (leur anciens et nouveaux noms).
Fascinant !
Ce pic révolutionnaire sur France et Europe m'intrigue.
Jésus se porte mal depuis la première guerre mondiale. La natalité est bien sûr un sujet d'après-guerre. Les tsiganes sont plus vieux que les roms. Quant au racisme, on en parle de plus de plus.
quelle différence entre "culturomic' et "mème" ?
Karl> Oui, les valeurs sont normalisées. Mais les auteurs admettent que les autres langues ont été moins vérifiées que l'anglais, et il se peut donc qu'il y ait quelques éléments de bruit.
Laurent LB> Addicitif n'est-ce pas ?
Attention l'outil est sensible aux majuscules : Jésus
All> En effet... Peut-être que le "mics" insiste la technique, sur les outils et algorithme qui permettent d'extraire les mèmes (comme "genomics")...
Il n'y a pas q'un problème d'OCR dans Google BOoks, il y a aussi un gros problème de métadonnées qui limite quand même un peu la portée du moteur, ou en tout cas qui demandera d'interpréter les résultats avec précautions. Par exemple une recherche sur "internet" avant 1900 donne des résultats, et pas uniquement dûs à la proximité avec "interne".
Pic de Solidarité vers 1981
Il semblerait que la fraternité est un peu négligée...
http://ngrams.googlelabs.com/graph?content=libert%C3%A9%2C%C3%A9galit%C3%A9%2Cfraternit%C3%A9&year_start=1500&year_end=2008&corpus=7&smoothing=10
Marchand> Oui, en tout cas pour le français. Les métadonnées ont été beaucoup moins vérifiées que pour l'anglais. Le travail reste à faire...
Amanda> Mais la sororité progresse!
Gaetan> Oui, mais attention, l'outil est sensible aux majuscules:
Solidarité, Walesa
solidarité
Ah zut, mauvais copier-coller pour le deuxième:
solidarité (en minuscules)
Solidarnosc, bien sur ! Et moi qui croyait a un effet du Mitterrandisme... <a hreh="http://goo.gl/Gy6MT>http://goo.gl/Gy6MT</a>
Solidarnosc, bien sur ! Et moi qui croyait a un effet du Mitterrandisme... http://goo.gl/Gy6MT
nous, eux
Intéressant, non ?
La fameuse bataille du "autant pour moi" contre le "au temps pour moi" :
http://ngrams.googlelabs.com/graph?content=autant+pour+moi%2Cau+temps+pour+moi&year_start=1700&year_end=2008&corpus=7&smoothing=3
Curieux que la graphie "au temps pour moi" n'apparaisse pas, non ?
Le subjonctif imparfait est passé de mode, même à la troisième personne.
La république est remplacée par la démocratie.
On parle autant de nazisme aujourd'hui qu'en 45 ! Je me demande combien d'années il faudra pour que ça retombe. De son côté, le fascisme a eu son apogée vers 76.
par contre ou en revanche, depuis 1980, on dit moins souvent par contre... une grande richesse toutes ces données !
Epsi> "Autant pour moi" apparaît, mais avec une fréquence si faible que la courbe est quasiment confondue avec l'axe des abscisses. On la voit quand on la trace seule : autant pour moi.
Plutôt normal dans un corpus de ce type (livres), que ce soit la forme normative "au temps" qui prédomine...
Laurent LB> Je crois que les historiens vont s'en donner à coeur joie:
Trotsky, Lénine, Staline, Mao
Géniale la petite "réplique" sur Staline dans les années 60, ainsi que les pics Lénine, Troktsy dans les années 70 (avec Mao, bien sûr !). Trotksy juste un poil plus tard que les autres...
Et Hitler avec une courbe en dos de chameau ! Etonnant, cet oubli dans les années 50, suivi d'un retour à la fin des années 60 !
Comme toutes les données sont téléchargeables en CSV, on peut jouer avec (en faisant attention, car c'est très gros) !
Il serait intéressant par exemple d'avoir un outil qui essaie de deviner à quelle date un texte donné a été écrit (en affichant la courbe des probabilités).
À l'inverse, on pourrait vouloir donner un texte et une date, l'outil relèverait alors les anachronismes potentiels (mots qui sont peu ou pas utilisés à cette époque). Ce serait utile aux écrivains !
D'autres idées ?
Excellent outil! Vraiment très puissant!
Bonjour,
Merci pour cet article, et ouah ! Quelle bonne nouvelle !
Est-ce que notre hôte, ou un lecteur, aurait une idée du pourquoi de la percée très nette des couleurs pendant la révolution et l'empire ?
Désolé, lien barbare, sinon, faites une recherche avec plusierus couleurs
http://ngrams.googlelabs.com/graph?content=vert%2Crouge%2Corange%2Cnoir%2Cblanc%2Cgris%2C+jaune%2C+bleu&year_start=1750&year_end=2000&corpus=7&smoothing=3
Emmanuel> Vous pointez là quelque chose de tout à fascinant. Je remets votre lien en version cliquable: vert,rouge,orange,noir,blanc,gris,jaune,bleu. On a les mêmes pics sur couleur,couleurs. Cela me semble correspondre très exactement aux études théoriques sur la couleur qui ont culminé avec le Traité des couleurs de Goethe, publié fin XVIIIe-début XIXe et qui a eu un retentissement considérable en Europe.
Chouette, on peut même devenir apprenti sociologue/historien:
Intéressante évolution de "libre échange", "sans emploi" et "sans domicile fixe" depuis les années 1980.
On a davantage écrit sur le communisme que le nazisme ?
Libération du mot sexe après 1789 et 1960
Quels termes s'entendent le mieux, capitalisme et communisme ou capitalisme et marxisme ?
Attention également au "s long" qui ressemble à un "f". Une recherche de "case" et "cafe" montre un brusque changement à un moment..
C'est qui ces auteurs de harvard ? on dirait qu'il y a un français dedans ??
TomHTML> Oui, j'avais mentionné ce problème dans l'OCR de Google il y a quelques mois (ici). La conséquence pour Google N-Grams a été discutée par Giles Thomas.
Difficile de comprendre pourquoi Google lance des projets pharaoniques de cette ampleur dans prendre des mesures minimales de redressement orthographique (qui seraient assez aisées à mettre en oeuvre étant donné la taille du corpus et les moyens de la firme...).
Bizarre.
Anonyme> Oui, Jean-Baptiste MIchel est un Polytechnicien en post-doc à Harvard.
En plus de tout ça, Google suggère des améliorations dans les haïku (suivre le lien).
Très intéressant.
Il semble y avoir un léger problème non rédhibitoire toutefois concernant les valeurs des fréquences ou l'échelle des ordonnées.
La fréquence d'un terme semble dépendre parfois de l'insertion d'un autre terme :
http://ngrams.googlelabs.com/graph?content=langue%2C+t%C3%AAte&year_start=1820&year_end=2008&corpus=7&smoothing=2
Max Langue 0.026%
http://ngrams.googlelabs.com/graph?content=langue&year_start=1820&year_end=2008&corpus=7&smoothing=2
Max Langue 0.020%
Très intéressant.
Il semble y avoir un léger problème non rédhibitoire toutefois concernant les valeurs des fréquences ou l'échelle des ordonnées.
La fréquence d'un terme semble dépendre parfois de l'insertion d'un autre terme :
http://ngrams.googlelabs.com/graph?content=langue%2C+t%C3%AAte&year_start=1820&year_end=2008&corpus=7&smoothing=2
Max Langue 0.026%
http://ngrams.googlelabs.com/graph?content=langue&year_start=1820&year_end=2008&corpus=7&smoothing=2
Max Langue 0.020%
hpchavaz : la différence vient du paramètre de lissage de la courbe (smoothing) que vous avez modifié entre les deux cas.
C'est rassurant, "bonheur" reste plus fréquent que "malheur", même s'il est en baisse.
Intéressant outil. En passant, on écrit "blogue" au Québec, ce qui introduit une 2e courbe.
assurément on ne voit pas arriver des trucs pareils tous les jours !
Même si le graphème est un peu comme le fond du ciel rouge en astronomie ( en retard sur la réalité ) il y a de quoi rapporter de nombreuses spéculations linguistiques à des éléments observables.
Cela dit je me demande si le bruit qui vient de l'OCR est seul: la typographie évolue elle aussi non ? Ce qui est un f ou un s dans un cas sur deux peut devenir un s d'une année sur l'autre. Mais c'est marginal sans doute.
Incroyable !
Il y a quelque chose que je ne comprend pas dans le guide d'explication fourni par Google.
Ils expliquent que les données sont normalisées par le nombre de livres publiés pour ne fausser les résultats. Je ne comprends pas pourquoi cela est nécessaire, étant donné que les résultats sont donnés en pourcentage d'utilisation : quel est l'intérêt de normaliser par le nombre de livre ?
Au passage, deux mots intéressants à regarder :"Dieu" en français et "God" en anglais. à comparer avec "Dieu est mort", et "God is dead" !! (pas sur les mêmes graphes car la courbe "Dieu" écrase "Dieu est mort" malgré tout...
Jean> Extraordinaire, ce chronologue v2.0 !
Plus haut vous disiez : "Plutôt normal dans un corpus de ce type (livres), que ce soit la forme normative "au temps" qui prédomine..."
C'est juste le contraire : la forme normative est "autant pour moi".
Autant pour vous ;-))
Bonjour,
Est-ce que quelqu'un a essayé de télécharger les données ?
Parce que dans le fichier googlebooks-eng-all-1gram-20090715-0.csv par exemple j'ai pas de mots mais des caractères ("#") ou des nombres... étrange.
# 1574 1 1 1
# 1584 6 6 1
http://ngrams.googlelabs.com/datasets
Méteor> L'hypothèse la plus couramment admise est que la forme originale est "Au temps pour moi", provenant de l'expression militaire "Au temps", qui signifie qu'il faut recommencer un mouvement de façon correcte. Il est vrai qu'il y a eu parfois un peu polémique, qu'on trouve des défenseurs du "autant".
Jonathan> C'est parce que les données sont classées par ordre alphabétiques et les premier tokens dont les signes, # etc, les chiffres et nombres, etc. Il faut arriver au fichier 9 (ligne 4105571) pour avoir les tokens alphabétiques...
A& 1631 8 8 1
A& 1644 11 11 1
A& 1660 1 1 1
A& 1670 3 3 1
A& 1674 5 5 1
Effectivement, merci beaucoup. Ils ont vraiment tout mis (AAAGH) !
Très intéressant.
L'Alsace-Moselle était allemande de 1870 à 1918. En cherchant la ville de Metz et le département Mosel dans le corpus allemand, on obtient cette courbe.
En cherchant sur le nom allemand de la ville de Thionville "Diedenhofen", on a naturellement les pointes de 1870 (annexion), 1914-18 et 1939-45, mais un autre pic apparait au environ de 1895-99. Que s'est-il passé durant cette période?
Intéressant aussi cette courbe sur les juifs et musulmans (et leur religion respective)
http://ngrams.googlelabs.com/graph?content=juif%2Cmusulman%2CIslam%2Cjuda%C3%AFsme&year_start=1750&year_end=2008&corpus=7&smoothing=3
alors que chez les anglais, l'intégration de l'Islam et du Musulman est plus récente
http://ngrams.googlelabs.com/graph?content=Jew%2CMuslim%2CIslam%2CJudaism&year_start=1750&year_end=2008&corpus=0&smoothing=3
bonjour,
drôle de constater qu'en tapant "guerre" pour la France, les livres annonçaient les guerres du XXe siècle un peu avant leurs apparitions réelles...
Le mot prolétaire pour le corpus en Français sur toute la période est savoureux, depuis 1980 il n'y en a plus, confirmation
mouvementautonome.com
Avec "geek" c'est surprenant.
Quelqu'un a une explication ?
http://ngrams.googlelabs.com/graph?content=geek&year_start=1800&year_end=2008&corpus=7&smoothing=3
Ca ne me semble pas anormal... Un pic de popularité vers 2002, puis le mot a un peu faibli, mais reste toujours présent. On voit mieux ici
Oui mais en fait, c'est surtout l'apparition du mot vers 1820-1840 (quel sens pouvait-il avoir ?) puis sa disparition, qui me pose problème...
Les fréquences sont très faibles.
On voit mieux en agrandissant la période 1800-1850; en cliquant sur les dates en bas de la page on a accès aux contextes.
On voit qu'il s'agit de noms de personnes, ou d'erreurs d'OCR, comme ici.
Enregistrer un commentaire