Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

samedi, juillet 02, 2005

Lexique: Nuage de mots d'aujourd'hui

J'ai poursuivi toute la semaine la petite expérience que j'avais commencée dimanche dernier: chercher quels mots des fils RSS du Monde étaient absents du Trésor de la Langue Française (dictionnaire monumental de 16 volumes, 23000 pages, 100 000 articles!). Comme celui-ci a été rédigé en gros sur 30 ans, avec un dernier volume publié en 1994, il nous donne une image de la société des années 60-90. En négatif, les mots qui n'y figurent pas nous donnent une image de la société d'aujourd'hui...

Au cours de la semaine, 93 mots sont apparus dans les fils du Monde, et ne figurent pas comme entrée dans le TLF (quelques-uns sont mentionnés dans le corps du texte, comme pour auto, mentionné dans l'entrée AUTOMOBILE). Les fils comportaient 4400 mots différents pour la semaine, et les mots inconnus constituent donc un peu plus de 2% du tout.

Je vous ai concocté le résultat façon TagCloud (la taille représente la fréquence dans Yahoo pages francophones). Certains de ces mots sont manifestement des oublis du TLF (grenoblois, isérois), mais le reste me semble effectivement donner une image du paysage lexical récent...


19 Commentaires:

Anonymous LudovicD a écrit...

Quel le TLF, 'terminé' en 1994 donc, ignore le mot "Tutsis" - amère coïncidence...

03 juillet, 2005 14:58  
Anonymous Sabin a écrit...

C'était très intéressant, tiens :)

03 juillet, 2005 15:29  
Anonymous Sabin a écrit...

En revanche, j'aimerais suggérer une modification de l'article : remplacer le "TLF" par son nom complet avec une brève explication. Sans cela, j'ai peur que ceux découvrant votre article (j'ai bien envie d'envoyer l'URL à pas mal de monde) ne comprenne pas un mot et se décourage...

03 juillet, 2005 15:30  
Blogger Jean Véronis a écrit...

Sabin> Oui, bonne idée, merci!

03 juillet, 2005 19:36  
Anonymous Anonyme a écrit...

Le hasard ayant beaucoup d'humour je trouve amusant que le mot "cannabis" se retrouve à côté de "chiite". ^^....

03 juillet, 2005 19:42  
Anonymous gb a écrit...

Et ce décalage pourrait être encore plus criant si vous aviez pris une source moins académique que le journal des énarques ;) Je ne pense pas seulement aux skyblogs, je pense bêtement à la langue orale, même celle des locuteurs cultivés.
Vous avez mille fois raison, les mots qui manquent donnent en creux une image du paysage lexical récent ; mais surtout, les mots qui manquent donnent la preuve que le TLFi présente une image totalement déformée du lexique réel. C'est déjà un dictionnaire historique terriblement poussiéreux. Ce ne serait pas grave (car les dictionnaires historiques sont de beaux outils) si c'était clairement dit, or ce n'est pas le cas : au contraire, fait avec un ordinateur, il était vendu comme le dictionnaire de la modernité, et il faudrait relire les textes de cette époque où l'on se voulait dynamique pour voir que la montagne a accouché d'une souris... Ce ne serait surtout pas grave si les dictionnaires ne servaient pas d'autorités à ceux qui exigent des preuves de l'existence des mots, alors même qu'en se posant la question ils y ont répondu.
Le TLFi c'est un ossuaire ; on y trouve infinement plus de lexique mort que de lexique vivant (lexique de un an du journal le Monde - lexique du TLFi). Ce n'est pas un Trésor, c'est un Musée, comme on en sait si bien les faire pousser en France.
J'avais pensé pour ma part faire une recherche sur le vocabulaire érotique du TLFi (et sur le lexique argotique/familier) ; gageons qu'il est très chaste en la matière, et, rebelote, qu'à ce titre encore, c'est un dictionnaire du XIXe siècle.
Et ceci vaut pour les usuels (PLI, Bob) : je rapporte une citation ancienne à laquelle vous avez redonné son actualité, qui montre qu'il n'y a rien de nouveau sous le soleil sélectif des lexicologues, qui semblent avoir pour devise d'ignorer par la langue qui se fait : « [un sondage a été fait en 1967 sur le lexique (initiale B) du Nouvel Obs et du Monde, sondage que l'on a confronté aux entrées du Grand Larousse encylp. et du Petit Robert] Pour le premier échantillon - Nouvel Observateur - sur 574 mots testés, 249 soit 43% ne figurent dans aucun des deux dictionnaires-témoins. Pour le second échantillon - Le Monde - sur 136 mots testés, 86 soit 63%, manquent dans les dictionnaires. Ce sondage était certainement trop limité pour être tout à fait représentatif. Il a pourtant confirmé ce que tous les observateurs attentifs savaient : les nomenclatures des dictionnaires les plus récents demeurent très en-deçà de l'usage réel de la langue écrite » (Gilbert, Les arch. du fr. contemp., Lang. fr., 2/69)

Une note bien intéressante.

04 juillet, 2005 04:29  
Blogger Boris New a écrit...

Bravo pour cet image cette photo du paysage lexical récent. (même si j'ai l'impression qu'il pourrait y en avoir plus comme mail, email, télécharger, etc) Cela m'a permis de vérifier que sur ces 93 mots, 45 sont dans la nouvelle et troisième version de Lexique (ce qui me paraît un score correct vu que Lexique s'appuie sur des corpus censés représenter l'usage de la langue).

04 juillet, 2005 09:56  
Blogger Vicnent 31415 a écrit...

avec un accent quelque peu provocateur je le reconnais, mais, à quoi peut-il bien servir, ce dictionnaire de 23000 pages, s'il est remplit de mots (et locutions) que l'on n'utilise plus, et aux abonnés absents des mots de "presque" tous-les-jours ??
Ques des mots comme duffle coat, je veux bien, mais pour ce qui est de Internet par exemple, ça me laisse coi !

04 juillet, 2005 12:02  
Anonymous Sabin a écrit...

Attention, on ne vit pas qu'au présent, on vit au présent et en même temps dans le passé. On prend dans le passé son histoire, sa culture, ses références, son éducation. On y prend aussi trois millénaires de littérature dont cinq siècles de littérature dans un français qu'on est capable de comprendre. Pour moi ce sont autant de bonnes raisons d'être content d'un TLF, même si personnellement il ne m'a vraiment servi qu'à une occasion :-)

04 juillet, 2005 19:08  
Anonymous Thierry a écrit...

gb : "Ce n'est pas un Trésor, c'est un Musée, comme on en sait si bien les faire pousser en France."

Pour toi, "Musée", c'est péjoratif ???

(je pose la question avec une certaine taquinerie, mais sans méchanceté)

04 juillet, 2005 19:16  
Anonymous gb a écrit...

Pas du tout ;) Une proposition pour lui donner un (sous-)titre moins déceptif.
Mais je ne crache pas dans la soupe : un aussi bon dictionnaire historique en ligne, et gratuit, c'est une bien belle chose ; bien mieux que les pdf illisibles de gallica (lisez si vous le pouvez le dico des proverbes de Quitard pour voir ce que je veux dire). Disons qu'entre le projet de départ et le résultat d'arrivée, avec dix ou vingt ans de boulot et tout le gratin des lexicologues, il y a quelque chose de décevant, passée la première joie : c'est déjà daté, pas suivi, pas mis à jour. D'une certaine façon, en privilégiant le passé sur le présent, et en ignorant résolument l'avenir, l'équipe a fait l'inverse de ce qu'il fallait faire. Mais quand on te donne un cheval, même une rossinante...

04 juillet, 2005 19:46  
Blogger Candide a écrit...

Sans vouloir faire le pédant, est-il vraiment étonnant de ne pas trouver "Jamaïquaine"?
Avez-vous cherché "Jamaïcaine" ?

09 juillet, 2005 09:15  
Blogger Jean Véronis a écrit...

Candide> Les deux orthographes sont correctes... Mais il n'y a pas d'article "jamaïcain" non plus. Les deux formes apparaissent chacune une fois ailleurs dans le texte du TLF, dans un exemple pour "jamaïcain" et dans le suffique "-ain" pour "jamaïquain". C'est amusant, le TLF a bénéficié de l'informatique de façon tout à fait pionnière pour l'analyse du corpus de textes (Frantext) sur lequel il est basé, mais personne n'a pensé apparemment à utiliser l'ordinateur pour la construction du dictionnaire lui-même (et par exemple pour les contrôles internes de cohérence et de complétude). C'est pour cela que l'informatisation, postérieure à la publication papier, a été longue et douloureuse. Les premiers tomes étaient composés au plomb... Mais ne jetons pas la pierre, je ne sais pas comment j'aurais moi-même vu les choses dans les années 60!

09 juillet, 2005 09:31  
Anonymous Yannick a écrit...

Dans le T.L.F.I., le mot oxymore n'a pas sa propre entrée ! Il se retrouve seulement dans l'entrée d'alliance : « Alliance de mots (ou oxymore) ». Ne trouvez-vous pas cela curieux (et dommage) ?

27 juillet, 2005 11:08  
Blogger Jean Véronis a écrit...

Yannick> Oui, bien dommage. Il y a des tas de petites incohérences comme ça. Le problème est que le TLF n'était pas informatisé (même s'il était basé sur un corpus de textes informatisés, Frantext)... Il n'est devenu TLFi que bien plus tard. On pourrait maintenant le retravailler et l'améliorer, mais, vu l'état de dégénérescence du CNRS, je n'y crois pas trop...

27 juillet, 2005 13:07  
Anonymous Cedric a écrit...

Merci pour cet article très interessant. Je prend toujours autant de plaisir a vous lire.

02 septembre, 2005 15:00  
Anonymous sarak a écrit...

bonjour,
un commentaire qui n'a pas tellement de rapport avec votre étude sur les mots parus dans les fils RSS du Monde, mais plutôt avec les mots employés à tort et à travers : je vous signale un texte à la fois amusant et triste, qui dénonce les errances lexicographiques dans l'Education nationale

cordialement

07 septembre, 2005 11:02  
Anonymous jean-Luc Benoit a écrit...

Bonjour,
C'est dommage de donner comme qualité première d'un dictionnaire l'exhaustivité d'une nomenclature. C'est effectivement l'argument commercial qui fait vendre la dernière édition de tel ou tel dictionnaire. Mais ça marche ! Et chaque éditeur de faire la liste des mots nouveaux entrés comme gage de la qualité de sa dernière parution. Je n'ai rien contre cette façon d'agir.
Mais on peut avancer également un argument selon lequel un dictionnaire est autre chose. Il est une oeuvre littéraire qui donne le reflet d'un époque. Par sa nomenclature évidemment incomplète et qui semble évidemment obsolète, il estle témoin incomparable d'une manière de vivre et de penser. Le TLF est à classer à côté du Littré, à côté des différentes versions du dictionnaire de l'Académie.
Qui songerait à dire que le Littré est bon à mettre au rebut parce que je n'y trouve pas "fils RSS par exemple"? Ce serait stupide, naturellement.
Voilà pour la nomenclature. Mais il y a d'autres éléments d'appréciations.
Aussi important me semble-t'il est le contenu de l'article et la manière dont chacun est illustré. Lorsque je lis un article, vais-je avoir une idée bien précise non seulement de la chose définie (justesse de la définition ?) mais aussi de la manière dont les sens sont enchâssés les uns dans les autres.(bonne analyse sémantique) Vais-je avoir une idée précise des domaines dans lequel ce mot est employé ? (conditions d'emploi, registres de langue). Vais-je avoir une idée précise de ses collocations,(constructions, mots associés, place des mots associés,etc.)
Enfin, le dictionnaire est un témoin de son temps, comme un roman et il porte aussi la marque de son auteur. Parcourez le Grand Dictionnaire universel du XIXe siècle et vous verrez à la première page transparaître la pensée et les opinions de Pierre Larousse. C'est un régal ! A lire absolument...
L'argument de la richesse, voire de l'exhaustivité de la nomenclature me semble témoigner de cette idée répandue qu'il est bon de posséder la totalité de l'objet de sa quête (les mots d'un dictionnaire) pour s'imaginer être en pleine possession de sa langue. La dominer en somme.
C'est illusoire et vain. Car comme le disait mon copain Mulder :"la vérité est ailleurs" !

09 septembre, 2005 16:06  
Blogger Calamuchons a écrit...

Bonjour,
Je trouve quand même triste que dans un exemple concernant le mot "squelette" il (le TLF)prend comme exemple l'expression :
"mettre un squelette à jour".
Il n'y a je croit que dieu le père qui puisse enlever ou ajouter ('update zoologique') un os, le pauvre humain se contente de le "mettre au jour"

28 novembre, 2009 20:44  

Enregistrer un commentaire