Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

samedi, mars 03, 2007

Texte: Richesse lexicale

Un billet un peu plus technique aujourd'hui... J'essaie de ne pas en abuser pour ne pas plomber l'audimat ! On me pose souvent la question : qui de nos candidats a le vocabulaire le plus riche ? Comme dirait Ségo : Bonne question, merci de me l'avoir posée... Car la réponse est tout sauf simple. La richesse lexicale d'un texte est une notion intuitive et très subjective. On y réfléchit depuis bien longtemps en littérature, mais elle est extrêmement difficile à formaliser. De plus, notre perception est peut-être bien sujette en la matière à des illusions d'optique. Mon éminent collègue Etienne Brunet a ainsi montré que le vocabulaire de Zola donnait l'impression de la complexité par l'usage de mots assez rares, mais qu'au total, cet usage était assez ponctuel, et contrebalancé par un vocabulaire relativement simple dans le reste de ses textes...

Comment quantifier la richesse lexicale d'un texte de façon rigoureuse ? L'idéal serait de disposer d'un indice qu'on pourrait calculer automatiquement, et qui permettrait de positionner n'importe quel texte sur une échelle, par exemple entre 0 et 1. Malheureusement, on s'y essaie depuis les années 1940, et tous les indices qu'on a proposés s'avèrent biaisés : ils dépendent en effet de façon drastique de la taille des textes. Ils permettent de comparer des textes de tailles voisines, mais deviennent trompeurs quand les tailles sont très différentes.

Pour vous donner un exemple, l'indice le plus simple que l'on puisse imaginer, c'est de compter le nombre total de mots du texte étudié ainsi que le nombre de mots différents, et de faire le rapport entre les deux. Prenons par exemple le discours de Ségolène Royal à Villepinte : un total de 12819 mots pour 2707 mots différents. Pour clarifier les choses, on parle d'occurrences et de formes : 12819 occurrences, 2707 formes. Le rapport fomes/occurrences (dont j'ai déjà parlé ici à propos des splogs — en anglais type/token ratio) est de 0,21. Son discours de voeux du 4 janvier comportait 1119 formes pour 3483 occurrences, soit un rapport de 0,32. Est-ce à dire que son discours de voeux était plus riche que le discours de Villepinte ? C'est là que le bât blesse : on ne peut rien conclure, car les textes sont de tailles différentes, et les textes courts ont toujours tendance à avoir un rapport formes/occurrences plus élevé que les textes longs...

L'indice en question est donc inutilisable pour comparer directement deux textes, sauf s'ils sont de tailles très voisines. Mais le paysage change si l'on dispose d'un nombre important de textes. On peut alors reporter le nombre d'occurrences et le nombre de formes de chaque texte sur un graphique, et chaque texte peut être rapporté à la tendance globale. C'est ce que j'ai fait pour tous les discours de la base Discours 2007, pour les quatre «grands» candidats. Chaque point représente un des discours :


On constate pour chacun des candidats l'atténuation du rapport formes/occurrences que je mentionnais plus haut : les courbes de tendances s'infléchissent lorsque la taille des textes augmente (pour les techniciens: je les ai modélisées par une loi de puissance). Mais la position relative des courbes de tendance nous montre des différences entre auteurs. La courbe de Le Pen est clairement au-dessus des autres (et les points qui représentent ses textes se détachent à peu près tous du reste).

On peut donc affirmer que les discours de Jean-Marie Le Pen sont nettement plus «riches» lexicalement que ceux des trois autres candidats, qui se tiennent, quant à eux, dans un mouchoir de poche. Bien entendu, «riche» n'implique aucun jugement de valeur, ni de compréhensibilité. Cela veut simplement dire qu'ils contiennent plus de mots différents.

Etonnant, non, pour le candidat que l'on décrit comme le plus «populiste» ?


Post scriptum


Je développe pour la Dépêche du Midi. A lire ici.

27 Commentaires:

Anonymous Tibo a écrit...

Jean-Marie Le Pen, quoiqu'on pense de son idéologie, est de loin le candidat qui possède la plus grande culture générale et la meilleure maîtrise de la langue française. Dupont-Aignan, qui n'est pas dans votre échantillon, s'exprime aussi très bien.
D'autre part, il n'estime pas que pour parler au peuple on soit obliger d'abaisser le niveau de son expression. Cela ne l'empêche pas d'être entendu dans les couches populaires. Mon expérience personnelle à ce sujet est que les personnes de milieu populaire sont plutôt flattées d'entendre quelqu'un leur parler en utilisant une langue sophistiquée. Si certains mots leur échappent, il n'en tiennent pas rigueur au locuteur; par contre, le langage technocratique, du genre ENA, est beaucoup moins bien supporté. D'autre part, les plus de quarante ans issus de classes populaires ont, sauf exception, une capacité de compréhension (pour l'expression, c'est autre chose) de la langue bien supérieure à ce que l'on peut croire. Il faut dire qu'ils n'ont pas eu à subir les Diafoirus au pouvoir à l'Education Nationale ces dernières décennies.
Jean Marie Le Pen est, du point de vue de la langue qu'il utilise, fidèle à la tradition française : Je suis toujours étonné de la qualité de la langue utilisée dans des discours publics par Jaurès, De Gaulle ... à des époques où le niveau éducatif n'était pas sensé être le même qu'aujourd'hui.

04 mars, 2007 10:27  
Anonymous Tibo a écrit...

P.S. : Pourriez-vous ajouter une fonction "imprimer" à votre blog ?

04 mars, 2007 10:37  
Blogger Jean Véronis a écrit...

Tibo> Suffisait de demander...

J'ai mis un lien "imprimer" à la fin de chaque billet. Merci de m'avoir rappelé cette chose-là, que je voulais faire depuis bien (trop) longtemps !

04 mars, 2007 11:16  
Anonymous Alex a écrit...

C'est aussi la conclusion de l'émission "En deux mots" consacrées inter alia à Le Pen: il utilise non seulement un vocabulaire plus diversifié mais également plus "complexe" que celui des autres candidats, selon les observateurs.

Ici: http://www.france5.fr/programmes/articles/actu-societe/932-en-deux-mots.php

05 mars, 2007 10:14  
Anonymous Inarius a écrit...

A noter également la richesse des temps utilisés, je pense que celà doit pouvoir se modéliser assez bien

pour parler du passé, les candidats utilisent la plupart du temps l'imparfait ou le passé composé,
Lepen ( et juppé, de façon étonnante..) utilisent l'imparfait du subjonctif et le passé simple, de façon récurrente.

05 mars, 2007 12:23  
Anonymous Bernard a écrit...

Sans de "rudes études" nous avions compris que JM Le Pen ,malgré ses outrances,était était le meilleur orateur du quatuor actuel (tournures de phrases, mots choisis,expression orale,synthèse etc.)
Sur un autre blog je le qualifiais de Cicéron du XXe siècle

05 mars, 2007 13:41  
Anonymous Anonyme a écrit...

"Jean-Marie Le Pen (...) est de loin le candidat qui possède la plus grande culture générale"

Euh... Quand on voit les conneries qu'il débite sur le changement climatique et autres sujets environnementaux, sa culture scientifique reste quand même assez limitée...

05 mars, 2007 14:32  
Anonymous Noryungi a écrit...

Le terme "culture générale" ne signifie pas "culture scientifique".

Et ce n'est pas à son âge qu'il va commencer à faire des études scientifiques. Est-ce que tu as des exemples plus précise de son inculture scientifique, d'ailleurs ?

À noter que Le Pen a d'ailleurs fait des études de droit. C'est un très bon orateur et il vient d'une culture politique, celle de la IVème République, où les discours des hommes politiques étaient encore considérés comme important.

À comparer avec les autres candidats... (Énarques pour la plupart).

Je n'ai aucune sympathie pour Le Pen, et encore moins pour ses idées, mais il faut reconnaître qu'il sait parler en public. Ce qui ne le rends que plus dangereux d'un point de vue politique.

05 mars, 2007 14:53  
Anonymous Anonyme a écrit...

A l'intention de Tibo : j'émettrais d’abord, en tant que jeune retraité (secondaire et supérieur) de l’Education nationale beaucoup de réserves sur la prétendue baisse de niveau. Je me sens d’ailleurs un peu offensé.
Cela dit, je crois que la richesse lexicale de Le Pen s’explique de plusieurs manières. Le Pen a 79 ans, il a été député en 1956 à l’époque du parlementarisme triomphant, des grandes joutes oratoires, du goût pour la rhétorique, quand l’ENA n’avait que 10 ans, quand les communicants n’avaient pas envahi la politique (il faut attendre 1965 avec Lecanuet). Le Pen a aussi une formation initiale d’avocat, là encore à une époque où le talent oratoire était primordial. Politiquement, Le Pen intervient exclusivement dans le registre tribunitien qui exige lui aussi des talents oratoires loin des préoccupations de gestion, et qui favorise –pour être efficace- la multiplication lexicale. Quoi de plus excitant pour l’assistance que de multiplier les mots pour accuser et fustiger les étrangers, les euphémismes à connotation raciste pour paraître plus présentable, sachant aussi que ce qui compte ce sont le phrasé, le tempo ou le beat (comme on dirait aujourd’hui) propres à l’éloquence et qui permettent de faire supporter un discours dont on ne comprend pas tous les mots. On peut aussi penser à la jouissance qu’éprouve Le Pen lors de ces discours et qui doit le conduire à multiplier les formules assassines…
Donc il me semble que populisme et richesse lexicale peuvent non seulement rimer mais aussi se renforcer mutuellement. Le Pen n’est pas d’ailleurs un cas isolé, songeons au normalien Marcel Déat, à Mussolini…

05 mars, 2007 15:00  
Anonymous Jean-Louis MOREL a écrit...

ANONYME> je ne suis pas beauf, ringard, individualiste,chasseur. Je ne me sens pas vieux et ne suis pas alcoolique (bien que ne crachant pas dans un bon verre de vin), pas pplus qu'agriculteur.

Loin de moi l'idée de déclencher une polémique sur le blog de Jean qui mérite bien mieux que cela ;-)

Mais ceci :
"L'enquête montre un fort clivage générationnel, dans la mesure où l'adhésion à l'idée selon laquelle l'immigration est une chance pour la France est plus forte chez les jeunes (60% des moins de 35 ans) que chez les plus âgés (41% pour les 50-64 ans, 37% chez les 65 ans et plus), souligne l'Ifop." fin de citation, ceci me parait une évidence. Il y a sûrement une majorité d'émigrés dans la population des moins de 35 ans, et c'est un peu comme si on disait qu'une majorité de sexagénaires est pour l'augmentation des retraites ou une majorité de chomeurs est pour que tout le monde ait du travail.

Bref, c'est encore un sondage qui ne veut rien dire (c'est uniquement mon avis). Cela ne m'emp^che pas de penser que l'immigration est nécessaire (et souvent profitable), mais qu'on arrête d'en faire un fromage.

Pour moi, le problème de la France et des français, c'est qu'ils se posent trop de questions, qu'ils réfléchissent trop au lieu d'agir. Et à force de réfléchir, ils sont comme les miroirs : ils deviennent sans teint ;-o)

Tiens, Jean, le tain, voila un mot interessant (phonétiquement), non ?

05 mars, 2007 20:14  
Anonymous CG a écrit...

Pour en revenir à la richesse lexicale:

Y-a-t-il contre-indication à l'utilisation de l'entropie de la distribution du vocabulaire ?

Il semble que plus le vocabulaire et riche et moins il est concentré sur peu de mots, plus l'entropie est élevée, non ?

05 mars, 2007 21:11  
Blogger Gabrouze a écrit...

Petite Question ... Les mots ont il été lemmatisés ? Cela change peut être le résultat ?

06 mars, 2007 00:54  
Anonymous Grain de poivre a écrit...

Réponse à Anonyme
C'est pas joli, joli d'être anonyme quand on fait le coucou en nichant dans le blog des autres à des fins de propagande politique...
Pour ce qui est de Le Pen, qui n'est pas mon champion, généralement il m'amuse: c'est de loin celui qui a le plus d'esprit, même dans les dérapages.

06 mars, 2007 09:46  
Blogger Jean Véronis a écrit...

CG> Y-a-t-il contre-indication à l'utilisation de l'entropie de la distribution du vocabulaire ? - Non, aucune, bien au contraire. Cela a été proposé, à ma connaissance, dès 1984 par Etienne Evrard, à un congrès de l'ALLC. On obtient les mêmes résultats (et je viens de vérifier sur ce corpus, c'est bien le cas).

Et on a la même dépendance à la longueur : l'entropie dépend aussi de la longueur du texte...

06 mars, 2007 09:51  
Blogger Jean Véronis a écrit...

Gabrouze> Non, j'ai pris le texte brut, non lemmatisé, car l'expérience montre q'on obtient les mêmes résultats. Je viens de vérifier, et c'est évidemment ici aussi le cas...

06 mars, 2007 09:51  
Blogger Jean Véronis a écrit...

Grain de poivre> Faut pas nourrir les trolls ;-) J'ai viré le commentaire. Ca ne m'arrive presque jamais, mais bon, si un commentaire n'a rien à voir avec le sujet, il n'a rien à faire ici. C'est du spam.

06 mars, 2007 09:53  
Blogger Paul a écrit...

Bravo pour ce site.
Outre les aspects étude du langage, j'ai été ravi d'y découvrir les discours de tous les candidats. Un bon moyen pour mieux murir un vote.
J'ai repéré le discours de S.Royal du 3 mars (qui peut compléter votre corpus) en téléchargement ici : http://www.defense-et-republique.org/modules.php?name=Downloads&d_op=viewdownload&cid=10

Merci

06 mars, 2007 10:16  
Anonymous isegoria a écrit...

La maîtrise de la langue chez Le Pen prend ses sources dans ses années de collège (pendant la 2e guerre mondiale).
Il était chez les jésuites au collège St François-Xavier (SFX) de Vannes puis au lycée Saint Louis de Lorient.

Voilà ce qu'il dit de son passage à SFX : "«Je leur dois tout. Ils m'ont donné une discipline de pensée». C'est là qu'il apprendra par cœur la poésie du XIXe siècle et fera son latin-grec, il sortira vainqueur de concours d'éloquence grâce à son excellent français.

Malgré ces résultats, il sera exclu pour indiscipline, "fouteur de merde" a-t-on dit (comme du lycée de Lorient après).

Finalement, il n'a pas beaucoup changé !

06 mars, 2007 11:24  
Anonymous Kark a écrit...

Bravo, pour votre blog.
Ca change et ça fait du bien.

Parlons donc de langage, de générosité et d'Amour.

Selon moi, cette "richesse" du langage que vous évoquez est un véritable "don" et je pense également que Jean-Marie Le Pen le maîtrise.

Il ne le maîtrise pas dans le sens de la recherche de performance verbale mais dans le sens de la limitation volontaire, car il s'agit pour lui d'être compris tout de même.

Observez ses sourires après une allocution dite « rare » ou d‘un mot manifestement complexe. Ce n'est pas un sourire condescendant que l’on découvre, c'est un sourire culturel et éducatif.

Il nous invite à cet instant à le comprendre, ou plutôt à faire l’effort personnel de recherche de compréhension. Il incite la partie intelligente de notre cerveau à se renseigner. Curiosité saine pour lutter contre une uniformisation des modes de pensées par l’uniformisation des modes d’expressions. Il nous montre le chemin des lettres, nous invite à le suivre, ou plutôt nous fournit l'idée de s'armer de cette maîtrise qui nous permettra tantôt de nous défendre tantôt de nous sauver la vie.

Si son vocabulaire est empiriquement sacré comme le plus « généreux » nonobstant ses non contemporains collègues politiques, il l’est donc également au sens humain du terme.

Depuis des années il tente de nous faire partager sa propre réalité du monde, en nous tendant une main spirituelle à propos d'une réalité que seule la mauvaise foi caractérisée s'empresserait de ne pas définir comme "commune", celle de l'érosion de notre univers linguistique, pourtant mur porteur d’une identité supra communautaire unifiant durablement les peuples et leur garantissant la paix sans les renier.

Dans cette univers de paradoxes ou l’on confond les fondamentaux communs et la pensée unique, nous sommes, presque tous, les Ingrid Bétancourt de cette SA de la communication et de l’information. La notion même de nuance est tellement passée à la racine carrée d’un CSA de l’esprit, que l’on préfère publiquement et sans complexe l’hypocrisie à la franchise, la contamination du sang à l’art de le transmettre, l’espoir vain à la vérité vraie.

Parce que viril ne veut pas dire misogyne, parce qu’ « autoritaire » ne signifie pas cruel, parce que national ne veut pas dire « raciste » ... cet homme mérite d’être entendu et écouté plus encore et son discours compris dans le respect de la nuance apportée par l’auteur.

Quid du changement de ton dans le discours de Jean-Marie LE PEN en 2007 ?
A-t-il policé son discours ? Oui, je le pense et ce malgré lui.

Comme pour tous les autres sujets que Jean-Marie LE PEN aborde, il faut prendre un recul certain, celui d’un Président de la République par exemple. Avec ce recul, nous observons une société infantilisée donc naturellement peureuse : nous sommes l'enfant-peuple qui se réfugie majoritairement depuis des années dans les bras de sa gentille maman imaginaire que nos diables nous aident à inventer, afin d’échapper à l’éducation d’un père plus « autoritaire ». C’est l’assassinat moral d’un père qui n’a jamais douté de la profondeur de l’amour non réciproque qu’il porte pour son enfant. Malgré cette épée plantée et maintes fois remuée il n'aspire à rien d'autre qu’à nous voir grandir dans le bonheur, l'amour et la prospérité. C’est de L’honneur, Messieurs et Mesdames, si ce mot « parle » encore à certains et certaines.

Aujourd’hui ce père est un grand père de la Nation, et laisse à son petit-enfant-peuple qu’il chérit plus encore une toute autre liberté, s’énerve et nous gifle sans grand espoir de temps en temps, regrettant que des illégitimes lui aient empêché pendant tant d’années de pouvoir exercer son rôle si précieux de Papa.

"Qu'est-ce qu'on mange maman ? " demande l'enfant devenu aveugle.
"Du mensonge à l'espoir, mon petit… du mensonge à l'espoir" lui répond une voix rassurante.

Quelle triste belle famille monoparentale...

« Si jeunesse savait, si vieillesse pouvait. »

Bon appétit.

Kark (kark@hotmail.fr)

06 mars, 2007 19:08  
Anonymous Kark a écrit...

erratum, mon email est kark123@hotmail.fr

Tous les messages sont les bienvenus, même les insultes constructives.

bonne nuitée.

07 mars, 2007 02:35  
Anonymous isabelle a écrit...

A l'instant même, je suis en train de tenter de m'imaginer un sourire culturel et éducatif... voyons.
(fmgpwbqo)

07 mars, 2007 18:11  
Anonymous Kark a écrit...

Isabelle, au plan individuel, la culture est l’ensemble des connaissances acquises, l’instruction, le savoir d’un être humain.

Au plan collectif, la culture représente également l’ensemble des structures sociales, religieuses, etc., et les comportements collectifs tels que les manifestations intellectuelles, artistiques, etc., qui caractérisent une société.

La culture comprend ainsi trois grands groupes de manifestations : l’art, le "langage", la technique

Le langage est la faculté de mettre en œuvre un système de signes linguistiques (qui constituent la langue) permettant la communication et l'expression de la pensée. La linguistique est l'étude scientifique du langage.

CQFD en creusant un peu plus loin que le bout de son nez :-)

09 mars, 2007 00:17  
Anonymous Isabelle a écrit...

bonsoir, Kark,et merci de vos explications des mots culture et langage.
Il y a quand même un point sur lequel nous sommes d'accord, tous les deux, c'est que ce blog, qui est un blog de chercheur, *change*.
Bonne nuit tous toutes

09 mars, 2007 01:21  
Anonymous frugovan a écrit...

Si je peux me permettre, je vous indique cet ouvrage :
http://www.yodawork.com/webcc/sog_dec/notice_reference.html?F_ean13=9782707129116
Pas vraiment récent comme analyse certes (il a du adapter son discours depuis...) mais j'ai souvenir que c'était intéressant.

09 mars, 2007 22:36  
Anonymous Kark a écrit...

Frugovan,

Je ne connais pas ce livre.
Mais j'ai lu le rapide résumé dans le lien indiqué.

Il me semble (suis-je le seul ?)que l'idée créatrice de l'auteur repose sur un postulat de base qui est la conclusion de l'ouvrage.

C'est à mon sens, un livre écrit à l'envers. Depuis sa conclusion, l'auteur a planché pour écrire les chapitres uns à uns et terminer par le titre.

Si la linguisitique est une science, son interprétation n'en est clairement pas une, et sa contraposée encore moins.

C'est toujours la même technique employée contre le Front National : détourner ou courcircuiter le cerveau des gens pour faire converger les esprits vers un mode de pensée unique.

Si ça marche encore en 2007, tant pis pour notre liberté de penser.

Désolé d'ouvrir le débat sur le fond, c'est la dernière fois que je pollue le blog, c'est promis.

Ciao a tutti !

13 mars, 2007 14:39  
Anonymous Kark a écrit...

"Aurai-je confondu la contraposée et la négation de l'antécédant ?"

Mmmmmouais...

13 mars, 2007 15:01  
Anonymous Anonyme a écrit...

Noryungi a écrit...

Le terme "culture générale" ne signifie pas "culture scientifique".

Et ce n'est pas à son âge qu'il va commencer à faire des études scientifiques. Est-ce que tu as des exemples plus précise de son inculture scientifique, d'ailleurs ?

À noter que Le Pen a d'ailleurs fait des études de droit. C'est un très bon orateur et il vient d'une culture politique, celle de la IVème République, où les discours des hommes politiques étaient encore considérés comme important.

À comparer avec les autres candidats... (Énarques pour la plupart).

Je n'ai aucune sympathie pour Le Pen, et encore moins pour ses idées, mais il faut reconnaître qu'il sait parler en public. Ce qui ne le rends que plus dangereux d'un point de vue politique.
05 mars, 2007 14:53
Orthographe à revoir:" des exemples plus précise", où les discours des hommes politiques étaient encore considérés comme important". "Ce qui ne le rends que plus dangereux d'un point de vue politique."
(" précise" - " importants" - "rends")
Certes "errare humanum est", mais "perseverare diabolicum" - OK

04 mai, 2007 12:24  

Enregistrer un commentaire