Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, février 13, 2007

Ségo : Son projet est-il socialiste ?

La plupart des commentateurs semblent dire que oui depuis son discours de dimanche. Ils s’accordent même à trouver qu’il y a un sérieux coup de barre à gauche dans son « pacte ». Donc, elle tient sans doute sa promesse, lorsqu’elle déclarait le 30 avril dernier « Je vais vous faire une confidence: mon projet sera socialiste », une pique lancée à Lionel Jospin qui avait affirmé que son projet n'était pas socialiste en 2002, avec le succès qu’on connaît…



Comme le fait remarquer Laurent Gloaguen dans un commentaire sur mon précédent billet, elle n'emploie pas le mot socialiste dans son discours. Etonnant, tout de même, si l’on compare à ses discours de l’automne (« profession de foi », débat interne à Toulouse, discours d’investiture).

Le mot social est très présent, lui. Comme le fait remarquer Fred, un autre commentateur, il peut être intéressant de regrouper social, sociale, sociaux, sociales, et le mot grimpe alors très haut, à la deuxième place dans les mots clés, juste après France. Fred indique un site où il propose une analyse lemmatisée du discours de Ségo, site est à suivre de près puisqu’il dit qu’un service en ligne sera « bientôt à la disposition de tous sur le Net ».

Paraître socialiste, mais ne pas prononcer le mot : c'était l'exercice de style du jour. Vous aurez peut-être aussi remarqué, dans le même esprit, la valse des logos : la tribune arborait la rose du parti quand Hollande s'est exprimé. Elle avait miraculeusement disparu quand Ségo est arrivée à la tribune... Bon, on va dire que ça fait partie des grands écarts qu'il faut parfois faire en politique. Après tout Nicolas Sarkozy fait la même chose, en se lançant ces temps-ci un discours de gauche pour récupérer quelques voix ouvrières dont il a bien besoin, tout en donnant des signaux rassurants aux patrons, et à un électorat qui pourrait être tenté par le vote FN (comme à Toulon).

L'opération qui consiste à ramener toutes les formes d’un mot à une seule s’appelle « lemmatisation », le « lemme » d’un mot étant la forme conventionnelle qu’on utilise comme entrée dans un dictionnaire. Il existe un vieux débat en analyse lexicographique, lancé par mon éminent collègue Charles Muller en 1963 : faut-il lemmatiser les textes pour l’analyse lexicographique ? A l’époque, il est vrai, on ne savait pas le faire automatiquement, et la lemmatisation manuelle d’un texte, comme vous pouvez aisément l’imaginer, est une opération coûteuse. Aujourd’hui on dispose de programmes qui font le travail, mais très honnêtement, ils le font de façon imparfaite. Il subsiste pas mal d’erreurs. La tâche paraît simple, mais comme je l’explique dans mes cours, le langage est un océan d’ambiguïté. Avions est-il un nom (lemme : avion) ou un verbe (lemme : avoir) ? Cela dépend du contexte : nous avions = verbe, mais les avions = nom. Ah oui ? Raté : il faut aller chercher plus loin : nous les avions = verbe. Et vous pouvez imaginer tous les cas tordus : Nous, qui les aimions, les avions. Nom ? Verbe ?

On pourrait multiplier les exemples, mais vous avez compris. En gros, si l'on n’est pas très regardant les programmes de lemmatisation automatique marchent à 95%, ce qui fait dans les 5% d’erreurs. Ca ne semble pas beaucoup, mais sachant qu’une phrase fait dans les 20 mots, cela fait une erreur par phrase…

Sachant cela, faut-il lemmatiser ? Dans certains cas, on améliore les choses, comme avec l’exemple social ci-dessus. Dans d’autres, on les dégrade. Pensez au mot vacances : on ne gagne rien en lisibilité en regroupant les grandes vacances et la vacance d'un poste sous le lemme vacance ! Le pluriel est signifiant. Il en va de même avec social, au fond. Le féminin est signifiant dans Sécurité Sociale, qu’on peut ne pas avoir intérêt à regrouper avec travailleurs sociaux, etc., selon l’analyse que l’on cherche à faire. En fait, le « lemme » n’est qu’un pis-aller. On aimerait une analyse lexicale fine, qui ramène les mots non pas à une forme conventionnelle d’un dictionnaire, mais à un sens précis… On en est loin du point de vue de l’automatisation.

Voici, à titre de comparaison, les deux nuages du discours de Ségo, en version brute, et en version lemmatisée. A vous de comparer…


Nuage brut


Nuage lemmatisé

Attention, les liens sur le nuage lemmatisé sont approximatifs, puisqu'ils renvoient à la seule forme de base. Il faudrait y travailler...


En savoir plus


Muller, Ch. (1963), Le Mot, unité de texte et unité de lexique en statistique lexicologique, Travaux de linguistique et de littérature, 1, p. 155-175.
Mayaffre, D. (2005). De la lexicométrie à la logométrie, L’Astrolabe.
Brunet, E. (2000) Qui lemmatise dilemme attise, Lexicometrica, no 2,
Brunet, E. (2002), Le Lemme comme on l'aime, in Morin A. et Sébillot P. (éd.), JADT 2002, 6e Journées internationales d'analyse des données textuelles, Rennes, IRISA,, vol. 1, p. 221-232.
Brunet, E. (2003), Statistique et lemmatisation. L'exemple de Rabelais, L'Astrolabe.

10 Commentaires:

Blogger Kaa a écrit...

La lemmatisation fait apparaître l'amour et la compréhension et disparaître la colère ;-) Plus sérieusement, cette note est très pédagogique et démontre assez bien ce que j'aime dans ce domaine et qui me rend dingue : quand on pousse qq part, on perd de l'autre. Comme dans la vie, tout est question d'équilibre et les solutions sont très souvent dans le mélange. Mais en période électorale il est beaucoup plus souvent question de "recettes" que de complexité et d'équilibre. Malheureusement.

13 février, 2007 10:00  
Blogger Jean Véronis a écrit...

Kaa> Et tout ça montre le langage est sacrément compliqué ! En ce qui concerne amour/colère, ce qui remonte c'est le verbe aimer, à cause de la lemmatisation qui regroupe aime/aimerait/aiment.

C'est un effet systématique: comme les verbes ont beaucoup plus de formes en français que les noms et adjectifs, ils ont toujours des fréquences plus élevées dans la version lemmatisée. Il en va différemment dans d'autres langues (par exemple en anglais, les verbes n'ont que deux formes, comme les noms).

Petite remarque sur la colère : est-ce que tu as remarque qu'il n'y a pas de verbe pour la colère? Il faut dire se mettre en colère, être en colère, piquer une colère, etc. Pas de verbe colèrer, alors qu'on a aimer.

Mais il y a un verbe décolérer ! Rigolo, non ?

13 février, 2007 10:10  
Blogger Julien a écrit...

A quand l'analyse comparé des discours Sego/sarko.....

13 février, 2007 10:14  
Blogger Jean Véronis a écrit...

Julien> J'y travaille...

Ce serait intéressant de comparer avec Bayrou aussi. Il a fait un superbe discours hier à Strasbourg, mais la transcription n'est hélas pas (encore) sur son site.

13 février, 2007 10:22  
Anonymous Fred a écrit...

Jean, merci de soutenir les projets de www.tudeblogues.com.

Je suis d'accord avec toi : dans l'idéal, il faudrait compter des groupes de mots significatifs.

Ceci n'étant pas automatisable aujourd'hui, je préfère compter des lemmes plutôt que des mots. Cela donne des résultats plus intéressants...

Exemple ici : si on regarde le nuage lemmatisé, "social", "jeune", "violence", "emploi"... ressortent beaucoup mieux que dans le nuage brut. Or, il était important d'identifier ces termes dans le discours de Ségo.

Je pense donc que nous pouvons faire abstraction des quelques cas particuliers que tu cites.

13 février, 2007 10:54  
Blogger Jean Véronis a écrit...

Fred> Oui, tu as sans doute raison...

13 février, 2007 10:59  
Anonymous Gral a écrit...

Merci pour ce topo sur la lemmatisation , très intéressant comme toujours sur votre blog. Et la flemmatisation, serait-ce l'art de ramener plusieurs formes d'action à une seule ?!

13 février, 2007 13:15  
Blogger Pascal a écrit...

La lemmatisation est une première étape vers la normalisation et c'est peut être trop ou trop peu. Il faudrait sans doute faire aussi l'extraction des mots composés. L'exemple de travailleurs sociaux est parlant. Ici l'entité principale est bien travailleur social qui est différent du travailleur d'Arlette.
Se pose ensuite naturellement le problème de la lemmatisation d'un mot composé qui n'est pas forcément la juxaposition des lemmes de des constituants.

Il est tentant de continuer dans la voie de la normalisation des termes pour essayer de se rapprocher de plus en plus du sens. Par exemple regrouper les termes (synonymies, abréviations, redressement ...)(Ségolène=Ségo=Segolene ...). Malheureusement chacune de ces étapes amène sa part d'erreurs et d'approximations. Les examples de Jean l'illustrent bien et c'est bien pire sur d'autres étapes ou la qualité des outils automatiques est nettement moins bonne que celle de la lemmatisation.

Toute la difficulté est de savoir ou s'arrêter. Il est aussi très important dans mon expérience de rendre visible à l'utilisateur les choix qui ont été fait et éviter l'effet boite noire qui fait peur. La présentation du nuage est très bien dans ce sens car on accède directement aux phrases derrières un terme. Si ce terme est le résultat d'un regroupement, on pourrait imaginer afficher en haut de la page la distribution des formes qu'il représente et de grouper les phrases de la même manière.

Bravo Jean pour ce blog passionnant.

13 février, 2007 18:49  
Blogger Jean Véronis a écrit...

Psacal> Tout à fait d'accord avec tes remarques sur la normalisation. C'es bien là le problème et il est infiniment compliqué...

Et je redoute aussi l'effet boîte noire. C'est pour cela que lorsqu'il y a un compromis à faire entre des biais variés j'opte généralement pour celui que je connais et que je maîtrise le moins mal... D'où ma sobriété dans l'utilisation de la lemmatisation et autres outils plus sophistiqués...

13 février, 2007 18:53  
Anonymous Fraise des Bois a écrit...

Je n'avais pas noté le mot "laïcité" en lisant son discours et vous non plus ne l'avez pas trouvé. Un autre mot (et thème) absent, et d'habitude très classique à gauche, comme le mot socialisme (ou l'adj. socialiste). C'est symptômatique ces absences...

17 février, 2007 00:39  

Enregistrer un commentaire