Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, avril 18, 2007

2007: L'arbre des candidats

Vous aviez aimé cet automne mon arbre des politiques, basé sur la proximité qu'ils entretenaient dans les articles de presse (voir ici et ici). Depuis, quelques feuilles sont tombées... Mais ceux qui restent ont beaucoup parlé. Voici donc l'arbre des candidats, basé non plus cette fois sur les citations dans la presse, mais sur l'analyse lexicale de leurs discours (vous noterez que certains candidats sont absents, car je n'arrive pas à avoir leurs discours).


Les proximités dans l'arbre reflètent la plus ou moins grande similitude du vocabulaire utilisé par les différents candidats. On note que Voynet et Le Pen apparaissent sur des branches isolées : leur discours, chacun dans son genre, ne ressemble vraiment à aucun autre... Buffet et Laguiller sont proches : ce n'est sans doute pas étonnant. Sarkozy, Royal et Bayrou apparaissent sur la même branche, mais les plus proches l'un de l'autre sont Royal et Bayou. Intéressant, n'est-ce pas ? Et sans doute à mettre en relation avec les récents appels de Rocard, Kouchner et d'autres à une reconfiguration du paysage politique français...

*
* *

Un peu de technique, pour vous expliquer comment l'arbre a été obtenu. Pour chaque paire de discours, j'ai calculé une distance, appelée distance intertextuelle, qui reflète la proximité de vocabulaire entre les deux textes. Il y a de multiples façons de calculer une distance lexicale entre deux textes : si vous êtes intéressé par plus de détails, vous pourrez consulter avec profit le numéro 3 de la revue Corpus (en ligne) entièrement consacré au sujet. En ce qui me concerne, comme j'ai toujours pour principe d'essayer les choses les plus simples avant de passer aux choses compliquées, j'utilise la distance proposée par mon collègue et ami Etienne Brunet (voir article ici).

Prenons deux textes A et B. On fait la liste des mots de A, celle des mots de B. Il y a des mots qui sont communs et des mots qui n'appartiennent qu'à l'un ou à l'autre des deux textes (son vocabulaire exclusif) :



Le rapport entre le taille du vocabulaire exclusif de chaque texte à celle de son vocabulaire total, ( A - AB ) / A par exemple, donne une bonne idée de la spécificité lexicale du texte. Ce rapport est égal à 0 si tout le vocabulaire de A est inclus dans B, et à 1 s'il est complètement disjoint de B. Si on fait la même chose du côté de A et du côté de B, on obtient la distance suivante (je divise par 2 juste pour avoir un indice entre 0 et 1 ) :

d = ( (A-AB)/A + (B-AB)/B ) / 2

Par exemple, entre le discours de Nicolas Sarkozy à la porte de Versailles le 11 janvier et celui de Ségolène Royal à Villepinte le 11 février, on trouve une distance de 0,62. Il suffit de faire la moyenne entre toutes les paires de discours Royal/Sarkozy, et on obtient une distance moyenne Royal/Sarkozy de 0,66. En faisant ça pour tous les candidats, on obtient une «matrice de distances», qu'on peut ensuite transformer en arbre avec des méthodes analogues à celles qu'utilisent les biologistes pour représenter les parentés entre organismes vivants à partir des séquences d'ADN (arbre phylogénétique) (mais qui ont été proposées depuis bien longtemps en analyse lexicométrique, voir référence ci-dessous). J'utilise à nouveau la méthode de classification UPGMA et le logiciel SplitsTree (voir ici).


Pour en savoir plus

  • Étienne Brunet, « Peut-on mesurer la distance entre deux textes ? », Corpus, Numero 2 La distance intertextuelle - décembre 2003, mis en ligne le 15 décembre 2004: http://corpus.revues.org/document30.html
  • Barthélémy J.-P. & Luong X. (1987). « Sur la topologie d’un arbre phylogénétique : aspects théoriques, algorithmes et applications à l’analyse des données textuelles », Mathématiques et Sciences humaines, 100 : 57-80.
  • Numéro spécial de la revue Corpus. La distance intertextuelle. En ligne : http://corpus.revues.org/sommaire52.html

Libellés :


30 Commentaires:

Anonymous Anonyme a écrit...

Jean,

as tu eu l'occasion de voir les résultats du baromètre 'buzz' de 20minutes, basé sur les données du moteur de recherche d'actualité Wikio ?

http://www.20minutes.fr/barometre-2007.php

A mettre en rapprochement avec ta page Presse 2007, ca se recoupe ?

18 avril, 2007 13:28  
Anonymous Dolgo a écrit...

Oui, intéressant ! Comme le reste de votre travail, et je vous remercie de l'exposer sur ce blog. Mais rien d'étonnant dans cette proximité des discours. Royal n'est pas spécialement de gauche (c'est pas moi qui le dis, c'est Bourdieu !) On l'imaginerait même sur la même branche (et pas sous-branche tel que l'arbre le montre) que Bayrou et Sarkozy. Bon vote dimanche et croisons les doigts...

PS : pour la "vérification des mots", pourquoi devoir taper 8 caractères !? 3 ne suffiraient-ils pas?

18 avril, 2007 13:30  
Blogger Jean Véronis a écrit...

Anonyme> Oui ça se recoupe tout à fait, merci pour le lien !

18 avril, 2007 13:35  
Blogger Jean Véronis a écrit...

Dolgo> Ou alors Bayrou est plus à gauche qu'on ne pense ;-)

Pour la vérification des mots, je n'ai évidemment pas la maîtrise de la chose (et je trouve ça assez pénible)...

18 avril, 2007 13:36  
Anonymous lds a écrit...

En pratique, vous faites la liste des mots des discours, puis comptez le nombre de mots différents, et le nombre de mots communs, c'est cela ? Faut il faire cela manuellement ?
Cette méthode ne tient pas compte des répétitions ?
En tout cas, merci de nous faire partager votre travail.

18 avril, 2007 13:43  
Anonymous Gilles a écrit...

J'aii mal a interpreter la partie basse. Est-ce que ca signifie que Voynet est plus proche de Le Pen que de Royal ? Elle ne mérite variment pas ça, alors j'espère me tromper.

Gilles

18 avril, 2007 13:45  
Blogger Jean Véronis a écrit...

Lds> En pratique, vous faites la liste des mots des discours, puis comptez le nombre de mots différents, et le nombre de mots communs, c'est cela ?

-- oui

Faut il faire cela manuellement ?

-- Non! Ma base frise le million de mots !

Cette méthode ne tient pas compte des répétitions ?

-- Non. Un mot présent = 1 point.
Comme je le dis dans le billet, il y a des méthodes bien plus compliquées, mais celle-ci n'est pas si mauvaise...

En tout cas, merci de nous faire partager votre travail.

-- De rien, c'est le but de ce blog !

18 avril, 2007 13:48  
Blogger Jean Véronis a écrit...

Gilles> Non, c'est une illusion d'optique. La branche Voynet bifurque très tôt parce qu'elle est semblable à aucune autre. En fait, il faut voir trois grandes branches : Voynet, Le Pen, et tous les autres.

Une chose amusante: Voynet est plus proche de Bayrou que de Royal (en termes de mots utilisés, s'entend). Il faut dire que Bayrou a plusieurs discours très écolos (par exemple c'est lui qui parle le plus du climat). Influence de Corinne Lepage, qui l'a rejoint ? Voyez ici. Il faudrait que je fasse un billet sur ça, tiens...

18 avril, 2007 13:53  
Anonymous lds a écrit...

Je m'en doutais un peu :) alors vous utilisez quoi comme programme ?

18 avril, 2007 14:09  
Blogger Jean Véronis a écrit...

Lds> Ce sont des programmes que j'ai développés moi-même (sauf SplitTree pour la représentation en arbre).

18 avril, 2007 14:19  
Blogger Gabrouze a écrit...

Bonjour,

utilisez vous les verbes et noms lemmatisés ?

18 avril, 2007 14:58  
Blogger Jean Véronis a écrit...

Non, pas de lemmatisation. Come Brunet le montre, ça ne change pas grand-chose...

18 avril, 2007 15:03  
Anonymous Anonyme a écrit...

Je voulais tout simplement vous remercier pour votre blog qui je l'espère fera un peu mieux connaitre les sciences du langage, discipline qui m'a longtemps bercé durant mes années d'études ! !
Et qui je l'espère un jour sera reconnu un peu plus qu'actuellement, en dehors de la recherche !
Cordialement

18 avril, 2007 15:53  
Blogger Jean Véronis a écrit...

Anonyme> Merci de votre mot ! Tout ce qui touche au langage intéresse énormément les gens. Je crois que le problème est que la linguistique est devenue un peu vieillote et poussièreuse. Mais, comme dirait un candidat, je sens que les lignes bougent... ;-)

18 avril, 2007 15:56  
Anonymous Anonyme a écrit...

Ah ! ! si ceci pouvait être vrai et qu'on puisse enfin appliquer ces connaissances et cette science au monde du travail (qui en a plus que besoin) je serai la personne la plus heureuse au monde (enfin peut être pas non plus), mais il est vrai que c'est un univers qui m'a passionnée et un peu "déconnectée" il faut l'avouer !
Quelle chance admirable vous avez de pouvoir vivre et travailler des "arts du langage" !
Profitez en !

18 avril, 2007 16:32  
Anonymous ThomasF a écrit...

bonjour Jean. dans un tout autre genre je me suis également livré à un (léger) exercice de comparaisons des candidats mais à propos de l'adresse de leurs sites Internet : http://thomas-fourdin.net/blog/index.php?post/2007/04/12/13-les-noms-de-domaines-de-la-presidentielle-2007

et en lisant les commentaires, je m'aperçois que le premier mentionne l'indice de buzz de 20minutes que j'ai aidé à réaliser et j'avoue que Presse 2007 faisait partie de nos premières sources d'inspiration, heureux que ça concorde :)

et encore merci pour la lecture, javoue j'avais fini par me lasser des comtpes Google mais pas des discours d'analyses de la Présidentielle, quels nouveaux sujets de prévu pour dans 3 semaines ?

18 avril, 2007 18:41  
Anonymous Anonyme a écrit...

Intéressant, même si le discours ne fait plus l'homme , sinon le nègre.
Jouez avec le temps, croisez votre arbrisseau avec certains gros chênes, de gaulle et ses discours par exemple...

18 avril, 2007 19:11  
Anonymous Anonyme a écrit...

Si j'ai deux discours opposes :

j'aime le chocolat.

je n'aime pas le chocolat.

leur distance varie-t'elle suffisament ? Et avez-vous un moyen d'extraire automatiquement les points de discordances ? Ce qui serait bien pratique pour faire des analyses comparatives.

Antoine

18 avril, 2007 20:12  
Blogger Jean Véronis a écrit...

Anonyme> L'analyse lexicométrique ne peut fonctionner que sur de grandes masses de textes, pas sur des phrases isolées. Il est vrai que les mêmes mots peuvent renvoyer à des discours opposés sur de très cours extraits, mais sur la totalité des discours des candidats, il serait bien étonnant, n'est-ce pas, qu'ils choisissent exactement les mêmes milliers de mots pour dire exactement l'inverse les uns des autres...

18 avril, 2007 20:30  
Anonymous Leila a écrit...

Représentation graphique intéressantes. Vous parlez de paires : testez-vous toutes les combinaisons ? si non, lesquelles faites-vous figurer ? N'y a-t-il pas occasionnellement plus de distance entre 2 discours d'un même candidat qu'entre, mettons, Royal et Bayrou ? Enfin l'étude du langage n'approche bien sûr pas son intentionnalité. Pourtant si l'un emprunte en conscience le registre de l'autre, (comme il l'a dit sur Canal + en citant comme "proverbe" le renard qui s'affuble de plumes ne devient pas un plumes (à peu près je n'ai retenu que le sens de la chose...)... L'on se retrouve à traiter les données at their face value.

18 avril, 2007 21:04  
Anonymous leila a écrit...

Oops il fallait lire poule pour plumes etc.

18 avril, 2007 21:05  
Blogger Jean Véronis a écrit...

Leila>
Vous parlez de paires : testez-vous toutes les combinaisons ?

-- Oui. Ca en fait un paquet, pas loin de 20 000, mais c'est l'ordinateur qui travaille.

N'y a-t-il pas occasionnellement plus de distance entre 2 discours d'un même candidat qu'entre, mettons, Royal et Bayrou ?

-- Si. Il y a par exemple des discours sur les mêmes thématiques (par exemple, devant la fondation Hulot). C'est pour ça que je prends la moyenne sur toutes les paires.

Enfin l'étude du langage n'approche bien sûr pas son intentionnalité. Pourtant si l'un emprunte en conscience le registre de l'autre, (comme il l'a dit sur Canal + en citant comme "proverbe" le renard qui s'affuble de plumes ne devient pas un plumes (à peu près je n'ai retenu que le sens de la chose...)... L'on se retrouve à traiter les données at their face value.

-- Oui. Exemple, Sarkozy qui tient un langage "de gauche" (les travailleurs etc.). Cela contribue peut-être à un peu de rapprochement avec Royal. Mais il est quasi impossible que tout son vocabulaire soit calqué sur celui de Royal. Le raisonnement est de nature statistique.

18 avril, 2007 21:11  
Anonymous Leila a écrit...

Merci de toutes ces réponses ! Travail vraiment intéressant. Avez-vous mentionné quelque part le nombre de textes traités ? (j'avoue que je ne suis votre blog que depuis peu mais si les combinaisons sont de 20 000, le chiffre ne doit pas être très élevé ? calcul mou entre 2 zapnet). Soit dit en passant, la citation du renard était de Bayrou sur Canal +, d'où ma remarque sur les proximités intentionnelles... Je ne m'étais pas interrogée sur Sarkozy mais c'est logique dans ce cadre théamtique. D'ailleurs, faites-vous aussi des traitements statistiques (type ACP ou autre) sur des sous-ensembles thématiques ? Cela pose des problèmes d'extraction intéressants mais peut-être peu gérables par machine.

18 avril, 2007 21:32  
Blogger Jean Véronis a écrit...

Le calcul a porté sur 184 textes.

Oui, je travaille aussi avec des ACP (analyse en composantes principales) et AFC (analyse factorielle des correspondances) -- je précise les sigles pour les autres lecteurs. Mais je n'en parle pas ici parce que ça me paraît difficilement lisible par des non-experts. On peut faire un tas de conclusions erronées si on ne comprend pas vraiment la méthode (et elle est assez compliquée à exposer à un grand public).

Ca ne pose pas de problèmes de calcul sur des corpus de ce type (qui ne sont quand même pas gigansteques).

18 avril, 2007 21:40  
Blogger b e n o i t a écrit...

Et Dominique Voynet qui se trouve représentée au plus près des racines de l'arbre... Joli symbole vert !

19 avril, 2007 00:24  
Anonymous Blanc Cassis a écrit...

Bravo pour vôtre blog !
Le choc des mots :)
Cette science ne m'était pas familière, merci de me la faire découvrir.

19 avril, 2007 06:50  
Anonymous lds a écrit...

Il serait intéressant de connaître le vocabulaire commun à tous les candidats, celui qui est présent dans tous les discours, mais également le vocabulaire spécifique à un candidat ou à un discours (les mots qu'on ne trouve qu'une fois). On pourrait en faisant le rapport des 2, évaluer une certaine "originalité" du discours.
PS : Vos programmes perso. sont ils disponibles quelque part ?

19 avril, 2007 08:30  
Anonymous Stephane a écrit...

Jolie coquille dans votre commentaire, Jean : "gigansteque" ... ça me donne faim !

19 avril, 2007 10:26  
Blogger Jean Véronis a écrit...

Ah, c'est vache...

19 avril, 2007 10:30  
Anonymous Sigwan a écrit...

Je ne sais pas jusqu'à quel point c'est possible, mais il serait intéressant d'avoir une vision sous la même forme du programme des candidats (par le biais de leurs "livres", de leurs profession de foi...) et de placer cela en parallèle des discours.
Cela permettrait sans doute de montrer à quel point les discours des candidats peuvent en être éloignés. Je vise surtout Sarkozy et Le Pen.
Peut-être le matériel est-il insuffisant en quantité ?

19 avril, 2007 18:27  

Enregistrer un commentaire