2007: L'arbre des candidats
Vous aviez aimé cet automne mon arbre des politiques, basé sur la proximité qu'ils entretenaient dans les articles de presse (voir ici et ici). Depuis, quelques feuilles sont tombées... Mais ceux qui restent ont beaucoup parlé. Voici donc l'arbre des candidats, basé non plus cette fois sur les citations dans la presse, mais sur l'analyse lexicale de leurs discours (vous noterez que certains candidats sont absents, car je n'arrive pas à avoir leurs discours).
Les proximités dans l'arbre reflètent la plus ou moins grande similitude du vocabulaire utilisé par les différents candidats. On note que Voynet et Le Pen apparaissent sur des branches isolées : leur discours, chacun dans son genre, ne ressemble vraiment à aucun autre... Buffet et Laguiller sont proches : ce n'est sans doute pas étonnant. Sarkozy, Royal et Bayrou apparaissent sur la même branche, mais les plus proches l'un de l'autre sont Royal et Bayou. Intéressant, n'est-ce pas ? Et sans doute à mettre en relation avec les récents appels de Rocard, Kouchner et d'autres à une reconfiguration du paysage politique français...
Un peu de technique, pour vous expliquer comment l'arbre a été obtenu. Pour chaque paire de discours, j'ai calculé une distance, appelée distance intertextuelle, qui reflète la proximité de vocabulaire entre les deux textes. Il y a de multiples façons de calculer une distance lexicale entre deux textes : si vous êtes intéressé par plus de détails, vous pourrez consulter avec profit le numéro 3 de la revue Corpus (en ligne) entièrement consacré au sujet. En ce qui me concerne, comme j'ai toujours pour principe d'essayer les choses les plus simples avant de passer aux choses compliquées, j'utilise la distance proposée par mon collègue et ami Etienne Brunet (voir article ici).
Prenons deux textes A et B. On fait la liste des mots de A, celle des mots de B. Il y a des mots qui sont communs et des mots qui n'appartiennent qu'à l'un ou à l'autre des deux textes (son vocabulaire exclusif) :
Le rapport entre le taille du vocabulaire exclusif de chaque texte à celle de son vocabulaire total, ( A - AB ) / A par exemple, donne une bonne idée de la spécificité lexicale du texte. Ce rapport est égal à 0 si tout le vocabulaire de A est inclus dans B, et à 1 s'il est complètement disjoint de B. Si on fait la même chose du côté de A et du côté de B, on obtient la distance suivante (je divise par 2 juste pour avoir un indice entre 0 et 1 ) :
Par exemple, entre le discours de Nicolas Sarkozy à la porte de Versailles le 11 janvier et celui de Ségolène Royal à Villepinte le 11 février, on trouve une distance de 0,62. Il suffit de faire la moyenne entre toutes les paires de discours Royal/Sarkozy, et on obtient une distance moyenne Royal/Sarkozy de 0,66. En faisant ça pour tous les candidats, on obtient une «matrice de distances», qu'on peut ensuite transformer en arbre avec des méthodes analogues à celles qu'utilisent les biologistes pour représenter les parentés entre organismes vivants à partir des séquences d'ADN (arbre phylogénétique) (mais qui ont été proposées depuis bien longtemps en analyse lexicométrique, voir référence ci-dessous). J'utilise à nouveau la méthode de classification UPGMA et le logiciel SplitsTree (voir ici).
*
* *
* *
Un peu de technique, pour vous expliquer comment l'arbre a été obtenu. Pour chaque paire de discours, j'ai calculé une distance, appelée distance intertextuelle, qui reflète la proximité de vocabulaire entre les deux textes. Il y a de multiples façons de calculer une distance lexicale entre deux textes : si vous êtes intéressé par plus de détails, vous pourrez consulter avec profit le numéro 3 de la revue Corpus (en ligne) entièrement consacré au sujet. En ce qui me concerne, comme j'ai toujours pour principe d'essayer les choses les plus simples avant de passer aux choses compliquées, j'utilise la distance proposée par mon collègue et ami Etienne Brunet (voir article ici).
Prenons deux textes A et B. On fait la liste des mots de A, celle des mots de B. Il y a des mots qui sont communs et des mots qui n'appartiennent qu'à l'un ou à l'autre des deux textes (son vocabulaire exclusif) :
Le rapport entre le taille du vocabulaire exclusif de chaque texte à celle de son vocabulaire total, ( A - AB ) / A par exemple, donne une bonne idée de la spécificité lexicale du texte. Ce rapport est égal à 0 si tout le vocabulaire de A est inclus dans B, et à 1 s'il est complètement disjoint de B. Si on fait la même chose du côté de A et du côté de B, on obtient la distance suivante (je divise par 2 juste pour avoir un indice entre 0 et 1 ) :
d = ( (A-AB)/A + (B-AB)/B ) / 2
Par exemple, entre le discours de Nicolas Sarkozy à la porte de Versailles le 11 janvier et celui de Ségolène Royal à Villepinte le 11 février, on trouve une distance de 0,62. Il suffit de faire la moyenne entre toutes les paires de discours Royal/Sarkozy, et on obtient une distance moyenne Royal/Sarkozy de 0,66. En faisant ça pour tous les candidats, on obtient une «matrice de distances», qu'on peut ensuite transformer en arbre avec des méthodes analogues à celles qu'utilisent les biologistes pour représenter les parentés entre organismes vivants à partir des séquences d'ADN (arbre phylogénétique) (mais qui ont été proposées depuis bien longtemps en analyse lexicométrique, voir référence ci-dessous). J'utilise à nouveau la méthode de classification UPGMA et le logiciel SplitsTree (voir ici).
Pour en savoir plus
- Étienne Brunet, « Peut-on mesurer la distance entre deux textes ? », Corpus, Numero 2 La distance intertextuelle - décembre 2003, mis en ligne le 15 décembre 2004: http://corpus.revues.org/document30.html
- Barthélémy J.-P. & Luong X. (1987). « Sur la topologie d’un arbre phylogénétique : aspects théoriques, algorithmes et applications à l’analyse des données textuelles », Mathématiques et Sciences humaines, 100 : 57-80.
- Numéro spécial de la revue Corpus. La distance intertextuelle. En ligne : http://corpus.revues.org/sommaire52.html
Libellés : Politique
30 Commentaires:
Jean,
as tu eu l'occasion de voir les résultats du baromètre 'buzz' de 20minutes, basé sur les données du moteur de recherche d'actualité Wikio ?
http://www.20minutes.fr/barometre-2007.php
A mettre en rapprochement avec ta page Presse 2007, ca se recoupe ?
Oui, intéressant ! Comme le reste de votre travail, et je vous remercie de l'exposer sur ce blog. Mais rien d'étonnant dans cette proximité des discours. Royal n'est pas spécialement de gauche (c'est pas moi qui le dis, c'est Bourdieu !) On l'imaginerait même sur la même branche (et pas sous-branche tel que l'arbre le montre) que Bayrou et Sarkozy. Bon vote dimanche et croisons les doigts...
PS : pour la "vérification des mots", pourquoi devoir taper 8 caractères !? 3 ne suffiraient-ils pas?
Anonyme> Oui ça se recoupe tout à fait, merci pour le lien !
Dolgo> Ou alors Bayrou est plus à gauche qu'on ne pense ;-)
Pour la vérification des mots, je n'ai évidemment pas la maîtrise de la chose (et je trouve ça assez pénible)...
En pratique, vous faites la liste des mots des discours, puis comptez le nombre de mots différents, et le nombre de mots communs, c'est cela ? Faut il faire cela manuellement ?
Cette méthode ne tient pas compte des répétitions ?
En tout cas, merci de nous faire partager votre travail.
J'aii mal a interpreter la partie basse. Est-ce que ca signifie que Voynet est plus proche de Le Pen que de Royal ? Elle ne mérite variment pas ça, alors j'espère me tromper.
Gilles
Lds> En pratique, vous faites la liste des mots des discours, puis comptez le nombre de mots différents, et le nombre de mots communs, c'est cela ?
-- oui
Faut il faire cela manuellement ?
-- Non! Ma base frise le million de mots !
Cette méthode ne tient pas compte des répétitions ?
-- Non. Un mot présent = 1 point.
Comme je le dis dans le billet, il y a des méthodes bien plus compliquées, mais celle-ci n'est pas si mauvaise...
En tout cas, merci de nous faire partager votre travail.
-- De rien, c'est le but de ce blog !
Gilles> Non, c'est une illusion d'optique. La branche Voynet bifurque très tôt parce qu'elle est semblable à aucune autre. En fait, il faut voir trois grandes branches : Voynet, Le Pen, et tous les autres.
Une chose amusante: Voynet est plus proche de Bayrou que de Royal (en termes de mots utilisés, s'entend). Il faut dire que Bayrou a plusieurs discours très écolos (par exemple c'est lui qui parle le plus du climat). Influence de Corinne Lepage, qui l'a rejoint ? Voyez ici. Il faudrait que je fasse un billet sur ça, tiens...
Je m'en doutais un peu :) alors vous utilisez quoi comme programme ?
Lds> Ce sont des programmes que j'ai développés moi-même (sauf SplitTree pour la représentation en arbre).
Bonjour,
utilisez vous les verbes et noms lemmatisés ?
Non, pas de lemmatisation. Come Brunet le montre, ça ne change pas grand-chose...
Je voulais tout simplement vous remercier pour votre blog qui je l'espère fera un peu mieux connaitre les sciences du langage, discipline qui m'a longtemps bercé durant mes années d'études ! !
Et qui je l'espère un jour sera reconnu un peu plus qu'actuellement, en dehors de la recherche !
Cordialement
Anonyme> Merci de votre mot ! Tout ce qui touche au langage intéresse énormément les gens. Je crois que le problème est que la linguistique est devenue un peu vieillote et poussièreuse. Mais, comme dirait un candidat, je sens que les lignes bougent... ;-)
Ah ! ! si ceci pouvait être vrai et qu'on puisse enfin appliquer ces connaissances et cette science au monde du travail (qui en a plus que besoin) je serai la personne la plus heureuse au monde (enfin peut être pas non plus), mais il est vrai que c'est un univers qui m'a passionnée et un peu "déconnectée" il faut l'avouer !
Quelle chance admirable vous avez de pouvoir vivre et travailler des "arts du langage" !
Profitez en !
bonjour Jean. dans un tout autre genre je me suis également livré à un (léger) exercice de comparaisons des candidats mais à propos de l'adresse de leurs sites Internet : http://thomas-fourdin.net/blog/index.php?post/2007/04/12/13-les-noms-de-domaines-de-la-presidentielle-2007
et en lisant les commentaires, je m'aperçois que le premier mentionne l'indice de buzz de 20minutes que j'ai aidé à réaliser et j'avoue que Presse 2007 faisait partie de nos premières sources d'inspiration, heureux que ça concorde :)
et encore merci pour la lecture, javoue j'avais fini par me lasser des comtpes Google mais pas des discours d'analyses de la Présidentielle, quels nouveaux sujets de prévu pour dans 3 semaines ?
Intéressant, même si le discours ne fait plus l'homme , sinon le nègre.
Jouez avec le temps, croisez votre arbrisseau avec certains gros chênes, de gaulle et ses discours par exemple...
Si j'ai deux discours opposes :
j'aime le chocolat.
je n'aime pas le chocolat.
leur distance varie-t'elle suffisament ? Et avez-vous un moyen d'extraire automatiquement les points de discordances ? Ce qui serait bien pratique pour faire des analyses comparatives.
Antoine
Anonyme> L'analyse lexicométrique ne peut fonctionner que sur de grandes masses de textes, pas sur des phrases isolées. Il est vrai que les mêmes mots peuvent renvoyer à des discours opposés sur de très cours extraits, mais sur la totalité des discours des candidats, il serait bien étonnant, n'est-ce pas, qu'ils choisissent exactement les mêmes milliers de mots pour dire exactement l'inverse les uns des autres...
Représentation graphique intéressantes. Vous parlez de paires : testez-vous toutes les combinaisons ? si non, lesquelles faites-vous figurer ? N'y a-t-il pas occasionnellement plus de distance entre 2 discours d'un même candidat qu'entre, mettons, Royal et Bayrou ? Enfin l'étude du langage n'approche bien sûr pas son intentionnalité. Pourtant si l'un emprunte en conscience le registre de l'autre, (comme il l'a dit sur Canal + en citant comme "proverbe" le renard qui s'affuble de plumes ne devient pas un plumes (à peu près je n'ai retenu que le sens de la chose...)... L'on se retrouve à traiter les données at their face value.
Oops il fallait lire poule pour plumes etc.
Leila>
Vous parlez de paires : testez-vous toutes les combinaisons ?
-- Oui. Ca en fait un paquet, pas loin de 20 000, mais c'est l'ordinateur qui travaille.
N'y a-t-il pas occasionnellement plus de distance entre 2 discours d'un même candidat qu'entre, mettons, Royal et Bayrou ?
-- Si. Il y a par exemple des discours sur les mêmes thématiques (par exemple, devant la fondation Hulot). C'est pour ça que je prends la moyenne sur toutes les paires.
Enfin l'étude du langage n'approche bien sûr pas son intentionnalité. Pourtant si l'un emprunte en conscience le registre de l'autre, (comme il l'a dit sur Canal + en citant comme "proverbe" le renard qui s'affuble de plumes ne devient pas un plumes (à peu près je n'ai retenu que le sens de la chose...)... L'on se retrouve à traiter les données at their face value.
-- Oui. Exemple, Sarkozy qui tient un langage "de gauche" (les travailleurs etc.). Cela contribue peut-être à un peu de rapprochement avec Royal. Mais il est quasi impossible que tout son vocabulaire soit calqué sur celui de Royal. Le raisonnement est de nature statistique.
Merci de toutes ces réponses ! Travail vraiment intéressant. Avez-vous mentionné quelque part le nombre de textes traités ? (j'avoue que je ne suis votre blog que depuis peu mais si les combinaisons sont de 20 000, le chiffre ne doit pas être très élevé ? calcul mou entre 2 zapnet). Soit dit en passant, la citation du renard était de Bayrou sur Canal +, d'où ma remarque sur les proximités intentionnelles... Je ne m'étais pas interrogée sur Sarkozy mais c'est logique dans ce cadre théamtique. D'ailleurs, faites-vous aussi des traitements statistiques (type ACP ou autre) sur des sous-ensembles thématiques ? Cela pose des problèmes d'extraction intéressants mais peut-être peu gérables par machine.
Le calcul a porté sur 184 textes.
Oui, je travaille aussi avec des ACP (analyse en composantes principales) et AFC (analyse factorielle des correspondances) -- je précise les sigles pour les autres lecteurs. Mais je n'en parle pas ici parce que ça me paraît difficilement lisible par des non-experts. On peut faire un tas de conclusions erronées si on ne comprend pas vraiment la méthode (et elle est assez compliquée à exposer à un grand public).
Ca ne pose pas de problèmes de calcul sur des corpus de ce type (qui ne sont quand même pas gigansteques).
Et Dominique Voynet qui se trouve représentée au plus près des racines de l'arbre... Joli symbole vert !
Bravo pour vôtre blog !
Le choc des mots :)
Cette science ne m'était pas familière, merci de me la faire découvrir.
Il serait intéressant de connaître le vocabulaire commun à tous les candidats, celui qui est présent dans tous les discours, mais également le vocabulaire spécifique à un candidat ou à un discours (les mots qu'on ne trouve qu'une fois). On pourrait en faisant le rapport des 2, évaluer une certaine "originalité" du discours.
PS : Vos programmes perso. sont ils disponibles quelque part ?
Jolie coquille dans votre commentaire, Jean : "gigansteque" ... ça me donne faim !
Ah, c'est vache...
Je ne sais pas jusqu'à quel point c'est possible, mais il serait intéressant d'avoir une vision sous la même forme du programme des candidats (par le biais de leurs "livres", de leurs profession de foi...) et de placer cela en parallèle des discours.
Cela permettrait sans doute de montrer à quel point les discours des candidats peuvent en être éloignés. Je vise surtout Sarkozy et Le Pen.
Peut-être le matériel est-il insuffisant en quantité ?
Enregistrer un commentaire