2007: Cartes de campagne
Vous m'avez demandé à de multiples reprises (encore Leila, récemment) des cartes lexicales ou thématiques, telles qu'on peut les produire avec des analyses factorielles. J'ai quelques réticences sur ce mode de représentation, qui peut créer des illusions d'optique. Mais elles ne sont peut être pas si graves finalement : tout mode de représentation, y compris les arbres que j'ai utilisés récemment, les nuages de mots, ou même un simple diagramme en bâtons, demande une certaine habitude de lecture et certaines précautions.
Alors, voilà. Quelques petites cartes pour la fin du parcours (encore que ce soit plutôt une dernière ligne droite, pas trop difficile du point de vue de l'itinéraire : voulez-vous Sarkozy pour cinq ans ou pas ? Mais bon...). Elles ont été produites avec le logiciel Sphinx à partir des discours de ma base (Discours 2007). C'est un très bon logiciel, bien qu'un poil cher, mais il y a une version étudiant à 45 € (hélas, il ne tourne que sous Windows).
Première carte : A chacun sa manière. L'utilisation des pronoms par les quatre grands candidats.
Je ne peux vous expliquer en quelques mots comment on produit ce genre de cartes. La méthode utilisée s'appelle analyse factorielle des correspondances (AFC), et demande tout de même un raisonnement mathématique assez complexe. Disons qu'en gros, on part d'un tableau de fréquences avec les mots en lignes et les candidats en colonnes, et que l'on bidouille tout ça pour en faire quelque chose de représentable dans un plan... Une très bonne introduction se trouve dans le livre de mes amis Ludovic Lebart et André Salem, Statistique textuelle, maintenant épuisé, mais gratuitement téléchargeable ici (voir chapitre 3).
La carte ci-dessus est assez intuitive. Elle nous montre que Sarkozy a tendance à utiliser je, Royal vous et que Bayrou et Le Pen sont dans le nous. Ça confirme et permet de visualiser de façon intéressante des observations que j'ai déjà faites (par exemple ici). Les petits traits pointillés indiquent les associations particulièrement fortes.
Deuxième carte : La France et les Français selon les candidats. Les mots qu'ils emploient pour parler de la France (en rose) et pour parler des Français (en jaune). On retrouve des choses que j'ai déjà montrées dans mes nuages : Bayrou = le pays, Sarkozy : la République, etc. Mais c'est vrai que cette synthèse sous forme de carte est saisissante.
Troisième carte : Les grandes idées selon les candidats.
Ça ne vous étonnera pas que Le Pen soit associé à immigration, je suppose... Mais attention tout de même aux interprétations, comme toujours. Lorsque Sarkozy utilise le mot culture, c'est parfois la culture de la drogue, la culture des bandes, ou la culture ouvrière dans sa phrase néo-trotkyste... Il faut toujours retourner aux données (et c'est pour ça que ma base est là ).
Le reste de l'étude est ici (merci à Boris Moscarola et à l'équipe de Sphinx).
Alors, voilà. Quelques petites cartes pour la fin du parcours (encore que ce soit plutôt une dernière ligne droite, pas trop difficile du point de vue de l'itinéraire : voulez-vous Sarkozy pour cinq ans ou pas ? Mais bon...). Elles ont été produites avec le logiciel Sphinx à partir des discours de ma base (Discours 2007). C'est un très bon logiciel, bien qu'un poil cher, mais il y a une version étudiant à 45 € (hélas, il ne tourne que sous Windows).
Première carte : A chacun sa manière. L'utilisation des pronoms par les quatre grands candidats.
Je ne peux vous expliquer en quelques mots comment on produit ce genre de cartes. La méthode utilisée s'appelle analyse factorielle des correspondances (AFC), et demande tout de même un raisonnement mathématique assez complexe. Disons qu'en gros, on part d'un tableau de fréquences avec les mots en lignes et les candidats en colonnes, et que l'on bidouille tout ça pour en faire quelque chose de représentable dans un plan... Une très bonne introduction se trouve dans le livre de mes amis Ludovic Lebart et André Salem, Statistique textuelle, maintenant épuisé, mais gratuitement téléchargeable ici (voir chapitre 3).
La carte ci-dessus est assez intuitive. Elle nous montre que Sarkozy a tendance à utiliser je, Royal vous et que Bayrou et Le Pen sont dans le nous. Ça confirme et permet de visualiser de façon intéressante des observations que j'ai déjà faites (par exemple ici). Les petits traits pointillés indiquent les associations particulièrement fortes.
Deuxième carte : La France et les Français selon les candidats. Les mots qu'ils emploient pour parler de la France (en rose) et pour parler des Français (en jaune). On retrouve des choses que j'ai déjà montrées dans mes nuages : Bayrou = le pays, Sarkozy : la République, etc. Mais c'est vrai que cette synthèse sous forme de carte est saisissante.
Troisième carte : Les grandes idées selon les candidats.
Ça ne vous étonnera pas que Le Pen soit associé à immigration, je suppose... Mais attention tout de même aux interprétations, comme toujours. Lorsque Sarkozy utilise le mot culture, c'est parfois la culture de la drogue, la culture des bandes, ou la culture ouvrière dans sa phrase néo-trotkyste... Il faut toujours retourner aux données (et c'est pour ça que ma base est là ).
Le reste de l'étude est ici (merci à Boris Moscarola et à l'équipe de Sphinx).
Pour en savoir plus
Lebart, L. & Salem, A. (1994). Statistique Textuelle, Dunod, 344 p. [Epuisé, mais gratuitement téléchargeable ici.]Libellés : Politique
13 Commentaires:
il y a le langage et les non-dits qui sont tout aussi évocateurs : http://poly-tics.over-blog.com/
Vous me voyez absolument ravie ! Je me rappelle du temps où je reportais à la colle UHU les étiquettes des mots selon leurs coordonnées, dans l'à peu près technique absolu... Sphinx and cie c'est bien. Pour vos graphiques (français et idées) avez-vous retenu les mots aux occurrences les plus élevées ? A partir de quelle fréquence ? etc, etc.
J'aime beaucoup les axes du moi/axe d'autrui... Le plus intrigant reste l'axe des français à 60% (pas de titre traduisant les contributions principales ? euh... France égale travailleurs masculins ?) Et mon préféré reste le plus difficile, mais on ne résiste pas à l'opposition raison/autorité ! Encore bravo.
C'est joli, ca donne de bons résultats, mais pouf pouf, c'est compliqué à lire... Jpréférais les zolis zarbres :)
Menfin soit, merci pour l'éclairage linguistique sur la campagne, et merci pour l'éclairage linguistique en général!
Désolée, je n'avais pas vu le petit ici...
Leila> Ben voilà, tout y est expliqué...
De cartes de campagne à Discours recyclé, tout est passionnant. Une vraie leçon (à vous réconcilier avec l'Education Nationale!). J'avais lu dans votre livre d'entretien avec Bayrou sa réponse au pistage un peu simple du terme "écologie": en ayant discuté avec ma fille de 16 ans que j'incite à lire vos analyses (assez ludiques qui + est) nous étions convenus qu'on pouvait parler profondément écologie sans citer le mot une seule fois (et que cela pouvait se tester). La réponse de Bayrou est presque un argument suffisant à voter pour lui..
Pourriez-vous nous dire si Bayrou est le seul à citer des poèmes dans es interventions (j'en ai l'impression) ou nous révéler (liste, fréquence, que sais-je) ce/ceux que les candidats citent (y compris le rapport entre 'auteuses' et 'auteurs' -Bayrou me paraît qd même assez 'masculin' dans ses citations: mais comme pour Ecologie on peut ne citer que des hommes et splendidement parler de/à la femme...)
Un dernier mot: cela fait longtemps qu'un collègue et moi souhaitons analyser le discours des archéologues du midi méditerranéen. Pour ma part cela passe par une analyse lexico: organisez-vous des stages ou sessions de formation.
Merci mêm si cette réponse est non.
Bonjour,
L'afc pour les nuls de Rémi Bachelet est trop élliptique pour être réellement compris par des "nuls". Pourquoi ne pas recommander le livre "Statistique textuelle" de Lebart et Salem. Il est épuisé en librairie mais téléchargeable sur le site Ludovic Lebart (http://egsh.enst.fr/lebart/) voir publications.
Recommandé, chaudement.
jc deroubaix> Oui, c'est un excellent livre, et j'ai beaucoup d'amitié pour ces Ludovic Lebart et André Salem. j'ai été tellement "fan" de leur live à sa sortie que je leur ai proposé de publier sa traduction dans ma collection chez Kluwer Academic Publishers. Et vous m'aprennez que la version française est désormais téléchargeable. Fantastique. Je change mon texte !!!
Un grand merci.
Archeo> Merci pour tous ces compliments! J'en rougis (mais ça fait plaisir)... Je vais regarder cette histoie de poèmes (mais ce n'est pas très facile parce que le "corpus" fait près d'un million de mots et il n'y a rien qui indique particulièrement qu'il s'agit d'un poème...).
Pour ce qui est de la formation en lexico, je n'avais jamais pensé à organiser des stages! Il faudrait voir quelle est la demande. Ce serait marrant de faire un genre d'école d'été sur le thème, par exemple une journée en marge d'une conférence...
Sans rentrer dans le détail, je dirais qu'une AFC effectue un classement des phrases qui utilisent à peu près le même vocabulaire. à l'utilisateur de rendre le texte plus explicite en identifiant les auteurs des textes, et à restreindre les éléments présentés à des mots particuliers des textes analysés tq les pronom personnels, et étendre le vocabulaire en utilisant de la lemmatisation (cf. articles précédants). Sans être partie prenante, mais pour avoir succomber aux charmes de ce type de logiciels, vous pouvez trouver un outil remarquable Alceste de Max Reinert, le diffuseur organise des formations durant l'année et une école d'été.
Encore bravo pour votre regard, et merci cette discussion-vulgarisation scientifique, et vos très précieuses bases avec leurs outils.
Philippe> Je précise que le corpus a été lemmatisé pour l'obtention de ces cartes.
Oui, Alceste est intéressant aussi. Infos ici.
Grosso modo, ces trois graphes corroborent l'intuition de ce qui m'a séduit chez Bayrou. Comme Le Pen, il parle "peuple" au peuple, mais il ne lui dit pas la même chose.
Une autre intuition : les discours de Bayrou sont truffés de références bibliques (plus ou moins approximatives)
Juste une petite question: comment se lisent ces cartes?
Que signifient les axes, et leurs pourcentages associés?
Enregistrer un commentaire