Texte: Mesurer l'anaphore (2)
Dans la première partie de ce billet, je vous ai montré comment on pouvait mesurer grossièrement la quantité d'anaphores dans les textes. Je vais essayer de vous montrer ici comment on peut se servir de cet indice pour retrouver les plumes cachées derrière les discours.
Si l'on prend tous les discours de Nicolas Sarkozy (54 au total dans ma base), il s'agit de les séparer en deux groupes : ceux qui contiennent beaucoup d'anaphores et ceux qui n'en contiennent guère. En d'autres termes, il s'agit de déterminer la valeur de mon indice (proportion de trigrammes initiaux uniques), qui opère la meilleure partition. On peut bien sûr opérer «au pif», mais on peut être légèrement plus subtil, et utiliser des méthodes (simples) de classification automatique. Une façon de faire basique est de chercher la valeur de l’indice qui minimise la variance totale. Ouf… C’est un peu technique, si vous décrochez vous pouvez sauter directement quelques paragraphes.
Donc voilà, pour ceux qui n’ont pas eu peur, et qui sont restés en ligne, le diagramme ci-dessous montre la variance totale des deux groupes obtenus en mettant un point de coupure aux différents endroits possibles entre 0 et 100% :
Le meilleur point de coupure est à 72%.
Il suffit d’appliquer ça aux différents discours, et l’on obtient deux groupes :
On peut faire l’hypothèse qu’Henri Guaino est largement responsable des discours du groupe « Sarkozy 2 », qui possèdent moins de 72% de trigrammes initiaux uniques. Voyons ça de plus près.
Dans le tableau ci-dessous, j’ai mis en rouge les discours du groupe « Sarkozy 2 ».
On voit que d’une façon générale, les discours de « Sarkozy 2 » sont les discours généraux prononcés dans les différentes villes de France, dont les grands discours de Périgueux, de la Porte de Versailles, du Zénith, etc., alors que les discours de « Sarkozy 1 » sont les discours sur des thématiques particulières (l’agriculture, la défense, etc.). Cette classification, obtenue automatiquement avec des moyens très simples est donc cohérente avec ce qu’on sait d’Henri Guaino : c’est lui qui écrit les discours de politique générale, et d’autres plumes (dont sans doute Emmanuelle Mignon) écrivent les discours sur des thématiques spécialisées. On remarquera que le discours du 22/03 à la Guadeloupe est un discours spécialisé, sur les problématiques particulières de ce département et il est logique qu’il n’ait pas été écrit par Henri Guaino.
Deux discours sont un peu problématiques, et montrent peut-être la limite de mon indice :
Si l'on prend tous les discours de Nicolas Sarkozy (54 au total dans ma base), il s'agit de les séparer en deux groupes : ceux qui contiennent beaucoup d'anaphores et ceux qui n'en contiennent guère. En d'autres termes, il s'agit de déterminer la valeur de mon indice (proportion de trigrammes initiaux uniques), qui opère la meilleure partition. On peut bien sûr opérer «au pif», mais on peut être légèrement plus subtil, et utiliser des méthodes (simples) de classification automatique. Une façon de faire basique est de chercher la valeur de l’indice qui minimise la variance totale. Ouf… C’est un peu technique, si vous décrochez vous pouvez sauter directement quelques paragraphes.
Donc voilà, pour ceux qui n’ont pas eu peur, et qui sont restés en ligne, le diagramme ci-dessous montre la variance totale des deux groupes obtenus en mettant un point de coupure aux différents endroits possibles entre 0 et 100% :
Le meilleur point de coupure est à 72%.
Il suffit d’appliquer ça aux différents discours, et l’on obtient deux groupes :
On peut faire l’hypothèse qu’Henri Guaino est largement responsable des discours du groupe « Sarkozy 2 », qui possèdent moins de 72% de trigrammes initiaux uniques. Voyons ça de plus près.
Dans le tableau ci-dessous, j’ai mis en rouge les discours du groupe « Sarkozy 2 ».
On voit que d’une façon générale, les discours de « Sarkozy 2 » sont les discours généraux prononcés dans les différentes villes de France, dont les grands discours de Périgueux, de la Porte de Versailles, du Zénith, etc., alors que les discours de « Sarkozy 1 » sont les discours sur des thématiques particulières (l’agriculture, la défense, etc.). Cette classification, obtenue automatiquement avec des moyens très simples est donc cohérente avec ce qu’on sait d’Henri Guaino : c’est lui qui écrit les discours de politique générale, et d’autres plumes (dont sans doute Emmanuelle Mignon) écrivent les discours sur des thématiques spécialisées. On remarquera que le discours du 22/03 à la Guadeloupe est un discours spécialisé, sur les problématiques particulières de ce département et il est logique qu’il n’ait pas été écrit par Henri Guaino.
Deux discours sont un peu problématiques, et montrent peut-être la limite de mon indice :
- Le discours du soir du premier tour est catégorisé comme n’étant pas de la main d’Henri Guaino. Il est un peu à la limite (74%), mais en même temps, c’est un texte très court, et il est probable que mon indice doive demander un correctif par rapport à la taille. D’autre part, il est aussi possible que Nicolas Sarkozy ait largement ou totalement écrit de sa main ce discours particulièrement important, mais très bref.
- Le discours de la rencontre « Femmes et égalité des chances » à la Mutualité le 06/04 est donné comme étant probablement du Guaino, bien qu’il soit relativement spécialisé. En fait, en y regardant bien, tout une partie du discours développe la thématique standard de Sarkozy (le travail, l’école, etc.), et utilise effectivement la rhétorique Guaino : « C’est pourquoi je veux une école sans portable, sans cigarette et sans casquette. Une école où… Une école qui… » etc. Il est donc probable que Guaino soit malgré tout derrière ce discours, au moins en partie.
Lire la suite
24 Commentaires:
Une limite aussi, c'est qu'après une si longue campagne commune des deux hommes, Sarko ait fini par aimer les anaphores, pour en remettre dans des discours à lui
Oui, un mimétisme est tout à fait possible !
PS: et un mimétisme des candidats entre eux est aussi tout à fait possible. J'ai été frappé de constater que Bayrou, qui était assez sobre en la matière au début de sa campagne, s'est mis à faire de l'anaphore en fin de campagne, particulièrement dans son discours au Zénith...
Analyse magistrale !
Bientôt Jean Veronis dans "Les experts", où comment la police scientifique pourra déterminer le commanditaire du meurtre en analysant le nombre d'anaphores qu'utilise le suspect...
Question HS : à quand une analyse du mot "logiciel" ? mot employé à tout va en ce moment.
Maxime> Les analyses de ce type sont déjà utilisées par "certains services"...
Oui, j'ai repéré ce mot "logiciel" et j'ai essayé de le "tracer", mais ce n'est pas si facile. Pour l'instant je vois surtout son utilisation dans un contexte socialiste: changer le logiciel socialiste, actualiser le logiciel socialiste, etc. Ma conclusion temporaire est que c'est Ségo herself qui a relancé l'expression ces derniers temps. Elle est dans livre "Maintenant": Elle propose "trops révolutions de front : une femme à la tête de la République (...), une actualisation du logiciel socialiste et une transformation radicale de la manière de faire de la politique".
Mais l'expression est plus ancienne. En 2002, les socialistes en parlaient déjà (Fabius, Vals, DSK). Et en 1999 (!) JP Chevènement voulait "incarner le logiciel républicain".
En tout cas, toutes les sources que je trouve tournent autour du logiciel socialiste — qui me semble un peu buggé si vous voulez mon avis...
un troisième contre exemple : Le premier meeting de Nicolas Sarkozy après sa désignation du 14 janvier est celui du 2 février à Maison Alfort. J'y étais. J'avais remarqué cette forme de figure rhétoricienne sans savoir comment on l'appelle.
Tu indiques que les discours en rouge, donc chargés en Anaphore, sont ceux de Henri Guaino et donc de politique générale. Cependant, le discours de 8 pages de Maison Alfort est 100% centré sur l'éducation, l'école, la formation. Or, son taux d'anaphore est sans conteste haut (tu l'indiques par ton algo, je me permets de le confirmer par ma lecture :
court extrait :
[...]
Nous savons tous qu’elle [...].
Nous savons tous qu’elle [...].
Nous savons tous qu’elle [...].
Cette unité elle [...].
[...]
Elle est menacée par [...].
Elle est menacée par [...].
Elle est menacée par [...].
Elle est menacée par [...].
Elle est menacée par [...].
Derrière il y a le problème de l’éducation. Il y a le problème de la culture. Il y a le problème de l’école.
[...]
)
Tu trouveras ce discours ici (pdf) (comme dans ta base j'imagine)
Vicnent> Au oui, merci de signaler ça. En fait, la division thématique/non thématique n'est sans doute pas la bonne. Il y a des thèmes comme l'éducation sur lesquels Guaino est à l'aise. Car ce discours de Maisons-Alfort, c'est du 100% Guaino. A part l'anaphore omnipresénte, on y trouve toutes les références habituelles au personnage: le gaullisme, le communisme, la résistance, l'histoire et tutti quanti !
Brillante démonstration. A quand la base de données permettant d'identifier la plume d'un discours donné pour chaque homme politique important ?
Gromovar> Ah... c'est un beau rêve. Le pb n° 1 est déjà d'engranger tous les discours, et c'est du boulot !
> En tout cas, toutes les sources que je trouve tournent autour du logiciel socialiste — qui me semble un peu buggé si vous voulez mon avis...
J'avais aussi souvenir d'un utilisation par Michel Onfray à propos de Lutte Ouvrière. De fait : "Je me vois mal donner ma voix à la candidate de Lutte ouvrière, restée bloquée sur un logiciel des années 1920."
(http://contreinfo.info/article.php3?id_article=340)
Il est remarquable que l'expression ressorte chez Onfray au moment où, justement, il se met à prôner le "vote utile" : y a-t-il un lien ?
Guaino, président ! (ou : Rendons à César...)
@Gromovar : allons plus loin...
Le Logiciel (DontBeEvil) :
- "Bonjour, veuillez rentrer votre ADN-Code"
[griiiziiziiizz]
- "À quelle élection êtes vous candidat ?"
J'en sais rien, moi...
- "Toutes !"
[griiiziiziiizz]
DontBeEvil :
- "Vous êtes Mr Robert Maxwell. DontBeEvil vous propose, dans le cadre de la présidentielle de 2012 un discours de 11 pages pour 5412 € HT, pour les élections générales, un discours de 2 pages pour 2111 € HT, pour les municipales de 2008, un discours de 4 pages pour 4651 € HT : veuillez sélectionner votre choix. Le paiement sera prélevé automatiquement. DontBeEvil vous remercie et vous signale que votre risque de cancer du colon est actuellement à 13%, vous devriez consulter. Au revoir."
Bonjour,
entendu ce matin sur France inter : Nicolas Hulot parler du "logiciel écologiste"... On peut sans doute encore l'écouter en ligne.
Bonjour,
Juste un petit commentaire : il serait peut-être intéressant que vous puissiez, à un moment donné, publier un billet consacré aux procédures statistiques et aux outils utilisés pour réaliser vos analyses...
Je sais que les considérations méthodologiques sont souvent barbantes pour le grand public mais comme on dit : "sans méthodologie publiée, pas de réplication possible, sans réplication possible, pas de science..."
Merci à vous
Paul, qui aime la cuisine ;-)
Quel homme ce Jean Véronis alors !
J'ai toujours été épaté par votre utilisation de l'informatique mais la je suis sur le cul.
Encore bravo !
Ça me rappelle la belle époque où un certain Pierre Encrevé (éminent linguiste) était la plume enlevée d'un non moins certain Michel Rocard (premier ministre) ... Jean Véronis a de l'avenir ...
Anonyme> La méthodologie n'est pas très compliquée. Je l'explique à peu pès dans ce billet: on découpe en phrase, on prend les triplets de mots initiaux, on calcule la proportion de triplets uniques... Pas de quoi fouetter un chat. Je crois profondément dans les choses simples...
Clément> Vous êtes gentil. Tout cela n'est pas très compliqué. Je crois que le problème c'est que d'habitude les informaticiens ne s'intéressent pas beaucoup aux lettres (et vice-versa). Sinon, ce n'est rien de très compliqué...
Ldx> Tout sauf ça ! Je suis trop cynique. Ca ne marcherait pas...
A Jean Véronis
Le logiciel socialiste n'est peut-être pas trop buggé après tout, mais il s'agit d'une version qui avait été développée sous
MS DOS (et mise au point à l'ENA - promotion Voltaire 1980) et qu'ils essaient de faire tourner avec VISTA. Enfin, j'exagère un petit peu ... C'est mon côté méridional!
PS : sorry pour l'anachronisme - si j'en crois Google, MD DOS est apparu en 1981.
Jean> En tout cas, toutes les sources que je trouve tournent autour du logiciel socialiste
Moi je n'avais jamais entendu le mot hors de son sens informatique que dans les éditos de Claude Imbert dans Le Point qui en use et en abuse depuis des années. C'est presque aussi typique que l'anaphore pour Guaino ! Et cela concerne le plus souvent la marche de la société en général (voir quelques exemples sur http://www.lepoint.fr/search/recherche/resultats?keyword=%E9ditorial+imbert+logiciel).
Pourrait-on tenir là le "patient zéro" de la contagion ?
La montée récente du mot m'a frappé : j'y suis sans doute particulièrement sensible de par ma profession (je dois faire partie de ces quelques informaticiens sensibles aux lettres, vous étant resté fidèle après avoir été séduit par votre vista un soir d'hécatonchires).
Et ne soyez pas si modeste, si vos analyses aussi pertinentes qu'instructives ne demandent parfois que des statistiques élémentaires, vos outils prouvent l'étendue de vos talents ! Je suis personnellement bluffé par la dextérité avec laquelle vous associez linguistique et informatique.
Nono> Il faudrait cesser de croire que les linguistes ne manipulent que des mots et des dictionnaires, auj. ils savent parfaitement mettre à profit les outils informatiques pour offrir de belles analyses, il n'est que de voir, par exemple, ce que font la dialectométrie et la cladistique, pour ne citer que ces exemples. Sans parler des bases de données qui nous permettent de jongler sans complexe avec plus d'un million de data.
L’analyse est pro et dûment saluée. Je m’interroge toutefois -en toute naïveté- sur ce qui pourrait apparaître comme quelques points faibles (plutôt des points où le faire vite nous dépasse, où il se mue de créatif en ennemi du scientifique…). Je suis un lecteur lambda aucunement spécialiste, encore moins de lexico ou de stats complexes et par ailleurs je ne connais ni ce Guaino ni sa plume. Un tel lecteur se demande automatiquement d’où sort votre induction, ce recours à l’explication Gauino (données externes certes mais il doit y en avoir bien d’autres). En revanche, sans doute parce que travaillant dans les sciences humaines, je suis sensible à la validation. On a tout à fait le droit de supposer (hypothèse de travail) que la série Sarkozy 2 puisse correspondre à Guaino. Mais cela impose de valider l' hypothèse (« supposons que cela soit du à Guaino alors on devrait observer telle et telle caractéristique ») : la rigueur n’imposerait-elle pas alors comparer le nuage de points à celui que donneraient des textes (qui soient les plus proches du discours allocutaire) du fameux Guaino ?
Par ailleurs en approche intuitive, sur la seule configuration du nuage de points (pensant par ailleurs que les distributions en 2 classes bien séparées sont rares dans les phénomènes humains et qu’on doit toujours –dans le simple- tester au moins le ternaire) je me demande quasi automatiquement –devant la curieuse densité à droite, là où les 2 groupes se touchent à se fondre- si on n’aurait pas à faire à la superposition d’un 3è groupe (cf. mon image si elle passe).
Un tel 3è groupe pourrait alors, s’il était validé ou probable, correspondre à un 3è homme (Cannes n’est pas encore trop loin) dont la série de discours viendrait emprunter aux caractéristiques des 2 autres groupes. Ce 3è homme pourrait par hypothèse être (sinon une femme) d'abord Sarkozy lui-même, cette coalescence à la droite du nuage correspondant à des discours retouchés où sa patte augmenterait ou diminuerait la dose d’anaphore. Ce 3è homme pourrait aussi être virtuel : la pure résultante de retouches multiples qui auraient pour effet de lisser la dose d’anphore. Il me semble pour finir qu’une seconde procédure de validation devrait alors être envisagée, en 2 volets : A-examiner quelles anaphores caractérisent le groupe Sarko 1 et lesquelles caractérisent le groupe Sarko 2 (retour donc au qualitatif), B-examiner si la statistique lexicale (le comptage de mots en tant que signature possible d’un auteur) convalide Sarko 1 et Sarko 2 et s'il propose ou non un groupe Sarko 3… Suis-je sur la plaque ou complètement à côté ? Bien à vous.
Archéo> Merci pour ce long commentaire ! Vous avez raison : si je devais publier ce travail sous forme d'article scientifique, je complèterais l'étude. Mais le but ici est tout autre. Il est simplement pédagogique. Je devrais d'ailleurs écrire cela quelque part en exergue du blog : il ne s'agit pas de produire des résultats définitifs (hmm... de toute façon, la science en produit-elle ?), mais d'illustrer ce qu'on peut faire avec un certain nombre d'outils (volontairement) simples.
Si j'avais un peu plus de temps, et si nous pouvions entreprendre une discussion épistémologique, j'avancerais peut-être que les "sciences humaines" péchent parfois par excès inverse. Les analyses sont souvent si longues, qu'elles paraissent de nombreuses années après les faits, et si alambiquées qu'elles ne sont lues que par un parterre de quelques dizaines d'initiés, et donc soumises à une critique très faible. Il y a une vertu, me semble-t-il, à une publication plus rapide, soumise à la critique par le plus grand nombre. C'est évidemment un risque. Vous aurez remarqué que dès que j'oublie une virgule, je me fais immédiatement allumer (à juste titre). C'est moins confortable...
Sur le point que vous soulevez, de l'attribution de "Sarkozy 2" à Guaino, je me fonde évidemment sur des données externes, mais elles sont très sûres. De nombreux articles sont parus dans la presse sur la question, et il est établi que les grands discours (Agen, Périgueux, Porte de Versailles, etc.) sont de lui. J'ai eu confirmation par l'intéressé lui-même (ainsi que pour quelques autres, comme la substitution de plumes in extremis le 26/01 à Poitiers). J'ai eu également confirmation de sa bouche qu'il usait sciemment de l'anaphore.
On pourrait évidemment comparer avec d'autres textes de Guaino, mais ce serait biaisé, car, à ma connaissance, il n'écrit pas de discours. Les seuls textes que l'on trouverait serait par exemple des chroniques qu'il a écrites dans des journaux, et dans lesquelles l'anaphore n'a pas lieu d'être (mais ce serait intéressant pour étudier d'autres phénomènes linguistiques). Il faut faire très attention à cela: le "genre" littéraire apporte parfois plus de différences entre textes que le changement d'auteur.
Sur l'autre point, il est fort possible par exemple, que Sarkozy lui-même, par mimétisme, "fasse" du Guaino. C'est peut-être le cas du discours bref du soir du 1er tour. Par ailleurs, tous les discours sont probablement négociés, travaillés jusqu'à un certain point avec Sarkozy et éventuellement d'autres plumes. Poura ller plus loin, il faudrait 1) étudier d'autres caractéristiques textuelles 2) disposer d'autres données externes.
Mais ma petite étude simple et rapide, "quick and dirty" commme disent les anglophones, montre qu'elle joue son rôle, qui est un rôle purement heuristique. Elle nous permet de réfléchir, de contredire, d'apporter de nouvelles hypothèses. Mes petits outils ne sont rien d'autres que des instruments, comme on a des oscilloscopes en physique. On observe un signal. Il faut ensuite l'interpréter, bâtir de nouvelles expériences pour corroborer/contredire, etc.
Enregistrer un commentaire