Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, mai 29, 2007

Texte: Mesurer l'anaphore (2)

Dans la première partie de ce billet, je vous ai montré comment on pouvait mesurer grossièrement la quantité d'anaphores dans les textes. Je vais essayer de vous montrer ici comment on peut se servir de cet indice pour retrouver les plumes cachées derrière les discours.

Si l'on prend tous les discours de Nicolas Sarkozy (54 au total dans ma base), il s'agit de les séparer en deux groupes : ceux qui contiennent beaucoup d'anaphores et ceux qui n'en contiennent guère. En d'autres termes, il s'agit de déterminer la valeur de mon indice (proportion de trigrammes initiaux uniques), qui opère la meilleure partition. On peut bien sûr opérer «au pif», mais on peut être légèrement plus subtil, et utiliser des méthodes (simples) de classification automatique. Une façon de faire basique est de chercher la valeur de l’indice qui minimise la variance totale. Ouf… C’est un peu technique, si vous décrochez vous pouvez sauter directement quelques paragraphes.

Donc voilà, pour ceux qui n’ont pas eu peur, et qui sont restés en ligne, le diagramme ci-dessous montre la variance totale des deux groupes obtenus en mettant un point de coupure aux différents endroits possibles entre 0 et 100% :



Le meilleur point de coupure est à 72%.

Il suffit d’appliquer ça aux différents discours, et l’on obtient deux groupes :



On peut faire l’hypothèse qu’Henri Guaino est largement responsable des discours du groupe « Sarkozy 2 », qui possèdent moins de 72% de trigrammes initiaux uniques. Voyons ça de plus près.

Dans le tableau ci-dessous, j’ai mis en rouge les discours du groupe « Sarkozy 2 ».

Date%Titre
04/10/0684,2Convention de l'UMP sur la Recherche et l'Enseignement supérieur
12/10/0645,9Discours à Périgueux
18/10/0681,0Convention sur l'agriculture et le monde rural
09/11/0657,8Discours à Saint-Etienne
01/12/0675,8Congrès de l’Union des Métiers et des Industries de l’Hôtellerie
01/12/0645,6Discours à Angers
07/12/0681,74ème Forum mondial du développement durable
11/12/0690,0Conférence de presse sur l'immigration
12/12/0681,1Discours au Web 3
18/12/0645,8Discours à Charleville-Mézières
14/01/0754,4Congrès de l'UMP
25/01/0740,5Discours à Saint-Quentin
26/01/0742,3Discours au Futuroscope à Poitiers
31/01/0780,2Discours devant la Fondation Nicolas Hulot
02/02/0761,8Discours à Maisons-Alfort
07/02/0755,8Discours à Toulon
11/02/0751,6Réunion des Comités de soutiens locaux à la Mutualité
15/02/0769,6Discours à la Réunion
20/02/0779,4Discours devant la Fédération nationale des chasseurs
21/02/0760,4Discours à Strasbourg
23/02/0754,8Discours à Perpignan
28/02/0787,5Conférence de presse sur la politique internationale
01/03/0754,5Discours à Bordeaux
06/03/0750,0Discours à Cormeilles-en-Parisis
07/03/0790,9Journée UMP sur la Défense
09/03/0750,7Discours à Caen
13/03/0762,4Discours à Besançon
15/03/0767,7Discours à Nantes
18/03/0758,5Discours au Zénith
20/03/0737,9Discours à Villebon-sur-Yvette
22/03/0778,9Discours en Guadeloupe
28/03/0758,9Discours à Lille
30/03/0754,5Discours à Nice
31/03/0775,4Rencontre avec les Ultramarins de métropole
02/04/0776,8Conférence de presse sur le projet présidentiel
03/04/0749,0Discours à Lorient
04/04/0781,9Discours sur la culture au Showcase à Paris
05/04/0765,3Discours à Lyon
06/04/0761,7Discours lors de la rencontre "Femmes et égalité des chances"
10/04/0740,1Discours à Tours
11/04/0758,6Discours à Villepinte
12/04/0760,5Discours à Toulouse
13/04/0757,5Discours à Meaux
14/04/0776,2Rencontre avec des sportifs
17/04/0755,5Discours à Metz
18/04/0766,7Discours à Issy-les-Moulineaux
19/04/0756,1Discours à Marseille
22/04/0774,4Discours au soir du premier tour
23/04/0730,2Discours à Dijon
24/04/0760,1Discours à Rouen
27/04/0750,9Discours à Clermont-Ferrand
29/04/0744,0Discours à Bercy
03/05/0764,2Discours à Montpellier
06/05/0752,1Discours au soir du second tour

On voit que d’une façon générale, les discours de « Sarkozy 2 » sont les discours généraux prononcés dans les différentes villes de France, dont les grands discours de Périgueux, de la Porte de Versailles, du Zénith, etc., alors que les discours de « Sarkozy 1 » sont les discours sur des thématiques particulières (l’agriculture, la défense, etc.). Cette classification, obtenue automatiquement avec des moyens très simples est donc cohérente avec ce qu’on sait d’Henri Guaino : c’est lui qui écrit les discours de politique générale, et d’autres plumes (dont sans doute Emmanuelle Mignon) écrivent les discours sur des thématiques spécialisées. On remarquera que le discours du 22/03 à la Guadeloupe est un discours spécialisé, sur les problématiques particulières de ce département et il est logique qu’il n’ait pas été écrit par Henri Guaino.

Deux discours sont un peu problématiques, et montrent peut-être la limite de mon indice :
  • Le discours du soir du premier tour est catégorisé comme n’étant pas de la main d’Henri Guaino. Il est un peu à la limite (74%), mais en même temps, c’est un texte très court, et il est probable que mon indice doive demander un correctif par rapport à la taille. D’autre part, il est aussi possible que Nicolas Sarkozy ait largement ou totalement écrit de sa main ce discours particulièrement important, mais très bref.
  • Le discours de la rencontre « Femmes et égalité des chances » à la Mutualité le 06/04 est donné comme étant probablement du Guaino, bien qu’il soit relativement spécialisé. En fait, en y regardant bien, tout une partie du discours développe la thématique standard de Sarkozy (le travail, l’école, etc.), et utilise effectivement la rhétorique Guaino : « C’est pourquoi je veux une école sans portable, sans cigarette et sans casquette. Une école où… Une école qui… » etc. Il est donc probable que Guaino soit malgré tout derrière ce discours, au moins en partie.
Seul l’intéressé connaît la réponse à ces questions. Tiens, je vais lui demander s’il peut en parler, ou si c’est top secret…


Lire la suite


24 Commentaires:

Anonymous Anonyme a écrit...

Une limite aussi, c'est qu'après une si longue campagne commune des deux hommes, Sarko ait fini par aimer les anaphores, pour en remettre dans des discours à lui

29 mai, 2007 13:24  
Blogger Jean Véronis a écrit...

Oui, un mimétisme est tout à fait possible !

29 mai, 2007 13:26  
Blogger Jean Véronis a écrit...

PS: et un mimétisme des candidats entre eux est aussi tout à fait possible. J'ai été frappé de constater que Bayrou, qui était assez sobre en la matière au début de sa campagne, s'est mis à faire de l'anaphore en fin de campagne, particulièrement dans son discours au Zénith...

29 mai, 2007 13:31  
Anonymous maxime a écrit...

Analyse magistrale !
Bientôt Jean Veronis dans "Les experts", où comment la police scientifique pourra déterminer le commanditaire du meurtre en analysant le nombre d'anaphores qu'utilise le suspect...
Question HS : à quand une analyse du mot "logiciel" ? mot employé à tout va en ce moment.

29 mai, 2007 13:47  
Blogger Jean Véronis a écrit...

Maxime> Les analyses de ce type sont déjà utilisées par "certains services"...

Oui, j'ai repéré ce mot "logiciel" et j'ai essayé de le "tracer", mais ce n'est pas si facile. Pour l'instant je vois surtout son utilisation dans un contexte socialiste: changer le logiciel socialiste, actualiser le logiciel socialiste, etc. Ma conclusion temporaire est que c'est Ségo herself qui a relancé l'expression ces derniers temps. Elle est dans livre "Maintenant": Elle propose "trops révolutions de front : une femme à la tête de la République (...), une actualisation du logiciel socialiste et une transformation radicale de la manière de faire de la politique".

Mais l'expression est plus ancienne. En 2002, les socialistes en parlaient déjà (Fabius, Vals, DSK). Et en 1999 (!) JP Chevènement voulait "incarner le logiciel républicain".

En tout cas, toutes les sources que je trouve tournent autour du logiciel socialiste — qui me semble un peu buggé si vous voulez mon avis...

29 mai, 2007 14:05  
Blogger Vicnent 31415 a écrit...

un troisième contre exemple : Le premier meeting de Nicolas Sarkozy après sa désignation du 14 janvier est celui du 2 février à Maison Alfort. J'y étais. J'avais remarqué cette forme de figure rhétoricienne sans savoir comment on l'appelle.

Tu indiques que les discours en rouge, donc chargés en Anaphore, sont ceux de Henri Guaino et donc de politique générale. Cependant, le discours de 8 pages de Maison Alfort est 100% centré sur l'éducation, l'école, la formation. Or, son taux d'anaphore est sans conteste haut (tu l'indiques par ton algo, je me permets de le confirmer par ma lecture :

court extrait :
[...]
Nous savons tous qu’elle [...].
Nous savons tous qu’elle [...].
Nous savons tous qu’elle [...].
Cette unité elle [...].
[...]
Elle est menacée par [...].
Elle est menacée par [...].
Elle est menacée par [...].
Elle est menacée par [...].
Elle est menacée par [...].
Derrière il y a le problème de l’éducation. Il y a le problème de la culture. Il y a le problème de l’école.
[...]
)

Tu trouveras ce discours ici (pdf) (comme dans ta base j'imagine)

29 mai, 2007 14:27  
Blogger Jean Véronis a écrit...

Vicnent> Au oui, merci de signaler ça. En fait, la division thématique/non thématique n'est sans doute pas la bonne. Il y a des thèmes comme l'éducation sur lesquels Guaino est à l'aise. Car ce discours de Maisons-Alfort, c'est du 100% Guaino. A part l'anaphore omnipresénte, on y trouve toutes les références habituelles au personnage: le gaullisme, le communisme, la résistance, l'histoire et tutti quanti !

29 mai, 2007 15:36  
Blogger Gromovar a écrit...

Brillante démonstration. A quand la base de données permettant d'identifier la plume d'un discours donné pour chaque homme politique important ?

29 mai, 2007 16:01  
Blogger Jean Véronis a écrit...

Gromovar> Ah... c'est un beau rêve. Le pb n° 1 est déjà d'engranger tous les discours, et c'est du boulot !

29 mai, 2007 16:21  
Blogger Frédéric a écrit...

> En tout cas, toutes les sources que je trouve tournent autour du logiciel socialiste — qui me semble un peu buggé si vous voulez mon avis...

J'avais aussi souvenir d'un utilisation par Michel Onfray à propos de Lutte Ouvrière. De fait : "Je me vois mal donner ma voix à la candidate de Lutte ouvrière, restée bloquée sur un logiciel des années 1920."
(http://contreinfo.info/article.php3?id_article=340)

Il est remarquable que l'expression ressorte chez Onfray au moment où, justement, il se met à prôner le "vote utile" : y a-t-il un lien ?

30 mai, 2007 00:27  
Anonymous Anonyme a écrit...

Guaino, président ! (ou : Rendons à César...)

30 mai, 2007 00:38  
Blogger Vicnent 31415 a écrit...

@Gromovar : allons plus loin...

Le Logiciel (DontBeEvil) :
- "Bonjour, veuillez rentrer votre ADN-Code"
[griiiziiziiizz]
- "À quelle élection êtes vous candidat ?"
J'en sais rien, moi...
- "Toutes !"
[griiiziiziiizz]
DontBeEvil :
- "Vous êtes Mr Robert Maxwell. DontBeEvil vous propose, dans le cadre de la présidentielle de 2012 un discours de 11 pages pour 5412 € HT, pour les élections générales, un discours de 2 pages pour 2111 € HT, pour les municipales de 2008, un discours de 4 pages pour 4651 € HT : veuillez sélectionner votre choix. Le paiement sera prélevé automatiquement. DontBeEvil vous remercie et vous signale que votre risque de cancer du colon est actuellement à 13%, vous devriez consulter. Au revoir."

30 mai, 2007 09:56  
Anonymous Philippe a écrit...

Bonjour,

entendu ce matin sur France inter : Nicolas Hulot parler du "logiciel écologiste"... On peut sans doute encore l'écouter en ligne.

30 mai, 2007 12:35  
Anonymous Anonyme a écrit...

Bonjour,

Juste un petit commentaire : il serait peut-être intéressant que vous puissiez, à un moment donné, publier un billet consacré aux procédures statistiques et aux outils utilisés pour réaliser vos analyses...
Je sais que les considérations méthodologiques sont souvent barbantes pour le grand public mais comme on dit : "sans méthodologie publiée, pas de réplication possible, sans réplication possible, pas de science..."

Merci à vous
Paul, qui aime la cuisine ;-)

30 mai, 2007 14:56  
Blogger clément a écrit...

Quel homme ce Jean Véronis alors !

J'ai toujours été épaté par votre utilisation de l'informatique mais la je suis sur le cul.

Encore bravo !

30 mai, 2007 18:56  
Anonymous Ldx a écrit...

Ça me rappelle la belle époque où un certain Pierre Encrevé (éminent linguiste) était la plume enlevée d'un non moins certain Michel Rocard (premier ministre) ... Jean Véronis a de l'avenir ...

30 mai, 2007 21:30  
Blogger Jean Véronis a écrit...

Anonyme> La méthodologie n'est pas très compliquée. Je l'explique à peu pès dans ce billet: on découpe en phrase, on prend les triplets de mots initiaux, on calcule la proportion de triplets uniques... Pas de quoi fouetter un chat. Je crois profondément dans les choses simples...

30 mai, 2007 21:38  
Blogger Jean Véronis a écrit...

Clément> Vous êtes gentil. Tout cela n'est pas très compliqué. Je crois que le problème c'est que d'habitude les informaticiens ne s'intéressent pas beaucoup aux lettres (et vice-versa). Sinon, ce n'est rien de très compliqué...

30 mai, 2007 21:40  
Blogger Jean Véronis a écrit...

Ldx> Tout sauf ça ! Je suis trop cynique. Ca ne marcherait pas...

30 mai, 2007 21:41  
Anonymous D.Strohl a écrit...

A Jean Véronis

Le logiciel socialiste n'est peut-être pas trop buggé après tout, mais il s'agit d'une version qui avait été développée sous
MS DOS (et mise au point à l'ENA - promotion Voltaire 1980) et qu'ils essaient de faire tourner avec VISTA. Enfin, j'exagère un petit peu ... C'est mon côté méridional!

PS : sorry pour l'anachronisme - si j'en crois Google, MD DOS est apparu en 1981.

30 mai, 2007 22:58  
Anonymous Nono a écrit...

Jean> En tout cas, toutes les sources que je trouve tournent autour du logiciel socialiste

Moi je n'avais jamais entendu le mot hors de son sens informatique que dans les éditos de Claude Imbert dans Le Point qui en use et en abuse depuis des années. C'est presque aussi typique que l'anaphore pour Guaino ! Et cela concerne le plus souvent la marche de la société en général (voir quelques exemples sur http://www.lepoint.fr/search/recherche/resultats?keyword=%E9ditorial+imbert+logiciel).
Pourrait-on tenir là le "patient zéro" de la contagion ?

La montée récente du mot m'a frappé : j'y suis sans doute particulièrement sensible de par ma profession (je dois faire partie de ces quelques informaticiens sensibles aux lettres, vous étant resté fidèle après avoir été séduit par votre vista un soir d'hécatonchires).

Et ne soyez pas si modeste, si vos analyses aussi pertinentes qu'instructives ne demandent parfois que des statistiques élémentaires, vos outils prouvent l'étendue de vos talents ! Je suis personnellement bluffé par la dextérité avec laquelle vous associez linguistique et informatique.

31 mai, 2007 00:53  
Anonymous Ldx a écrit...

Nono> Il faudrait cesser de croire que les linguistes ne manipulent que des mots et des dictionnaires, auj. ils savent parfaitement mettre à profit les outils informatiques pour offrir de belles analyses, il n'est que de voir, par exemple, ce que font la dialectométrie et la cladistique, pour ne citer que ces exemples. Sans parler des bases de données qui nous permettent de jongler sans complexe avec plus d'un million de data.

31 mai, 2007 19:21  
Anonymous archéo a écrit...

L’analyse est pro et dûment saluée. Je m’interroge toutefois -en toute naïveté- sur ce qui pourrait apparaître comme quelques points faibles (plutôt des points où le faire vite nous dépasse, où il se mue de créatif en ennemi du scientifique…). Je suis un lecteur lambda aucunement spécialiste, encore moins de lexico ou de stats complexes et par ailleurs je ne connais ni ce Guaino ni sa plume. Un tel lecteur se demande automatiquement d’où sort votre induction, ce recours à l’explication Gauino (données externes certes mais il doit y en avoir bien d’autres). En revanche, sans doute parce que travaillant dans les sciences humaines, je suis sensible à la validation. On a tout à fait le droit de supposer (hypothèse de travail) que la série Sarkozy 2 puisse correspondre à Guaino. Mais cela impose de valider l' hypothèse (« supposons que cela soit du à Guaino alors on devrait observer telle et telle caractéristique ») : la rigueur n’imposerait-elle pas alors comparer le nuage de points à celui que donneraient des textes (qui soient les plus proches du discours allocutaire) du fameux Guaino ?
Par ailleurs en approche intuitive, sur la seule configuration du nuage de points (pensant par ailleurs que les distributions en 2 classes bien séparées sont rares dans les phénomènes humains et qu’on doit toujours –dans le simple- tester au moins le ternaire) je me demande quasi automatiquement –devant la curieuse densité à droite, là où les 2 groupes se touchent à se fondre- si on n’aurait pas à faire à la superposition d’un 3è groupe (cf. mon image si elle passe).
Un tel 3è groupe pourrait alors, s’il était validé ou probable, correspondre à un 3è homme (Cannes n’est pas encore trop loin) dont la série de discours viendrait emprunter aux caractéristiques des 2 autres groupes. Ce 3è homme pourrait par hypothèse être (sinon une femme) d'abord Sarkozy lui-même, cette coalescence à la droite du nuage correspondant à des discours retouchés où sa patte augmenterait ou diminuerait la dose d’anaphore. Ce 3è homme pourrait aussi être virtuel : la pure résultante de retouches multiples qui auraient pour effet de lisser la dose d’anphore. Il me semble pour finir qu’une seconde procédure de validation devrait alors être envisagée, en 2 volets : A-examiner quelles anaphores caractérisent le groupe Sarko 1 et lesquelles caractérisent le groupe Sarko 2 (retour donc au qualitatif), B-examiner si la statistique lexicale (le comptage de mots en tant que signature possible d’un auteur) convalide Sarko 1 et Sarko 2 et s'il propose ou non un groupe Sarko 3… Suis-je sur la plaque ou complètement à côté ? Bien à vous.

01 juin, 2007 00:30  
Blogger Jean Véronis a écrit...

Archéo> Merci pour ce long commentaire ! Vous avez raison : si je devais publier ce travail sous forme d'article scientifique, je complèterais l'étude. Mais le but ici est tout autre. Il est simplement pédagogique. Je devrais d'ailleurs écrire cela quelque part en exergue du blog : il ne s'agit pas de produire des résultats définitifs (hmm... de toute façon, la science en produit-elle ?), mais d'illustrer ce qu'on peut faire avec un certain nombre d'outils (volontairement) simples.

Si j'avais un peu plus de temps, et si nous pouvions entreprendre une discussion épistémologique, j'avancerais peut-être que les "sciences humaines" péchent parfois par excès inverse. Les analyses sont souvent si longues, qu'elles paraissent de nombreuses années après les faits, et si alambiquées qu'elles ne sont lues que par un parterre de quelques dizaines d'initiés, et donc soumises à une critique très faible. Il y a une vertu, me semble-t-il, à une publication plus rapide, soumise à la critique par le plus grand nombre. C'est évidemment un risque. Vous aurez remarqué que dès que j'oublie une virgule, je me fais immédiatement allumer (à juste titre). C'est moins confortable...

Sur le point que vous soulevez, de l'attribution de "Sarkozy 2" à Guaino, je me fonde évidemment sur des données externes, mais elles sont très sûres. De nombreux articles sont parus dans la presse sur la question, et il est établi que les grands discours (Agen, Périgueux, Porte de Versailles, etc.) sont de lui. J'ai eu confirmation par l'intéressé lui-même (ainsi que pour quelques autres, comme la substitution de plumes in extremis le 26/01 à Poitiers). J'ai eu également confirmation de sa bouche qu'il usait sciemment de l'anaphore.

On pourrait évidemment comparer avec d'autres textes de Guaino, mais ce serait biaisé, car, à ma connaissance, il n'écrit pas de discours. Les seuls textes que l'on trouverait serait par exemple des chroniques qu'il a écrites dans des journaux, et dans lesquelles l'anaphore n'a pas lieu d'être (mais ce serait intéressant pour étudier d'autres phénomènes linguistiques). Il faut faire très attention à cela: le "genre" littéraire apporte parfois plus de différences entre textes que le changement d'auteur.

Sur l'autre point, il est fort possible par exemple, que Sarkozy lui-même, par mimétisme, "fasse" du Guaino. C'est peut-être le cas du discours bref du soir du 1er tour. Par ailleurs, tous les discours sont probablement négociés, travaillés jusqu'à un certain point avec Sarkozy et éventuellement d'autres plumes. Poura ller plus loin, il faudrait 1) étudier d'autres caractéristiques textuelles 2) disposer d'autres données externes.

Mais ma petite étude simple et rapide, "quick and dirty" commme disent les anglophones, montre qu'elle joue son rôle, qui est un rôle purement heuristique. Elle nous permet de réfléchir, de contredire, d'apporter de nouvelles hypothèses. Mes petits outils ne sont rien d'autres que des instruments, comme on a des oscilloscopes en physique. On observe un signal. Il faut ensuite l'interpréter, bâtir de nouvelles expériences pour corroborer/contredire, etc.

01 juin, 2007 09:32  

Enregistrer un commentaire