Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

jeudi, septembre 20, 2007

Sarko: Grand chef à plumes (2)

Comme promis avant-hier (lire le début), j’ai soumis 129 discours de Nicolas Sarkozy à la torture informatique (ses 63 discours de campagne, mais aussi ses discours depuis 2004 présents sur le site de l’UMP, et les discours postérieurs à son élection jusqu’à la fin août). J’ai examiné la parenté lexicale entre les différents textes, dans le but de voir si on retrouvait, par ce procédé tout à fait indépendant, la même classification que par le comptage des anaphores.

J’ai déjà parlé de cette technique (voir ici), et je récapitule brièvement pour les nouveaux lecteurs. On peut facilement calculer une « distance » lexicale entre deux textes, comme une distance entre les différentes villes sur une carte. Prenons par exemple deux discours A et B. On extrait la liste des mots de A, celle des mots de B. Plus ces listes se recouvrent, plus les textes sont considérés comme proches. On peut ensuite en quelque sorte reconstituer la carte du territoire en partant des distances calculées sur toutes les paires de textes. La méthode est analogue à celle utilisée par les biologistes pour représenter les parentés entre organismes vivants à partir des séquences d'ADN (arbre phylogénétique).

Appliquée aux discours de Nicolas Sarkozy, la méthode produit l’arbre ci-dessous. Chaque feuille de l’arbre représente un discours, et les discours sont d’autant plus proches dans l’arbre qu’ils sont proches du point de vue lexical.


On voit que l’arbre comporte quatre grandes branches, deux grandes et deux petites, qui correspondent vraisemblablement aux contributions des différentes plumes. La grande branche en haut à gauche (entourée par une ellipse) peut être attribuée sans hésitation à Henri Guaino. Les textes qui s’y trouvent sont (à un discours près) datés à partir de mai 2006, ce qui correspond à l’entrée en fonction officielle d’Henri Guaino auprès de Nicolas Sarkozy (c’est lui qui a écrit le discours de Nîmes le 9 mai 2006). On y trouve les grands discours de campagne : Périgueux, la Porte de Versailles, etc.

L’exception est un discours du 12 mai 2005, un plaidoyer en faveur du projet de traité constitutionnel européen au Palais des Sports de Paris, à quelques jours du référendum. La presse n’a pas mentionné de contributions d’Henri Guaino aux discours de Nicolas Sarkozy avant mai 2006, mais une contribution ponctuelle n’est pas impossible. On ne peut, bien sûr, exclure une erreur de classification de mon algorithme (les « signatures » stylistiques ne sont pas aussi fiables que les empreintes digitales ou l’ADN !), mais d’autres indices (comme la présence importante d’anaphores) semblent confirmer une présence au moins partielle de la « patte » Guaino.

Si l’on se penche sur la question des anaphores, justement, on s’aperçoit que la proportion d’anaphores dans les discours (voir méthode d’estimation ici) conduit à peu près exactement à la même catégorisation. Seuls huit cas divergent. Sur 129, ce n’est pas si mal.... Dans trois cas (en rouge sur la figure), le vocabulaire est majoritairement celui d’Henri Guaino mais la proportion d’anaphores est plutôt faible, dans cinq autres cas (en bleu), c’est l’inverse : la proportion d’anaphores trahit la présence de Guaino, mais le vocabulaire diverge en partie de son univers lexical habituel. Et encore, en regardant dans le détail, on voit que ce sont des cas difficiles, que j’avais déjà signalés (voir ici) : on est en présence de discours composites, où plusieurs plumes ont manifestement prêté leur main, comme par exemple le discours de la rencontre « Femmes et égalité des chances » à la Mutualité le 06/04.

Il est très étonnant de voir que des catégorisations obtenues par des critères tout à fait indépendants convergent aussi bien ! Les quelques cas de divergences sont d'ailleurs instructifs puisqu'ils montrent que les méthodes se complètent et permettent de détecter des discours polyphoniques. Je n'ai utilisé ici que deux indices, parenté lexicale et anaphores. On peut facilement imaginer d'en combiner un plus grand nombre (proportion de verbes dans le discours, longueur de phrases, etc.)... Quel degré de fiabilité peut-on obtenir ? Peut-on détecter des segments de discours attribuables aux unes et aux autres ? Ces questions sont ouvertes.

Je vous montrerai dans la suite de ce billet à tiroirs, comment la situation se présente chez les trois autres principaux candidats. Il y a de la plume qui volète (presque) partout...



Lire la suite



Pour en savoir plus

  • Étienne Brunet, « Peut-on mesurer la distance entre deux textes ? », Corpus, Numero 2 La distance intertextuelle - décembre 2003, mis en ligne le 15 décembre 2004: http://corpus.revues.org/document30.html
  • Barthélémy J.-P. & Luong X. (1987). « Sur la topologie d’un arbre phylogénétique : aspects théoriques, algorithmes et applications à l’analyse des données textuelles », Mathématiques et Sciences humaines, 100 : 57-80.
  • Numéro spécial de la revue Corpus. La distance intertextuelle. En ligne : http://corpus.revues.org/sommaire52.html

9 Commentaires:

Anonymous JB a écrit...

eh eh, assez ironique et bien vu de faire un parallèle entre les discours de sarko et "l'arbre de la vie" tendance ADN, vu le contexte politique actuel ! toujours aussi excellent et à propos ce blog...

20 septembre, 2007 18:51  
Anonymous bardabu a écrit...

Je trouve ça assez étonnant que ce soit aussi flagrant. Ecrire un discours n'est pas écrire un roman où l'écrivain se met à nu. Dans un discours, je pensais plutôt que la plume devait davantage justifier son écriture en faisant disparaître son style.

21 septembre, 2007 08:29  
Anonymous Lomig a écrit...

Bonjour,

approche comme toujours intéressante.Cependant, sur l'interprétation que vous faites de l'arbre je reste sceptique. L'arbre met en évidence les différenciations lexicales de chaque discours mais celle-ci est elle attribuable uniquement à des différences d'auteurs ou bien à un effet thématique éventuellement lié à la mise à l'agenda de thèmes politiques qui domineraient certaines périodes.

21 septembre, 2007 09:42  
Blogger Guillaume a écrit...

Bonjour,

C'est hors sujet mais j'ai été frappé hier soir par la description que Nicolas Sarkozy a faite du gouverneur de la banque centrale européenne, Jean-Claude Trichet : "M. Trichet est certainement un homme très respectable". Le "certainement" m'a "naturellement" fait penser au tic de langage du président précédent, surtout le contexte actuellement tendu entre les deux hommes.

Ceci n'a d'ailleurs pas échappé à Jean-Michel Aphatie qui en parle ce matin sur son blog...

http://blogs.rtl.fr/aphatie/index.php/post/2007/09/21/M-Trichet-est-certainement-un-homme-tres-respectable-21/09

Yogi

21 septembre, 2007 09:58  
Blogger Jean Véronis a écrit...

Lomig> Ah la la... Que c'est difficile d'avoir d'aussi bon lecteurs :-)

Vous posez une question cruciale. J'y ai réfléchi en détail. Aujourd'hui je ne peux pas, je suis dans mes soutenances de master, mais j'essaierai d'en reparler. Petit indice tout de même : l'anaphore, elle, n'a aucun comportement thématique. or, elle se trouve corrélée de façon très étroite à la parenté lexicale...

21 septembre, 2007 10:42  
Anonymous ALLAIN JULES COM a écrit...

Bonjour !

A noter aussi que Guaino s'inspire des auteurs Grecs sur certains discours comme celui controversé de Dakar au Sénagal.

22 septembre, 2007 11:31  
Anonymous Anonyme a écrit...

Bonjour,
Site passionnant : merci !
Professeur de lettres, une chose m'inquiète à double titre, comme citoyenne et comme professionnelle du langage... on dirait que des analyses comme celles livrées ici sont largement méconnues... ou volontairement ignorées... ou inconsciemment mises de côté...
Continuez votre travail !
CM

26 septembre, 2007 08:30  
Anonymous Anonyme a écrit...

Reste à mettre lien à jour ("Lire la suite") vers le chapitre III !

14 octobre, 2007 11:31  
Blogger Jean Véronis a écrit...

Merci!

14 octobre, 2007 12:16  

Enregistrer un commentaire