Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, mai 29, 2007

Texte: Mesurer l'anaphore (1)

Vous l’avez sans doute remarqué pendant la campagne. L’un des traits les plus frappants des discours de Nicolas Sarkozy était cette figure rhétorique qu’on appelle anaphore, et qui consiste en une répétition des débuts de phrases (ou de vers en poésie), comme dans ce poème d’Aragon (que je ne choisis pas tout à fait au hasard…) :
Ils étaient vingt et trois quand les fusils fleurirent
Vingt et trois qui donnaient le cœur avant le temps
Vingt et trois étrangers et nos frères pourtant
Vingt et trois amoureux de vivre à en mourir
Vingt et trois qui criaient la France en s'abattant
(Louis Aragon, Strophes pour se souvenir)
Un des exemples les plus étonnants dans la prose sarkozienne est ce passage de son discours à Dijon au lendemain du premier tour :
Alors, pourquoi tant d’attaques personnelles, pourquoi tant de violence, pourquoi tant de haine ?

Oui, pourquoi tant de haine ? Parce que je parle de la France ? De son identité ? De ses valeurs ? Parce que ce sont devenus des gros mots ?

Pourquoi tant de haine ? Eh bien je vais vous le dire. D’abord parce qu’il y a les voyous, les trafiquants, les fraudeurs, les caïds, les bandes qui veulent faire leurs petites affaires tranquillement, qui veulent pouvoir frauder, racketter, trafiquer sans être dérangés. Il y a les casseurs qui veulent pouvoir casser en toute impunité. On n’est pas populaire parmi les voyous quand on veut faire respecter partout les lois de la République.

Pourquoi tant de haine ? Parce que c’est la gauche qui aurait dû le dire et que la gauche ne l’a pas dit ? Parce que la gauche aurait dû le faire et que la gauche ne l’a pas fait ? Parce que la gauche n’a pas sauvé Alstom et qu’elle a bradé la sidérurgie sous prétexte que la sidérurgie n’avait plus d’avenir ?

Pourquoi tant de haine ? Parce que cette vérité, c’est la gauche qui aurait dû la dire et qu’elle ne l’a pas dite ?

Pourquoi tant de haine ? Parce que j’ai dit que l’euro avait fait monter les prix ? Que l’euro surévalué pénalisait notre industrie et accélérait les délocalisations ? Que la taxation du travail était trop élevée ? Que si l’on taxait davantage le travail, les emplois partiraient ? Que si l’on taxait davantage le capital, le capital s’en irait ?


J’arrête ici. Au total, le « Pourquoi tant de haine ? » sera répété 46 fois (voir extraits) ! Un record… Il y a même anaphore dans l’anaphore, puisque le « Parce que » et le « Que » se répètent aussi en écho…

Ce trait stylistique est caractéristique d’Henri Guaino, la plume officielle de Sarkozy ou plutôt l’une des plumes, car il n’écrit pas tous ses discours. Sarkozy a eu au moins une autre plume, Emmanuelle Mignon et il n’est pas impossible que d’autres personnes aient contribué à sa prose sur des thématiques particulières. Que l’on adhère ou que l’on n’adhère pas au contenu, il faut reconnaître qu’il y avait un certain souffle dans les discours de Sarkozy, qui n’est peut-être pas totalement étranger à son succès…

*

Je vous propose ici un petit exercice mathématico-linguistique. Peut-on mesurer automatiquement la quantité d’anaphores dans un discours ? Peut-on s’en servir pour repérer un auteur particulier ou une plume dans un ensemble de textes ?

Le problème paraît simple, mais il est en fait assez compliqué. Le nombre de mots qui se répètent est variable, ce ne sont pas nécessairement des phrases consécutives qui sont concernées, il peut y avoir des variantes syntaxiques mineures d’une répétition à l’autre, etc. On pourrait certainement développer des programmes très élaborés, mais j’aime les choses simples à faire, et si possible simples à comprendre. C’est même une règle méthodologique que je me fixe, une sorte de rasoir d’Occam : ne jamais rien tenter de compliqué tant que l’on n’a pas testé les choses simples…

Donc voici une petite recette, un algorithme comme diraient les savants. On découpe le texte en phrase, on retient les trois premiers mots de chaque phrase ou trigrammes, et on regarde combien de trigrammes sont uniques. La proportion de trigrammes uniques est un bon indicateur de la proportion d’anaphores dans un discours, même si, évidemment, il n’est pas parfait. Par exemple, on ne comptera pas les anaphores qui ne portent que sur un mot ou sur deux (comme le « Parce que » et le « Que » dans l’exemple ci-dessus). Mais la contrepartie, en prenant un nombre de mots plus petit, serait de considérer comme anaphores beaucoup de choses qui n’en sont pas, et d’introduire énormément de bruit.

Voyons où cette mesure nous mène.

Le diagramme ci-dessous représente le pourcentage de trigrammes initiaux uniques dans les discours des quatre principaux candidats :



On voit que le nuage de points représentant les discours de Sarkozy est nettement décalé vers le bas par rapport aux autres candidats. Si l’on prend les valeurs moyennes pour chacun d’eux, on obtient le diagramme suivant :



Le moins amateur d’anaphores semble être Le Pen, suivi par Royal et Bayrou. La moyenne de Sarkozy est nettement plus basse, ce qui indique une proportion d’anaphores plus importante chez lui que chez les autres candidats.

*

Je ne veux pas vous assommer de considérations mathématiques compliquées, mais les petites barres verticales autour de la moyenne indiquent la variation de mon indice pour chacun des candidats (ce qu’on appelle écart-type). On voit que la proportion d’anaphores varie beaucoup plus d’un discours à l’autre chez Sarkozy que chez les autres candidats. Ceci confirme que plusieurs plumes sont à l’œuvre, dont l’une aime les anaphores et les autres moins. Je vais essayer de vous montrer dans la deuxième partie de ce billet comment on peut séparer automatiquement les discours d’Henri Guaino des autres.


Lire la suite


    17 Commentaires:

    Anonymous François a écrit...

    au vu de l'avant dernier graphique je dirais qu'il y a probablement une multimodalité dans le nombre de trigrammes initiaux utilisés et qui pourrait réveler directement, ou pour le moins fortement suggerer des styles d'écritures différents. la réalisation d'une distribution d'effectif de la proportions de trigrammes initiaux ne permetterait-elle pas de le réveler (il doit bien y avoir assez de discours pour le faire je pense)?
    par ailleurs, si, comme je le pense, on se retrouve avec au moins une bimodalité, il ne faudrait se servir de la moyenne et de l'écart-type qu'avec des pincettes.

    29 mai, 2007 13:06  
    Blogger Jean Véronis a écrit...

    Oui, il y a bi-modalité chez Sarkozy. Il faut effectivement des pincettes, mais la moyenne plus basse et l'écart-type plus large sont des indications, justement qu'une deuxième plume est à l'oeuvre (suite dans le 2e billet).

    29 mai, 2007 13:10  
    Anonymous blop a écrit...

    En vrai de vrai, le "pourquoi tant de haine" n'etait qu'un clin d'oeil appuye a Desproges.
    Etonnant, non ?

    29 mai, 2007 14:57  
    Blogger Jean Véronis a écrit...

    A moins que ce ne soit un clin doeil à "Ministere A.M.E.R." ? En tout cas, Guaino semble avoir pas mal d'humour et de sens du renversement de situations... Je ne suis pas sûr que Sarko capte toutes les références dont il lui truffe les discours !

    29 mai, 2007 15:37  
    Anonymous Steph a écrit...

    Bonjour et bravo pour ce blog.
    Je suis "accro" depuis le début de la campagne présidentielle.

    Je m'interroge sur l'emploi du terme trigramme.
    En cryptographie, un trigramme représente plutôt un groupe de trois lettres. J'ai regardé sur l'atilf, je ne trouve pas vraiment de définition pour une suite de 3 mots ?

    Une question au passage, connaissez vous un bon dictionnaire français en ligne autre l'atilf ?

    29 mai, 2007 19:00  
    Blogger Jean Véronis a écrit...

    Steph> Oui, je sais, l'emploi le plus courant de n-gramme est "suite de n-lettres". Mais l'usage de n-gramme pour "suite de n mots" est tout à fait courant dans le domaine de la "linguistique computationnelle".

    De toute façon, en grec, "gramme" est bien plus large, c'est l'écriture. D'où idéogramme, pictogrammes, phonogrammes, etc., qui ne sont pas vraiment des lettres...

    29 mai, 2007 19:16  
    Anonymous deroubaix a écrit...

    tri-gramme, soit!

    mais pourquoi pas polyforme ou triforme (puisqu'il s'agit d'un triplet de formes lexicales) ?

    29 mai, 2007 19:26  
    Blogger Jean Véronis a écrit...

    Deroubaix> Oui, ce serait mieux, effectivement (mais peut-on aller contre l'usage établi ?).

    29 mai, 2007 20:00  
    Anonymous Anne A. Faure a écrit...

    Il me semblait avoir repéré le goût de l'anaphore dans les discours de Raffarin, dont on connaît la rhétorique. Un effet garanti, mais un peu grossier, surtout quand il est utilisé sur un rythme ternaire, comme le faisait souvent ce bon vieux (?) Raffarin.

    29 mai, 2007 21:04  
    Blogger Jean Véronis a écrit...

    Steph> J'avais oublié une partie de la réponse. Question dicos tout est à peu près sur Lexilogos

    29 mai, 2007 21:29  
    Blogger ZiYada a écrit...

    Ce que j'aime bien en venant ici, c'est, etnre autres, qu'il y a toujours 2,3 trucs bien croustillants à grignoter. Aujourd'hui le rasoir d'Occam. Que du bonheur :)

    30 mai, 2007 12:41  
    Blogger Jean Véronis a écrit...

    ZyYada> J'espère que ce n'est pas trop rasant...

    30 mai, 2007 12:44  
    Anonymous Martin P. a écrit...

    si le procédé rhétorique avait été signalé avec un peu d'habileté par la gauche, il n'aurait pas eu autant d'efficacité

    il serait peut etre meme apparu pour ce qu'il est : assez ridicule

    j'en avais parlé le 7 mars ici:

    http://sauce.over-blog.org/article-10010563.html

    30 mai, 2007 22:12  
    Blogger Jean Véronis a écrit...

    Martin P.> [Le procédé] serait peut etre meme apparu pour ce qu'il est : assez ridicule -- Formulation un peu abrupte, peut-être ? Dit comme ça, vous disqualifiez Aragon, Rimbaud, Corneille et quelques autres...

    31 mai, 2007 10:05  
    Anonymous archéo a écrit...

    Merci encore une fois. Mais pour les ignorants (comme moi) c'est quoi "le rasoir d'Occam" ? (pour une fois vous êtes pris en défaut: il manque un de vos fameux liens..!). Bonsoir (moi j'attaque Anaphore 2 )

    31 mai, 2007 23:39  
    Blogger Jean Véronis a écrit...

    Très juste ! Je viens de rajouter un lien...

    Guillaume d'Occam était un moine franciscain philosophe et logicien du début du XIVè siècle. C'est lui qui a inspiré le personnage de Guillaume de Baskerville dans le Nom de la Rose d'Umberto Eco (incarné à l'écran par Sean Connery).

    Il a posé comme principe méthodologique qu'il ne fallait pas multiplier les notions, hypothèses et variables sans raison. En d'autres termes, quand on a deux théories qui ont exactement le même pouvoir explicatif, il convient de choisir la moins compliquée.

    En gros c'est le contraire des Shadoks, qui, eux, disait : "pourquoi faire simple quand on peut faire compliqué ?"...

    01 juin, 2007 09:05  
    Anonymous yves duel a écrit...

    Ah, que c'est reposant de venir de temps à autres faire un tour ici. Plein d'esprit, plein de gens bien élevés ! ...

    01 juin, 2007 22:19  

    Enregistrer un commentaire