Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, avril 17, 2007

2007: Discours recyclés

Je vous avais promis, hier, de calculer la proportion de «recyclage» dans les discours des candidats, en d'autres termes, la proportion de copiés-collés d'un discours à l'autre. Voilà qui est fait. Je vais vous parler un petit peu de technique, comme je le fais de temps à autre, mais vous allez voir, ce n'est pas bien méchant. Et vous pouvez sauter directement aux résultats si les détails vous paraissent fastidieux...

Une méthode relativement simple pour détecter les recyclages dans un discours donné consiste à regarder si chaque suite de n mots consécutifs (que l'on appelle n-grammes dans le jargon de la linguistique informatique) a été utilisée ailleurs. Il faut prendre n pas trop petit : si l'on utilise des bigrammes ou des trigrammes, on se retrouve avec des suites courantes dans la langue, et qui ne sont nullement typiques d'un candidat : de le, et le, c'est, et il a, je veux le, etc. D'un autre côté, si on utilise des suites trop longues, on risque de louper un nombre important de similitudes. Un compromis qui marche bien consiste à prendre 7 mots consécutifs, c'est-à-dire des heptagrammes.

Regardons ça sur un exemple. Prenons une phrase assez lucide d'Arlette :
Je sais, bien sûr, que je ne peux pas être élue.
Enlevons les ponctuations, réduisons tout en minuscules, et regardons nos heptagrammes :
je sais bien sûr que je ne peux pas être élue
je
sais bien sûr que je ne peux pas être élue
je sais
bien sûr que je ne peux pas être élue
je sais bien
sûr que je ne peux pas être élue
je sais bien sûr
que je ne peux pas être élue
Il y en a 5 dans ce cas. On va regarder pour chacun s'il se retrouve dans un autre discours d'Arlette. Supposons qu'il y en ait deux. Cela fait un taux de recyclage de 2/5 = 40%.

J'ai fait ça systématiquement pour tous les candidats (du moins ceux pour lesquels j'avais suffisamment de discours). Voici le palmarès (l'échelle verticale donne la moyenne, en pourcentage, de recyclage chez chaque candidat) :


On ne sera guère étonné, je présume, de constater qu'Arlette Laguiller est en haut du podium, avec un taux de recyclage moyen de 89%. Certains discours ne sont pratiquement composés que d'élements recyclés, comme celui qu'elle a prononcé à Dijon le 6 avril (cliquez sur l'image ci-dessous ; les heptagrammes qui se retrouvent ailleurs sont colorisés) et aucun ne descend en dessous de 70%...



Cliquer sur l'image pour voir le discours

Mais il est peut-être plus surprenant de constater que la médaille d'argent va à Nicolas Sarkozy, avec un taux de recyclage moyen de 24%. Bien moins qu'Arlette, bien sûr, mais cela fait tout de même, en moyenne, pratiquement un quart de recyclage dans chaque discours. Parfois c'est plus. Par exemple, son dernier discours (à Meaux, le 13 avril) atteint 45% de recyclage.



Cliquer sur l'image pour voir le discours

Mais on peut aller plus loin dans l'analyse. Reportons sur un graphique l'ensemble de ses discours :


On voit clairement apparaître deux phases. Dans la première, il est très sage au niveau du copier-coller, qui reste marginal. Dans la deuxième, le recyclage s'emballe. La séparation entre ces deux périodes est exactement la date de son entrée officielle en campagne, à savoir le congrès de l'UMP à la Porte de Versailles le 14 janvier. Cadences infernales ? Changement de plumes ?

Dans ce palmarès du recyclage linguistique, Ségolène Royal a droit à la troisième place avec un peu plus de 9%. On constatera que Jean-Marie Le Pen et François Bayrou sont beaucoup moins adeptes du copier-coller, avec des taux très faibles, respectivement de 3% et 1%. Ce classement est un peu paradoxal, quand on réalise que Sarkozy et Royal sont justement les candidats qui ont de nombreuses plumes pour écrire leurs discours, alors que Le Pen et Bayrou écrivent leurs discours eux-mêmes...

Libellés :


18 Commentaires:

Blogger nautilebleu a écrit...

Bonjour,

Concernant la dernière remarque, je me demande si justement le fait d'avoir une grosse équipe de rédacteurs ne favorise pas le copier-coller :
- tout d'abord volontairement, car l'équipe de campagne organise le discours comme pour vendre un produit, par un certain matraquage
- ensuite involontairement, car c'est parfois difficile de s'organiser quand on est nombreux, du coup, certains discours ne sont pas en fait du copier coller, malgré la réutilisation des mêmes termes.

Enfin la position de challenger de Le Pen et Bayrou les oblige peut être à plus d'audace pour accéder à la une des médias et à plus de réactivité à l'actualité, d'où un nombre plus limité de copier-coller possible. En somme ils sont amenés à faire des coups médiatiques basés sur l'actualité immédiate. Dès qu'un sujet se refroidit, ils leur faut passer à autre chose.

17 avril, 2007 07:06  
Blogger Tom a écrit...

Ca fait peut-être un peu girouette de ne jamais avoir de même discours ? Ou bien le taux de recyclage peut être biaisé par des expressions clés répétées fréquemment ("je veux être votre nouveau président") ce qui au final influe peu sur les idées recyclées.

17 avril, 2007 08:48  
Anonymous blop a écrit...

Dans la continuite de nautilebleu, je crois qu'avoir des porte-plumes favorise le copier/coller. En effet, ceux-ci n'ont qu'une trouille : deplaire a leur chef(fe). Et Sarkolene sont reputes pour leur sale caractere. Regardez par exemple comme un Brice Hortefeux, qui a pourtant ete le plus fidele des vassaux de Sarkozy (il fut un temps ou il etait dans les keywords de la page ump alors que villepin n'y figure pas) a pu se faire descendre apres sa sortie sur la proportionnelle. Certain le disent definitivement "grille". Si tel est le cas, on comprend que les negres tournent deux fois leur plume avant d'ecrire un discours...


Tom > Jean explique que 7 mots c'est suffisamment long pour eviter la plupart des expressions clefs. Maintenant j'imagine qu'il y a un bruit de fond irreductible mais il est certainement en dessous du 1%.

17 avril, 2007 09:28  
Blogger Jean Véronis a écrit...

Nautilebleu> je me demande si justement le fait d'avoir une grosse équipe de rédacteurs ne favorise pas le copier-coller -- Peut-être bien. En tout cas la politique conçue comme marketing, très probablement. Il faut marteler des choses simples susceptibles d'être reprises en boucle par les médias.

Mais je ne partage pas votre avis sur la deuxième partie de votre commentaire, sur MM. Le Pen et Bayrou. Quand on regarde le détail des discours, ons'aperçoit que les deux candidats les plus volatils en termes de thématiques (rappelez-vous, les zigzags de Jaurès-Blum à un discours qui flirte avec le FN pour l'un, de l'ordre juste et de l'encadrement militaire à un discours limite Porto Allegre pour l'autre, pour finir sur la Marseillaise et le drapeau...). On dirait qu'ils surfent sur la vague en fonction du dernier sondage, dans une politique très marketing, justement : suivre les réactions des "acheteurs" en temps quasi réel.

Si vous lisez les discours de MM. Le Pen et Bayrou, vous verrez qu'à part, bien sûr quelques réactions à l'actu, ils ont une très grande constance dans leurs propos. Comme un laboureur qui met son soc au bout du sillon et qui avance tranquillement (ceci n'est pas une prise de position pour ou contre leurs idées, bien entendu).

Je crois aussi qu'il y a une variable personnelle : le fait d'être homme de lettres, comme le sont MM. Le Pen et Bayrou, incite certainement à limiter, peut-être par coquetterie ou par orgueil, à limiter l'autoplagiat.

Pour vous dire la vérité, c'est un sentiment que je ressens moi-même quand j'écris. J'ai toujours un petit sentiment de culpabilité à m'auto-copier...

17 avril, 2007 09:43  
Blogger Jean Véronis a écrit...

Tom> Ca fait peut-être un peu girouette de ne jamais avoir de même discours ? -- Certes, mais justment, comme je commençais à l'expliquer ci-dessus, le paradoxe, c'est que ce sont ceux qui ont le plus de recyclage (Royal/Sarkozy) qui sont le plus volatils et ceux qui en ont le moins (Le Pen/Bayrou) qui sont le plus constants... Avec de à 25% de recyclage comme Royal et Sarkozy on arrive à la fois à avoir des formules qui reviennent en boucle, et plein de place pour du nouveau et du fluctuant. Il faut aussi bien comprendre la méthode que j'utilise : une reprise d'un 7-gramme dans un discours la même semaine (et abandonné par la suite) compte autant qu'une reprise à plusieurs mois d'intervalle. On pourrait développer d'autres indices sensibles à la "durée de vie" d'une expression (merci de votre remarqeu !).

Les expressions du type de celles que vous citez influent peu sur le total, comme vous pouvez le voir en cliquant sur les discours mis en exemple.

17 avril, 2007 09:48  
Anonymous Anonyme a écrit...

Il est relativement normal que le copier - coller augmente avec le temps.

Il est en effet difficile de s'auto-copier lors de son premier discours. C'est de plus en plus difficile d'innover quand on a déjà fait 50 discours.

Quand on regarde votre graphique sur les discours de Sarkozy, la tendance à l'augmentation du copier - coller est inévitable. Mais il est vrai que la brutale augmentation de ce dernier laisse songeur...

De toute façon, il est clair que le sarkolanguage ne brille pas par son élégance. Ce n'est pas un homme de lettre et ce n'est pas ce qu'il recherche.

17 avril, 2007 10:03  
Blogger Jean Véronis a écrit...

Anonyme> Bayrou, Le Pen ont autant de discours que Sarkozy et on ne note pas le phénomène que vous décrivez. Royal a également moins de recyclage que Sarkozy, et on ne note pas cette cassure en deux périodes. Il s'est clairement passé quelque chose dans la stratégie de campagne, correspondant au 14/01 (on le sait, d'ailleurs).

Non, la sarkolangue n'est pas terrible, malgré la plume d'Henri Guaino (dont je trouve d'ailleurs le style épouvantable, pleins de tics et de clichés). Et la ségolangue n'est pas formidable non plus. Où et-il le temps de De Gaulle ou de Pompidou (qui récitait du René Char à la télé...) ?

17 avril, 2007 10:09  
Anonymous FrédéricLN a écrit...

Pour François Bayrou, la raison est extrêmement simple : il ne lit pas de discours, il improvise. Il choisit ses sujets, et il sait très bien ce qu'il va dire sur chaque sujet, parce qu'il se tient à ses convictions (ce qu'on peut vérifier en comparant à ses anciens discours, qui sont en ligne au moins depuis 2000-2001).

Exception à cette tendance générale : les sujets économiques, sur lesquels il a beaucoup travaillé depuis août 2005, si bien que ses propositions se sont beaucoup étoffées.

17 avril, 2007 10:20  
Blogger yrduab a écrit...

Je ne suis pas étonné de la place de l'UMP dans votre indice. Le candidat UMP a en effet tendance à sur-utiliser l'anaphore. Donc à multiplier les occurences des mêmes termes.

Une question : avec 5 ou 6 syllabes plutôt que 7, le classement est-il le même ? Je parie que l'UMP remonte encore.

17 avril, 2007 10:22  
Anonymous tanguy a écrit...

Il serait interessant de calculer
une matrice de similarité entre tous les candidats.
Peut être avec un fenêtre un peu plus
petite (i.e. des pentagrammes).

17 avril, 2007 10:57  
Blogger Jean Véronis a écrit...

Yrduab> J'ai essayé avec des 5-grammes. Le classement est identique (et les taux bruts très semblables, à un ou deux % près).

17 avril, 2007 10:57  
Anonymous Leila a écrit...

Je suis étonnée par votre commentaire sur Bayrou et Le Pen qui n'auraient pas de plumes. Je ne sais pas pour Le Pen, mais j'en douterai fort. Quant à Bayrou il est, selon ses propres soutiens, épaulé tout comme les autres par des communicants. Meilleurs ou, pour cette année, plus motivés... normal, puisqu'il se positionne pour attirer en premier lieu les plus diplômés ou "intellectuels". En tous les cas, et nonobstant vos sympathies filigranées, bravo pour vos sites et vos analyses quantitatives appliquées à la linguistique... A quand une analyse des proximités sociales ?

17 avril, 2007 11:12  
Blogger franCk a écrit...

lels liens des deux dernieres images sont foireux...

17 avril, 2007 12:46  
Blogger Marc a écrit...

L'étude est intéressante !
Il me semble avoir vu dans une émission récemment Olivier Besancenot qui avait fait exactement, au mot près et aux intonations près le même discours, à quelques jours d'intervalle.
En ce qui me concerne, ça ne me choque pas. Un meeting électoral, c'est quoi ? c'est un spectacle, un show. On ne reprochera pas à un chanteur de faire exactement les mêmes concerts sur une même tournée (ce qu'ils font, aux blagues pour meubler entre les chansons près). La nuance, c'est qu' il doit y avoir moins de fans qui font plusieurs meeting.

17 avril, 2007 14:11  
Blogger Jean Véronis a écrit...

Leila> Non, j'ai enquêté dans les entourages. Tout le monde confirme que le Pen et Bayrou écrivent leurs discours. Très souvent il les improvisent, d'ailleurs (point commun avec Bové, Besancenot, et Villiers). Cela ne veut pas dire qu'ils n'ont pas de conseiller, et fort heureusement. Même Bové a des conseillers. Cela ne veut pas forcément dire des spécialistes en marketing.

Quent à mes sympathies, vous avez peut-être trouvé une sorte de palimspseste électronique entre les lignes de ce que j'ai écrit...

17 avril, 2007 15:41  
Blogger Jean Véronis a écrit...

Tanguy> Oui, je suis en train de travailler à cette matrice de similarité entre candidats. Mais il y a différentes façons de faire, et ça demande un peu de réflexion pour ne pas dire des bêtises. Et en tout cas, vous avez raison, on ne peut pas utiliser des heptagrammes, dont la redondance est pratiquement inexistance entre candidats.

17 avril, 2007 15:43  
Blogger Tom a écrit...

Merci pour ces réponses toujours aussi instructives. Je n'avais pas noté ce paradoxe "idées changeantes = copié/collé".

Vivement dimanche mais plus ça va et plus je me dis que ni Sarkozy ni Ségolène ne seront au second tour ...

18 avril, 2007 08:58  
Anonymous Patrick a écrit...

Bonjour,
L'étude est intéressante. Je me demandais s'il existait un travail semblable sur les discours en période pré-électorale: 95 et 2002. Je recherche à la fois des références bibliographiques sur la question et des corpus représentatifs de ces 2 périodes.
Merci pour tout tuyau ou conseil éventuel

18 avril, 2007 09:19  

Enregistrer un commentaire