Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

vendredi, mars 09, 2007

Outil: Discours 2007

La base Discours 2007 s'étoffe : déjà plus de 120 discours en ligne, que nous récupérons quotidiennement avec mon collègue Damon Mayaffre du CNRS à Nice. Comme vous l'avez peut-être aperçu, un moteur de recherche intégré permet de rechercher mots et expressions dans la totalité des discours :


La démarche est citoyenne : l'idée est, comme je l'avais fait pour le TCE en 2005, de rendre navigable une information éparpillée ou difficile d'accès.

Je viens d'ajouter une fonction qui permet de comparer la fréquence d'un mot comme travail, d'un morceau de phrase comme je veux, ou d'une expression comme immigr.* pour avoir tous les mots qui commencent par cette racine (voir aide).

Il y a parfois des surprises. Par exemple, qui parle le plus des riches ? Arlette Laguiller, bien sûr, mais en deuxième position, non, ce n'est pas Ségolène Royal, ni Marie-George Buffet :



Et bien sûr, la base permet d'aller voir les contextes.

Qui parle d'écologie ? Eh bien pas grand monde à part Dominique Voynet. Le pauvre Nicolas Hulot s'est fait-il rouler dans la farine ? Mais ce n'est pas un scoop. Plus étonnant : qui arrive en deuxième position ? (Reste à savoir ce qu'il en dit).




Et bien sûr, chaque discours peut-être visualisé sous forme de nuage en cliquant sur l'icône :



À vous de jouer !

*

J'en profite pour lancer un appel : nous avons beaucoup de mal à trouver les discours des «petits» candidats. La plupart du temps, ils ne sont pas sur leur site, ou pas de façon systématique. Mes requêtes auprès des équipes de campagne sont restées sans réponses (peut-être sont-elles engluées dans la course aux signatures ?). Si vous êtes en relation avec elles, demandez leur les discours de leurs candidats. La pluralité ne peut se faire qu'en l'aidant un peu...

16 Commentaires:

Anonymous Vincent a écrit...

Bonjour

très bel outil, comme les autres.... à propos d'écologie, la recherche sur "réchauffement" donne des résultats amusants aussi... Voynet n'en semble pas très inquiète... ;-)

et il est rassurant de voir à quel point ils sont tous préoccupés par la recherche...

09 mars, 2007 10:55  
Anonymous Vincent a écrit...

je ne m'en lasse pas.... une recherche sur Sarkozy montre qu'il hante les jours et les nuits de Laguiller (au tout du moins ses discours...), mais Royal n'a pas une fois prononcé ce nom, alors que Sarkozy lui-même s'en sert (dans des citations il est vrai)

09 mars, 2007 10:57  
Blogger Jean Véronis a écrit...

Eh, eh ! Je pensais bien que ce serait ludique. Ca a été la même chose pour le TCE. Les gens cherchaient banque, boyau, saindoux... (je vous jure que tous ces mots y sont!).

09 mars, 2007 11:03  
Anonymous Anonyme a écrit...

C'est interessant mais est-ce que le fait que le nombre de discours et donc le le nombre de mots par candidats soit différent pour chacun ne fausse pas les statistiques? ( je suis nulle en stats, c'est pour ça que je pose la question. En plus, n'avoir qu'un discours de Besencenot par exemple, à mon avis n'est pas très representatif de son style, non?

09 mars, 2007 11:10  
Blogger Jean Véronis a écrit...

Anonyme> Les comptes sont ramenées à 1 pour 100 000 mots (colonne Fréquence relative).

Vous remarquerez de plus que je ne sort pas de résultats pour les candidats dont je possède moins de 5 discours, parce qu'il y a trop de chances que ces discours soient sur des thématiques particulières qui fausseraient l'interpréation (par exemple pour certains je n'ai que leur discours à la fondation Hulot).

Donc, j'ai tenu compte de votre remarque.

09 mars, 2007 11:14  
Anonymous Bubul a écrit...

"Le pauvre Nicolas Hulot s'est fait-il rouler dans la farine ?"

Euh Jean, le petit Hulot c'est pas celui qui a roulé tout le monde dans le farine (enfin le croyait-il) en laissant planer le doute qu'il pourrait être candidat ?

Le plus gros gag politique de la campagne !

Et dire que les médias dans l'ensemble se sont prêtés au jeu. Consternant !

09 mars, 2007 13:21  
Anonymous krissolo a écrit...

Bsr,

Outil intéressant. Dommage qu'il sérare les candidtas entre "petits", du fait de la difficulté d'incrémentation de la base de données, et "grands" au nombre de discours. Une chose intéressante, si on tape "immigration" Le Pen et Sarkosy arrivent en tête. C'est sans surprise, ce qui l'est plus c'est qu'ils soient quasiment à égalité et ausi le trou qu'ils créent, sur cette thématique, avec les autres candidats.

09 mars, 2007 18:06  
Blogger PAC a écrit...

Les analyses lexicales sont intéressantes, mais je crois que je serais plus intéressé par des analyses grammaticales. Ce qui compte, me semble-t'il, ce ne sont pas tant les mots employés que la rhétorique, le comment on passe d'une proposition à l'autre. Par exemple, il me semble que S Royal a un truc, elle ramène souvent des arguments à des "moi, je pense…"… Ce serait bien d'avoir des analyses un peu systématiques de "figures rhétoriques".

09 mars, 2007 19:46  
Anonymous Dominique a écrit...

Pac, ce genre d'analyse a été déjà menée au sujet de Jospin qui commençait systématiquement ses interventions par des marqueurs de pensée (je crois que, je veux dire que, j'ai l'intention de dire que, je voudrais énoncer le fait que). Ils ralentissaient l'arrivée de l'argument et en atténuaient la portée, tout en créant une distance du sujet par rapport au propos. Ce qui serait intéressant, c'est une comparaison entre Ségolène qui a en effet souvent cette tournure plus directe où le locuteur est plus en adhésion avec l'argument et puis les marqueurs de Sarkozy avec effets de manche (vous savez comment cela se nomme ? Je vais vous le dire, cela s'appelle...) qui établissent aussi un effet d'attente, mais en même temps de correspondance entre le locuteur et l'argument (moi seul je le dis). Il y a une alchimie assez étrange entre le fait que l'on doit faire adhérer à sa personne et en même temps traduire un mouvement collectif (avec des formes diverses, les sympathisants, le parti, la Nation). Les marqueurs sont ambigus car ils peuvent ne plus être des signes de lien avec les autres, mais aussi d'embarras ou alors de trop faible distance de soi à soi. J'ai seulement l'impression qu'ils sont devenus plus fréquents un peu partout depuis disons dix ans.

09 mars, 2007 20:42  
Anonymous erasme de metz a écrit...

L'outil est amusant mais je serais bien en peine d'en tirer des conclusions. J'ai un peu peur que l'on puisse faire dire n'importe quoi à cet outil.
Si vous prenez le terme "environnement" c'est plus positif pour Nicolas Hulot.

Prenez le mot "solidarité" et vous pourrez conclure que Ségolène Royal est la plus solidaire ... et Bayrou un dangereux ultralibéral (oups fallait pas le dire :-))

Tapez le mot "guerre" et vous verrez en effet que les extrèmes se rejoignent et que les mecs ne pensent qu'à ça....

10 mars, 2007 08:17  
Anonymous erasme de metz a écrit...

Est-ce qu'il ne serait pas intéressant de faire l'exercice sur les programmes?
Les discours e semblent intriduire un biais: ils peuvent être thématiques et cela nécessiterait d'être certain de les avoir tous pour un candidat donné

10 mars, 2007 08:19  
Blogger Jean Véronis a écrit...

Erasme> J'ai un peu peur que l'on puisse faire dire n'importe quoi à cet outil. -- comme avec tous les outils... A utiliser avec esprit critique !

Les discours e semblent intriduire un biais: ils peuvent être thématiques et cela nécessiterait d'être certain de les avoir tous pour un candidat donné -- c'est le cas poru les grands candidats. C'est aussi pour ça que je ne donne aucune comparaison quantitative pour les candidats qui ont moins de 5 discours dans la base.

Et oui, vous avez raison, il faudrait aussi analyser les programmes...

10 mars, 2007 08:46  
Anonymous Gregoire C a écrit...

Bonjour Jean,

Juste pour réagir à l'exemple des riches et à ta question initiale : qui parle le plus des "riches" ?

Tous ces braves discoureurs ne parlent pas tous toujours des mêmes riches ni forcément pour en dire la même chose. Si je regarde Bayrou, dans les extraits que tu donnes, il évoque p.ex. pas mal les pays riches (au moins une bonne moitié des occurrences), alors que d'autres s'obnubilent plus sur les, disons, ploutocrates de la Nation.

Ce qui rend les comparaisons un peu plus délicates et la réponse à ta question un peu moins évidente.

Ce n'est donc pas tant "qui parle le plus des X ?", mais plutôt "qui emploie le plus le terme, le mot, la chaîne de phonèmes ou de caractères X ?" -- ce qui est un rien différent, non ?

Comme disait l'autre : The map is not country; the word is not the thing. ;-)

Amicalement,
-- GC

12 mars, 2007 18:40  
Blogger Valere a écrit...

Bonjour,

beau travail ! Est il possible d'avoir des statistiques sur le rapprochement des noms de candidats dans les discours, je pense par exemple que l'on pourrait voir le nombre de "bayrou" augmenter dans les discours de Royal, LePen et Sarkozy en ce moment.

Il serait interessant de trouver ensuite correlations avec d'autres courbes.. comme celles des sondages.

De la meme façon, des nuages de mots sur une ligne temps, pourrait peut etre nous montrer si ce sont les sondages qui façonnent les discours ou le contraire.

A bientot.

13 mars, 2007 13:59  
Anonymous Anonyme a écrit...

Pour José Bové, il y en a d'autres, là qui ne sont pas encore référencé sur aixtal :
http://unisavecbove.org/spip.php?rubrique19
Mais ce site a été crée pour lui demandé d'être candidat, apres la séparation du PCF et de la LCR.

Il n'etait pas candidat officiel avant, mais d'autres déclarations ont été faites, je ne sais pas si il faut les prendre en compte ?

Pas mal de déclarations du mouvement doivent être encore disponibles ici :
http://www.alternativeunitaire2007.org/spip/

26 mars, 2007 15:02  
Anonymous Anonyme a écrit...

Bonjour, c'est un travail intéressant, qui peut servir de base pour des analyses plus poussées. En ce qui concerne la fréquence de certains termes, je pense qu'il est normal de trouver, dans le discours de chaque candidat des termes qui sont censés faire sens pour le public que le candidat cible et qui n'est pas forcément le public déjà acquis au candidat. Il faut se rappeler que les camapgnes électorales sont faites pour les indécis et les groupes cibles qui sont susceptibles de migrer(sympathisants de l'extrême gauche par exemple) pendant la campagne ou après le premier tour.
Il est donc normal de retrouver le mot "riche" chez Arlette Laguiller, dont le principal objectif, est, je crois, de rassurer son électorat (je sui là et on parle des même chose), alors que pour quelqu'un comme Nicolas Sarkozy l'utilisation du terme ne fait pas de sens, car il ne s'intéresse pas à l'électorat de l'extrême gauche. C'est sans doute une explication grossière, mais je crois qu'il faudrait rajouter des interprétations de spécialistes en communication politique, les deux domaines y auraient beaucoup à gagner.
Pour des anlyses plus poussées, il y a des choses extrêmement significatives dans le discours qui sont perdues dans la transcription, il s'agit notamment de l'intonation (souvenez-vous de l'intonation "compatissante" des premiers discours de Ségolène Royal, une vraie mélopée, marquée par des inflexions d'"espoir"). Je crois que des logiciels comme Praat peuvent analyser le contour intonatoire. Une bonne idée serait aussi d'élargir l'analyse à des (macro-)structures discursives (déjà cuggérées par Pac et Erasme sur ce blog), la fréquence des mots me semble quand même moins révélatrice quand utilisée toute seule. Bonne continuation !

03 avril, 2007 14:15  

Enregistrer un commentaire