2007: La presse a fait mieux que les sondeurs
Sans le savoir, la presse nationale avait prévu le résultat du premier tour presque à la virgule près. En tous cas mieux que les instituts de sondages officiels. C’est le résultat extrêmement étonnant qui sort de mon outil d’analyse de la presse, Presse 2007, qui scanne en permanence les sites de six quotidiens (Les Échos, Le Figaro, L’Humanité, Libération, Le Monde, Le Parisien) ainsi que le site Marianne 2007.
A l’aide des fils RSS, j’ai récupéré 2200 articles sur les sites de ces différents médias dans la semaine précédant la clôture de la campagne, et j’ai analysé l’intégralité du texte de ces articles (pas seulement le résumé fourni par le fil RSS) de façon à calculer le taux de citations des différents candidats (voir le mode de calcul dans l’étude détaillée en pdf ).
Quand j’ai vu les chiffres apparaître sur mon écran, j’en ai eu le souffle littéralement coupé. Les taux de citations sont extrêmement proches du résultat final, et permettent, en particulier, de prédire l’ordre d’arrivée des quatre principaux candidats :
L’écart entre les taux de citations et le résultat peut être quantifié précisément à l’aide d’une mesure utilisée communément en statistique pour évaluer la qualité de l’ajustement d’un modèle, l’écart quadratique moyen (on calcule la moyenne des carrés des écarts, puis on en prend la racine carrée) . Cette mesure est reportée dans la ligne Écart. Elle permet de classer la qualité de la « prédiction » des différents médias. Le plus proche du résultat officiel est le journal Les Échos, suivi de près par Le Parisien et Le Monde. L’ordre des différentes colonnes de gauche à droite suit le classement en fonction de l’écart. La ligne Top 4 donne la même mesure d’écart, mais restreinte aux quatre « grands candidats ».
On remarquera qu’on trouve à droite du tableau des publications plus engagées, comme L’Humanité, qui fait bénéficier Marie-George Buffet d’un taux de citations extrêmement élevé (17,5%, c’est-à-dire autant que ce que le journal attribue à Ségolène Royal). A part ce cas un peu extrême, les biais des autres médias se compensent les uns les autres (voir analyse détaillée dans l'étude en pdf). Ceci explique que la moyenne des taux de citations, lorsqu’on exclut le journal L’Humanité, est légèrement plus proche du résultat que le journal Les Echos (colonne Moyenne-H). On peut encore améliorer le résultat en ne retenant que le « Top 3 » des trois médias de tête (sans doute les moins « engagés ») : Les Échos, Le Parisien et Le Monde (colonne Moyenne3). Cette moyenne est étonnamment proche du résultat officiel (écart inférieur à un point).
Le plus étonnant est que ces résultats sont meilleurs que ceux des instituts de sondages.
On voit que l’institut BVA est le plus proche du résultat, à peu près à égalité avec la « prédiction » du journal Les Échos et légèrement moins bon que la moyenne des taux de citations sans L’Humanité. L’institut CSA, dernier du classement, est plus éloigné du résultat officiel que quatre grands quotidiens (Les Échos, Le Parisien, Le Monde, Libération). La moyenne des taux de citations du « Top 3 » de la presse est nettement meilleure que le meilleur des instituts (BVA).
On remarquera d’ailleurs qu’on ne peut pas améliorer les résultats des sondages en en prenant la moyenne, même restreinte aux deux ou trois meilleurs (voir résultats analogues ici). Les moyennes restent plus éloignées du résultat officiel que les valeurs fournies par l’institut BVA. Ceci s’explique par le caractère systématique des biais des différents instituts, qui vont tous dans le même sens (surestimation importante de Jean-Marie Le Pen et sous-estimation de Nicolas Sarkozy, notamment), alors que les biais de la presse ont tendance à se compenser.
L’étude jointe en pdf donne une analyse plus détaillée des écarts, média par média.
Il faut sans doute beaucoup de précautions devant un résultat aussi étonnant, et des études complémentaires et approfondies qui relèvent de la sociologie des médias, mais cette étonnante convergence est certainement à analyser : auto-régulation des rédactions autour d'une sorte d' « équité » intuitive ? Fabrication de l'opinion par les médias ? Sans doute un peu de tout ça...
Le fait que la presse fasse, de façon purement intuitive, mieux que les sondeurs est certainement un fait à méditer. J’ai ma petite hypothèse : on sait que les chiffres publiés ne sont pas les données brutes des enquêtes, mais des chiffres redressés (en ce qui concerne Jean-Marie Le Pen, l’importance du redressement peut atteindre presque un facteur trois, ce qui est extrêmement important). Les instituts gardent secrètes les méthodes de redressement, mais l’on sait qu’elles sont extrêmement délicates, et qu’in fine, les instituts opèrent des correctifs et un redressement manuel en fonction de leur « intuition politique ». Il n’est alors pas étonnant que des centaines de journalistes, observateurs expérimentés des rapports de force et de la vie politique, aient collectivement une meilleure « intuition politique » que les instituts de sondage.
Il est frappant de constater que les rédactions ont corrigé (plus ou moins consciemment, à nouveau) la surestimation importante du score de Jean-Marie Le Pen opérée par les sondeurs. Il est probable que divers indices de nature qualitative étaient perceptibles par les journalistes pour leur laisser penser, collectivement s’entend, que le scénario de 2002 était peu probable en 2007 : interviews de militants et sympathisants, affluence dans les meetings, etc. L’observation de la courbe des sondages sur Jean-Marie Le Pen sur la période de la campagne est également un élément de considération important : en forte croissance sur les dernières semaines avant le premier tour de 2002, elle était presque parfaitement plate avant celui de 2007.
Qu’on l’interprète d’une manière ou d’une autre, cette étude met en évidence de façon éclatante les jeux complexes d’interaction entre les médias, les sondages et l’opinion, qui ont sans doute été plus intenses dans cette élection que dans tout autre jusqu’ici.
Extrait :
A l’aide des fils RSS, j’ai récupéré 2200 articles sur les sites de ces différents médias dans la semaine précédant la clôture de la campagne, et j’ai analysé l’intégralité du texte de ces articles (pas seulement le résumé fourni par le fil RSS) de façon à calculer le taux de citations des différents candidats (voir le mode de calcul dans l’étude détaillée en pdf ).
Quand j’ai vu les chiffres apparaître sur mon écran, j’en ai eu le souffle littéralement coupé. Les taux de citations sont extrêmement proches du résultat final, et permettent, en particulier, de prédire l’ordre d’arrivée des quatre principaux candidats :
Taux de citations dans les différents médias
L’écart entre les taux de citations et le résultat peut être quantifié précisément à l’aide d’une mesure utilisée communément en statistique pour évaluer la qualité de l’ajustement d’un modèle, l’écart quadratique moyen (on calcule la moyenne des carrés des écarts, puis on en prend la racine carrée) . Cette mesure est reportée dans la ligne Écart. Elle permet de classer la qualité de la « prédiction » des différents médias. Le plus proche du résultat officiel est le journal Les Échos, suivi de près par Le Parisien et Le Monde. L’ordre des différentes colonnes de gauche à droite suit le classement en fonction de l’écart. La ligne Top 4 donne la même mesure d’écart, mais restreinte aux quatre « grands candidats ».
On remarquera qu’on trouve à droite du tableau des publications plus engagées, comme L’Humanité, qui fait bénéficier Marie-George Buffet d’un taux de citations extrêmement élevé (17,5%, c’est-à-dire autant que ce que le journal attribue à Ségolène Royal). A part ce cas un peu extrême, les biais des autres médias se compensent les uns les autres (voir analyse détaillée dans l'étude en pdf). Ceci explique que la moyenne des taux de citations, lorsqu’on exclut le journal L’Humanité, est légèrement plus proche du résultat que le journal Les Echos (colonne Moyenne-H). On peut encore améliorer le résultat en ne retenant que le « Top 3 » des trois médias de tête (sans doute les moins « engagés ») : Les Échos, Le Parisien et Le Monde (colonne Moyenne3). Cette moyenne est étonnamment proche du résultat officiel (écart inférieur à un point).
Moyennes des taux de citations
Le plus étonnant est que ces résultats sont meilleurs que ceux des instituts de sondages.
Derniers sondages avant le premier tour
On voit que l’institut BVA est le plus proche du résultat, à peu près à égalité avec la « prédiction » du journal Les Échos et légèrement moins bon que la moyenne des taux de citations sans L’Humanité. L’institut CSA, dernier du classement, est plus éloigné du résultat officiel que quatre grands quotidiens (Les Échos, Le Parisien, Le Monde, Libération). La moyenne des taux de citations du « Top 3 » de la presse est nettement meilleure que le meilleur des instituts (BVA).
Classement des différentes sources en termes d’écart avec le résultat officiel
On remarquera d’ailleurs qu’on ne peut pas améliorer les résultats des sondages en en prenant la moyenne, même restreinte aux deux ou trois meilleurs (voir résultats analogues ici). Les moyennes restent plus éloignées du résultat officiel que les valeurs fournies par l’institut BVA. Ceci s’explique par le caractère systématique des biais des différents instituts, qui vont tous dans le même sens (surestimation importante de Jean-Marie Le Pen et sous-estimation de Nicolas Sarkozy, notamment), alors que les biais de la presse ont tendance à se compenser.
L’étude jointe en pdf donne une analyse plus détaillée des écarts, média par média.
Il faut sans doute beaucoup de précautions devant un résultat aussi étonnant, et des études complémentaires et approfondies qui relèvent de la sociologie des médias, mais cette étonnante convergence est certainement à analyser : auto-régulation des rédactions autour d'une sorte d' « équité » intuitive ? Fabrication de l'opinion par les médias ? Sans doute un peu de tout ça...
Le fait que la presse fasse, de façon purement intuitive, mieux que les sondeurs est certainement un fait à méditer. J’ai ma petite hypothèse : on sait que les chiffres publiés ne sont pas les données brutes des enquêtes, mais des chiffres redressés (en ce qui concerne Jean-Marie Le Pen, l’importance du redressement peut atteindre presque un facteur trois, ce qui est extrêmement important). Les instituts gardent secrètes les méthodes de redressement, mais l’on sait qu’elles sont extrêmement délicates, et qu’in fine, les instituts opèrent des correctifs et un redressement manuel en fonction de leur « intuition politique ». Il n’est alors pas étonnant que des centaines de journalistes, observateurs expérimentés des rapports de force et de la vie politique, aient collectivement une meilleure « intuition politique » que les instituts de sondage.
Il est frappant de constater que les rédactions ont corrigé (plus ou moins consciemment, à nouveau) la surestimation importante du score de Jean-Marie Le Pen opérée par les sondeurs. Il est probable que divers indices de nature qualitative étaient perceptibles par les journalistes pour leur laisser penser, collectivement s’entend, que le scénario de 2002 était peu probable en 2007 : interviews de militants et sympathisants, affluence dans les meetings, etc. L’observation de la courbe des sondages sur Jean-Marie Le Pen sur la période de la campagne est également un élément de considération important : en forte croissance sur les dernières semaines avant le premier tour de 2002, elle était presque parfaitement plate avant celui de 2007.
Qu’on l’interprète d’une manière ou d’une autre, cette étude met en évidence de façon éclatante les jeux complexes d’interaction entre les médias, les sondages et l’opinion, qui ont sans doute été plus intenses dans cette élection que dans tout autre jusqu’ici.
Etude détaillée
PS
- J'en ai dit deux mots dans une émission que j'aime bien, J'ai mes sources, animée par chez Colombe Schneck (mardi 1er mai, à 10h30 en début d'émission) (podcast).
Extrait :
Lire la suite
Libellés : Politique
69 Commentaires:
Epoustouflant...
La valeur ajoutée de ce blog est sans commune mesure sur Internet, merci infiniment.
Avez-vous comptabilisé les références aux candidats par leur Diminutif ex: Sego, Sarko, MGB, ... ?
Il y a aussi "bayrouistes", "royalistes", "sarkozyste", "lepénisation", ...
et bien sûr schivardisme, lol
Ah, et enfin les références aux partis, cela serait-il pertinent pour les legislatives ?
Et quel sera le résultat du second tour avec cette méthode ?
On pourrait essayer et comparer depuis le début de la campagne (les résultats déjà compilés dans cette étude) et depuis lundi 23 au matin.
Assez d'accord avec le commentaire ci-dessus: ce site est un must.
Et le taux de citation de l'entre deux tours sera disponible quand ? :-)
Merci pour les compliments ! Ca fait plaisir...
Skyrl> Oui, je prends en copte Ségo/Sarko. Evidemment, on pourrait faire une analyse beaucoup plus poussée et prendre en compte ségoliste, sarkozien (-ziste ?) etc. mais c'est assez complexe et je ne suis pas sûr qu'on n'ajoute pas en fait du bruit. Enfin, ce sont des axes de recherche pour le futur en tout cas !
Anonyme & D. > Je regarderai ça pour le second tour mais pour être cohérent, je prendrai la semaine du samedi au vendredi (et je ne pourrai rien publier pendant la période de black-out, vu que ce serait illégal). Il faudra attendre après la clôture du scrutin. Quelle angoisse !
Surprenant !
Mais peut on pour autant affirmer qu'il existe une relation entre le pourcentage de citations et le vote des citoyens. Je ne le crois pas. Du moins, pas dans ce sens là.
En effet, si on prend par exemple le journal Les Echos (classé à droite), qui est le plus proche des résultats, je doute que les lecteurs de ce journal aient voté pour Mme Royal à 25 %.
Il serait nécessaire de connaître le vote des lecteurs de ces différents journaux...
Lds> Non, bien sûr, il ne faut pas voir de relation directe de cause à effet, bien que probablement l'ensemble des médias auquel un électeur est soumis a probablement un impact mal quantifié (je doute qu'il y a ait beaucoup de gens qui ne soient exposés qu'aux Echos, ou qu'à l'Huma : ils regardent la télé etc.).
A mons avis, l'effet principal est à chercher du côté d'une auto-régulation plus ou moins inconsciente des médias visant à une sorte d' "équité".
A creuser. Je doute que quiconque ait une réponse scientifique pour l'sintant.
Un detail a noter : le Figaro est le journal qui parle le moins de Sarkozy !! (mais peut-etre ne mieux...)
Un point important. Il ne faut peut-etre pas donner trop d'importance a ce test. La meme analyse en 2002 aurait tres probablement donne des ecarts beaucoup plus importants. Il faut bien voir que cette elections a vu un taux historiquement bas de votes extremes (racolage de Sarkozy sur sa droite, chantage au vote utile du cote du PS). Or les journalistes, de par leur position sociale et leur mode de recrutement, sont tres "centristes". Il n'y a qu'a voir comment les editorialistes qui perorent sur tous les canaux jubilent depuis une semaine (voir acrimed pour une analyse).
C'est effectivement frappant, mais à nuancer par d'autres expériences, même de pensée.
La couverture de la campagne Le Pen en 2002 était très inférieure à celle de 2007 (probablement plus proche de 5-6% que de 11% des citations) et son pourcentage a été très supérieur ... les instituts étaient donc certainement plus près du résultat, que les parts de voix dans la presse.
Blop & FredericLN> Je n'en tire aucune loi générale, bien entendu. Ce serait d'ailleurs très intéressant de regarder ce qui s'est passer exactement en 2002. Les intuitions peuvent être assez fausses : j'avais l'impression que la presse (notamment Libé) parlait beaucoup plus de Le Pen ces dernirs temps, que je ne le constate dans les chiffres...
Il n'en demeure pas moins que cette convergence de 2007 est étrange, et une chose est sûre : elle ne peut guère relever du hasard !
Stupéfiant. J'en profite pour dire que vous éditez un de mes sites Web préférés.
Une question qui vient à l'esprit est la suivante : et pour 2002, avions-nous les même corrélations? En particulier pour ce qui concerne Jean Marie Le Pen?
J'en serais très surpris. Qu'en pensez-vous?
Encore une fois bravo pour vos études.
Yves> Merci pour le compliment ! Comme je le disais dans le commentaire précédent (nos commentaires ont dû se croiser) ce serait effectivement intéressant de le faire pour 2002, mais je n'ai pas les données... Je me méfie énormément des intuitions en la matière. Notre perception est facétieuse !
Bravo Jean ! J'avais prévu de profiter de mon premier mai pour tester ça, inspiré par cet article du Monde, mais tu as été plus rapide ;)... Bah, il me toujours à essayer d'obtenir les valeurs d'erreur pour le mu-tendançologue, le candidatologue et elysee2007endirect...
Freecorp> Oui, le site cité par le monde semle aller dans le même sens, mais comme le dit l'article du
Monde "la méthode n'est pas scientifique". J'espère que la mienne l'est un peu plus ;-)
similairement, rtgi , remarque le même phénomène, en prenant en compte différente sphères informationelles.
Très intéressant.
J'aime bien la formulation de Jean Véronis dans une réponse à un post :
"Je doute qu'il y ait beaucoup de gens qui ne soient exposés qu'aux Echos, ou à l'Huma" - et moi qui pensait justement à m'abonner à ces deux éminents journaux ... Je vais finalement m'en tenir à l'exposition à la télé (et aux rayons cosmiques).
Je me demande si je ne viens pas de faire une faute de grammaire dans mon post de 00:57 : "Moi qui pensait ou pensais " ? Au secours !
Je suis moi aussi au nombre des aixtal-addicts. Fréquence de consultation en hausse, appréciation croissante... :-)
Une hypothèse folle me vient à l'esprit : et si les instituts de sondages nous faisaient juste croire qu'ils contactent des milliers de gens par téléphone ? Ils auraient développé des outils semblables à vos programmes, et s'appuyeraient uniquement sur des panels d'articles représentatifs. Des fils rss et un tableur coûtent moins chers que mille coups de fil et des enquêteurs à rémunérer.
Plus sérieusement, le phénomène que vous mettez en lumière montre, je crois, une proximité entre la presse et les citoyens. Soyons positifs : c'est rassurant pour le compte de la presse ; l'homo journalisticus est un être humain comme un autre, il pense même comme ses concitoyens ou presque.
d.strohl > "nous qui pensions", donc "moi qui pensais"...
"une chose est sûre : elle ne peut guère relever du hasard" > allons, allons ! Et si la hauteur de la pyramide de Kheops multipliee par la base de celle de Guizeh fois l'age du capitaine fait exactement la distance Terre-Lune c'est la preuve que... ? Il faut faire attention aux coincidences.
Bien sur on s'attend a une tres forte correlation entre visibilite mediatique et resultats d'un vote mais attention a ne pas trop extrapoler a partir d'un resultat ! Pour le referendum sur le TCE les sondages s'etaient plutot moins trompes que les medias...
PS : a part ca, puisque ce message genere des commentaires laudatifs sur l'ensemble du blog, je m'y joins bien volontiers !
Blop> Le phénomène "Kheops" dont vous parlez intervient quand on cherche des corrélations a posteriori entre de nombreux paramètres qui n'ont rien à voir. On finit toujours par trouver quelque chose (et c'est d'ailleurs statistiquement prévisible). Dans ce cas précis, ce sont des paramètres qui ont éminément à voir, et je suis le plan d'étude que je me suis fixé il y a plusieurs mois en lançant Presse 2007. Je ne suis pas en train d'essayer toutes les combinaisons jusqu'à en trouver une bonne. il y a donc une différence importante, vous en conviendrez.
Quant à ne pas trop extrapoler, je suis d'accord avec vous, et vous verrez les nombreuses réserves que je mets dans ma discussion dans le pdf.
(et merci pour les laudes, en cette heure matinale ;-)
Benoit> Une hypothèse folle me vient à l'esprit : et si les instituts de sondages nous faisaient juste croire qu'ils contactent des milliers de gens -- Évidemment, vous présentez ça de façon ironique, mais il y a quand même une petite chose à creuser. Je suis convaincu que les enquêtes sont faites (mais dans quelles conditions, cela reste à déterminer). Le flou intervient après, dans le fameux "redressement". On sait par exemple que pour Le Pen ça peut aller jusqu'à une multiplication par 3... Il y a quelques questions supplémentaires (comment avez vous voté en 2002?), mais lesquelles prend-on en compte et comment les fait-on entrer dans le calcul ? Réponse : le flair. Et in fine, après épuisement des paramètres possibles, c'est la lecture des autres sondages et de la presse qui intervient pour donner le chiffre final. C'est peut-être plus le "flair politologique" qui donne le résultat à l'arrivée que les statistiques... Donc, dit de façon un petu provocante aussi : les interviews par téléphones sont bien réellement faites, mais servent-elles au bout du compte d'autre chose que de paravent scientifique qui masque une cuisine assez opaque ?
Il y a un excellent article ici (d'un fidèle lecteur, FrédéricLN).
Et attention à l'addiction. Il faudrait mettre un bandeau "Commencez à bloguer peut entraîner une forte dépendance", et interdire ça dans les lieux publics !
Bonjour,
Déjà, merci pour ce magnifique journal que je découvre.
Je ne sais pas si il est possible d'interpréter ces résultats, il faudrait avoir le même genre d'enquête sur des dizaines d'élections (à l'étranger, en France, sur d'autres périodes, ...) pour avoir des prémices d'interprétations.
Un peu néophyte en linguistique, comment nommeriez-vous ces domaines de recherche ?
Lejocelyn> Entièrement d'accord. Pour comprendre vraiment ce qui se passe, il faudra observer d'autres élections !
Le nom du domaine de recherche ? "technologies du langage' ;-) ou bien, plus classique : "Traitment automatique des langues" (TAL).
intéressant ce résultat... et bien difficile à interpréter ! (d'ailleurs je ne suis pas forcément convaincu sur votre hypothèse de "l'intuition politique" qui serait plus élevée chez les journalistes politiques que chez les sondeurs : c'est oublier la place qu'a pris chez les journalistes la consommmation de sondages dans les constructions de leurs analyses...)
à propos, je peux me permettre un ou deux qustions ?
- si on veut comparer cet outil avec les sondages, il faudrait une présentation "longitidunale", montrant les évolutions des citations paraléllement aux courbes d'intentions de vote/popularité, non ?
- techniquement, ça serait faisable d'attribuer une variable (+/-/0...) aux différents journaux selon que leur évocation des différents candidats est plus ou moins favorable ou critique ?
c'est un beau travail que vous avez fait là, parce qu'il apporte beaucoup plus de questions que de réponses.
bonjour à tous,
nous avons pu remarquer d'après les résultats que nous obtenons de l'observatoire présidentiel la même similitude entre buzz médiatique et résultats du premier tour. Nous obtenons sur une période de 30 jours ou plus un écart de moins d'un point avec les 3 grands candidats, la différence étant plus marquée chez JMLeP (on peut à priori interpréter cet écart de par les corrections et autres réévaluations de ses voix, sans doute une continuité de l'effet 21 avril qui demande plus d'attention).
Pour reprendre l'étude de Jean Véronis, je cautionne tout à fait le point de vue journalistique qui consiste à adapter en fonction des résultats des sondages l'attention des articles de manière plus ou moins proportionnel à leur poids. Cet raisonnement a forcément un effet de bord sur les lecteurs, dont l'attention est "proportionnellement" focalisée.
Ceci n'explique pourtant en rien le vote des citoyens, qui aurait finalement pu être tout autre que le poids qu'avait accordé les médias aux présidentiables. Cette corrélation mériterait une étude poussée.
Musil> bien difficile à interpréter -- Bien d'accord. Mais c'est ça qui est justement fascinant pour le chercheur !
c'est oublier la place qu'a pris chez les journalistes la consommmation de sondages dans les constructions de leurs analyses -- Non, j'en parle dans la discussion dans le pdf. Il y a un jeu d'intercations complexes opinion/sondages/presse et je doute que les interactions soient dans un seul sens.
Il y a un phénomène de masse : dans les instituts de sondages, c'est un petit nombre de personnes, avec des "biais" homogènes qui applique des redressements "au flair". Dans le cas de la presse, ce sont des centaines de journalistes, avec des biais différents.
les évolutions des citations paraléllement aux courbes d'intentions -- Oui, c'est dans mon agenda (mais c'est un peu long à faire). Cela donnera déjà quelques éclairages supplémentaires.
une variable (+/-/0...) aux différents journaux -- sans doute, mais il faut pour cela commencer une analyse de contenu. Il est visible que les forts taux de citations peuvent aller dans deux sens opposés :
-- encenser un candidat (exemple L'Huma avec MG Buffet)
-- le critiquer (exemple Libé avec Sarkozy).
Sébastien> nous obtenons de l'observatoire présidentiel la même similitude -- vous avez publié quelque chose ? Ce serait intéressante de comparer nos résultats dans le détail.
Oui, tout, à fait, Guilhem s'en était occupé il y a environ une semaine.
Je vous laisse vous référer au blog de l'observatoire. Ceci étant, de mémoire, tous les résultats n'étaient pas publiés.
http://blog.observatoire-presidentielle.fr/
Bonjour Jean, les résultats que tu obtiens sur Presse2007 vont dans le même sens que ce que nous avons mesuré sur l'observatoire. Pourtant nous ne nous intéressons pas à la même sphère informationnelle, de ton côté le monde des journalistes sur un petit nombre de sources fortement maitrisées ; de notre côté la blogosphère francophone avec un grain grossier et par le spectre déformant des moteurs de recherche (blogsearch). Les chiffres que nous obtenons pour les 4 premiers candidats sont les suivants :
Nicolas Sarkozy : 31,48%
Ségolène Royal : 24,71%
François Bayrou : 18,94%
Jean Marie Le Pen : 10,87%
Ces chiffres sont obtenus sur un total de 25 000 billets publiés sur les 30 jours précédant le premier tour et correspondent aux billets renvoyés par blogsearch à une batterie de requêtes associant un des 4 candidats à un thème de campagne (exemple : sarkozy OR sarko AND "coût de la vie").
Ce qui est encore plus étonnant et je compte le publier sous peu c'est que mon premier réflexe fut de penser que c'était là un hasard heureux donc j'ai repris tous nos chiffres depuis début janvier et ai calculé les parts mensuelles de buzz, parts ensuite comparées à la moyenne des vagues de sondage, les chiffres sont très fortement corréllés à l'exception de Jean Marie Le Pen qui est toujours plus fortement doté en intentions de votes par les sondeurs qu'en part de buzz sur nos outils...
Il me semble que quelque chose de passionnant est en train d'être expérimenté par nombre d'observateurs de la blogosphère et du web en général, voilà qui devrait interroger les instituts de sondage !
Au plaisir de discuter de tout cela avec toi.
ps : le billet sur l'observatoire est : ici
En quoi serait-il illégal de publier entre les deux tours les résultats d'une étude quantitative sur les citations de Ségo/Sarko dans la presse ?
Guilhem> Oui, je viens de consulter l'Observatoire grâce au message de sébastien. Ca va effectivement dans le même sens, bien qu'apparemment la presse soit plus proche du résultat.
Ce serait intéressant pour comparer précisément nos données d'avoir exactement la même méthodologie, à savoir
- la période du 14 au 20 inclus (je pense que 30 jours c'est trop long, parce que ça a tendance a beaucop bouger pendant cette période)
- même mesure. Je crois que compter une seule fois un candidat s'il apparaît plusieurs fois dans un article n'est pas assez précis (je propose dans mon papier une mesure proportionnelle)
- Enfin, il faudrait être sûr que vos sources soient uniquemetn du blog, pas un mélange presse/blogs/sites politiques
Si tu peux remouliner ça, ce serait très intéressant. On pourrait aboutir à une publication commune !
Amis lecture, vous pouvez voir les coulisses de la recherche. La science en cours d'élaboration... Je dis parfois que les blogs ont changé ma vie universitaire. En voici un bel exemple.
Comment aurais-je publier une étude de ce type dans la semaine qui suit un événement dans les circuits classiques ? Et avoir immédiatement la réaction de collègues et du public ?
Passionnant...
Anonyme> Entre les deux tours, non, mais après la période de blackout (la veille du scrutin), ce serait tangent. Je crois bien qu'on pourrait apparenter ça à un sondage...
Désolé pour l'anonymat du message précédent, je préfère d'habitude le pseudonymat.
Tu dis « Je crois bien qu'on pourrait apparenter ça à un sondage... », mais je n'en vois aucune raison, ni sur le site de la Commission des sondages http://www.commission-des-sondages.fr/lois/lois.htm
ni sur le site de la commission de contrôle de la campagne http://www.cnccep.fr/communiques.htm
Bref, et comme dirait l'autre, «n'ayez pas peur».
Cela dit, rien ne t'y oblige non plus :-) A tes lecteurs intéressés de les produire eux-mêmes (c'est open source ?)
Mais au fond estimes-tu, en tant que citoyen, qu'il serait irresponsable de publier ces chiffres ?
Un petit coup de pouce en avance pour Jean Véronis. Les résultats du second tour ne sauraient probablement se résumer aux citations de Sarko ou Ségo pendant ces deux semaines. La citation des autres candidats, et surtout Bayrou, peut peser dans la balance ;)
Qui verra verra...
"Cette étude montre que le taux de citation des différents candidats à l’élection présidentielle dans la presse écrite nationale dans la semaine du 14 au 20 avril 2007"
Pourquoi 6 jours ? Pourquoi pas 3 mois, 3 semaines, 3 jours ou le dernier jour ?
Pour tenter d'expliquer les raisons de cette proximité ne serait-il pas intéressant de voir l'évolution de ce calcul au cours du temps ?
Depuis combien de temps la presse s'est-elle alignée sur l'opinion publique ressentie ? Quelle sont les dates marquantes pour chacun des candidats ?
Et dans 5 ans j'attends déjà avec impatience les résultats avant l'heure :D
#> Oui, là il se passe manifestement quelque chose d'inédit ! J'ai bien pensé que cela pouvait changer la donne, et pas seulement dans la presse ;-) Mais mentionne-t-on beaucoup Bayrou sans mentionner Ségo ?
En tous cas, Ségo est presque au niveau de Sarko. Vous pouvez le constater sur le diagramme quotidien de Presse 2007 ici)
Attention la mesure n'est pas la même que dans l'étude ci-dessus parce que je ne ramène pas le total à 100%.
Alex> Pourquoi 6 jours ? -- Sept, en l'occurrence. Parce que je voulais observer une période qui soit comparable grosso modo aux derniers sondages.Ceux-ci ont été réalisés aux dates suivantes :
LH2 : du 13 au 15
TNS Sofrès: 16 au 17
IFOP: du 17 au 19
IPSOS: les 19 et 20
BVA: le 20
CSA : le 20
Donc, grosso modo sur un empan d'une semaine.
Je crois par ailleurs que si on élargit la fenêtre on brouille l'image. Il faudrait (et c'est dans mon agenda) observer alors la courbe d'évolution chronologique. Je peux déjà vous dire qu'il y a eu des dates marquantes et parfois paradoxales : pics de citations de Royal dans la presse en février quand les sondages chutaient pour elle (le "trou d'air"), etc.
Mais trop de précipitation nuit à la qualité de la réflexion, donc je ferai ça calmement...
Fil> 75000 ça fait réfléchir... Et je vois que même les grandes gueules, Birenbaum ou Morandini, se sont déballonnées.
Mais au fond estimes-tu, en tant que citoyen, qu'il serait irresponsable de publier ces chiffres ? -- Si j'estimais que ça vaut vraiment la peine, pour une grande cause, je n'hésiterais pas à désobéir (j'ai admiré moi aussi Lanza del Vasto et Gandhi, un point commun avec deux candidats du premier tour !). Mais là franchement c'est une tempête dans un verre d'eau.
Sur le fond, je trouve ces règles (sondages et règles CSA) parfaitement périmées, et je doute qu'elles résistent jusqu'en 2012...
C'est marrant effectivement. Mais je ne pense pas que cela retranscrive vraiment la réalité. Si on se restreint au présent 2e tour, quand Mme Royal cite 'Sarkozy' c'est pas pour en dire du bien j'imagine. Et reciproquement pour Mr Sarkozy. Donc cette étude pourrait tout aussi bien signifier que les candidats ont plus souvent dit du mal de 'Sarkozy', puis de 'Royal' puis de 'Bayrou' etc. Ce qui corroborerait la politique de diabolisation de Sarkozy.
"les évolutions des citations paraléllement aux courbes d'intentions -- Oui, c'est dans mon agenda (mais c'est un peu long à faire)"
En voyant les courbes de presse 2007, on croit voir certaines évolutions des sondages d'opinion. N'est-il pas rapide et simple de mettre sur un seul graphique les courbes de certains sondeurs et les courbes de presse 2007? La montée de Bayrou est significative: on voit sur presse 2007 quand il a atteint les chiffres de Royal et quand il est retombé. J'avais voulu vous en dire un mot avant les élections... mais vos résultat sont vraiment bluffant!
Je découvre votre blog sur cet article étonnant... bravo ! L'information, effectivement, serait prise en "boucle" entre ce qu'elle crée et ce par quoi elle crée. Je serais très intéressé par une suite, notamment en ce qui concerne l'analyse sociologique des médias car il me semble y avoir de nombreux points intéressants capables de nous faire mieux comprendre ce qu'est une information dans un monde qui en est finalement inondé. Travaillez-vous également dans ce sens ?
Plus pragmatiquement, je suppose que beaucoup d'entre nous ont hâte de connaitre les résultats de l'analyse pour le 2nd tour... Allez vous la proposer, et si oui, avant ou après les résultats ?
Avez-vous vu que demain soir, Charles Villeneuve va donner un sacré coup de pouce à ... Nicolas Sarkozy dans son édifiant Droit De Savoir ?
Villeneuve s'est subitement souvenu à 5 jours du second tour que Sarko était du côté des "honnêtes gens" et Ségo du côté des "fraudeurs".
Et il vient nous le rappeler avce tout le professionalisme qui l'habite ...
On appelle ça du journalisme impartial ..
La suite ici :
http://filoo1962.spaces.live.com
Très étonnant effectivement. Reste que si la théorie est juste, elle doit prédire !
Le 6 mai à 20h, qui sera en avance périphélique sur l'autre ?
(et je lis ton blog à 4h30 du matin si je veux ! :-)) Aixtal : Y'a pas d'heure pour en manger.
et si la causalité était inverse ?
Ma première réaction devant les chiffres, ça a été l'étonnement et une certaine excitation.
Mais après réflexion, et au risque de passer pour un triste, est-il si étonnant qu'un système converge ? Dans une bassine, je mets de l'eau chaude à gauche, de l'au froide à droite, j'ai très vite de l'eau tiède partout. En d'autres termes, ne serait-il pas bcp plus étonnant d'observer des écarts systématiquement significatifs ? Evidemment y'a de la marge entre les deux mais il me semble raisonnable de considérer en première hypothèse (et/ou approximation) que la couverture journalistique d'un sujet (ici d'un candidat) est proportionnelle à l'importance qu'on lui prête. Si c'est le cas, ne s'est-t-on pas contenter de constater que l'importance perçue collectivement est très proche du poids réel du sujet ? Si oui, est-ce étonnant ?
A supposer qu'il existe des écarts significatifs, il me semble là aussi raisonnable de penser que le système global (médias/sondages /opinions) évolue vers leur correction, d'autant plus rapidement que, comme vous le dite de manière insistante et pertinente , les interactions sont mutuelles (j'ajoute : et permanentes).
Enfin moi c'que j'en dis hein… :)
Pour finir, et pour faire bonne mesure, j'y vais moi aussi de mon petit compliment sur ce blog. Deux mots seulement : Merci et continuez !
Qu'il y ait un certain degré de convergence entre l'opinion et la presse, ce n'est effectivement pas étonnant. C'est le degré de cette convergence qui est proprement stupéfiant, à mon avis. Je ne m'attendais pas du tout à ça.
Analyse passionnante.
Est-ce que la prise en compte des surnoms des candidats (je pense notamment à la sur-utilisation dans la presse écrite de la "Madone", la "Joconde du Poitou" pour Royal pas exemple) changerait le résultat?
Parce que si c'est le cas, cela poserait la question non pas en termes de taux de citation, mais de taux de présence des noms propres des candidats, ce qui n'est pas exactement la même chose.
Chirstine> Non, c'est très marginal. Mais je prends en compte les surnoms courants (Ségo, Sarko).
Disons qu'on est quand même là sur de grandes masses (2200 articles) et le raisonnement est statistique.
Il y a aussi une étude à faire sur les medias, les sondages et la parole performative.
S'agit-il d'intuition ou de prophétie auto-réalisatrice ?
C'est vous l'expert!
Mais si l'on compare par exemple les deux articles du Monde, l'un sur le meeting de Sarkozy à Bercy, l'autre sur le débat Royal/Bayrou, on trouve pour le premier:
Royal: 2
Ségolène: 1
Sarkozy: 7
Candidat de l'UMP: 4
Pour le second article:
Royal: 8
Ségolène: 1
candidate (ou candidate socialiste):3
Sarkozy: 2
candidat de l'UMP: 1
(j'espère que j'ai bien compté)
On a un taux de présence nominal supérieur (très légèrement, certes), pour Royal, alors que le taux de citation, si l'on inclut "candidat de", est strictement équivalent. On a aussi un rapport de citation nominale/citation "par équivalence" qui se fait en faveur de Royal par rapport au taux de citation globale. La différence n'est bien entendu pas significative, mais comme elle intervient à un moment où Royal avait repris la main dans les medias, mais je me demandais si une prise en compte différenciée des modes de citation pourrait faire apparaître d'autres pistes de réflexion.
L'hypothèse est que ces choses se compensent sur un grand nombre d'articles (comme vous le dites, les taux sont proches, de toutes manières). On n'est pas en mesure de faire ce travail de façon fiable par des moyens automatiques (et il reste des questions méthodologiques à résoudre : faut-il prendre en compte les pronoms ? Où arrête-t-on le jeu des anaphores ? etc.)
On pourrait imaginer faire des comparaisons sur de petits échantillons. Vous avez raison, ça ouvre des pistes de réfléxion passionnantes. Ce sont des problèmes pointus de recherche en traitement automatique des langues...
et que pensez-vous de ça :
http://fr.news.yahoo.com/01052007/202/donzy-village-miroir-du-vote-presidentiel-de-la-france.html
A Benoit : Merci pour le tuyau (moi qui pensais, nous qui pensions) - la prochaine fois, je réfléchirai avant de poser une question idiote.
Ceci dit, le français ne fait pas partie des langues faciles...
D.Strohl> Bah... Que celui qui ne s'est jamais pris la langue dans les relatifs jette la première pierre !
Anonyme> Ce qui me surprendrait, du point de vue statistique, c'est qu'aucune des 20 000 communes de France n'ait classé les 12 candidats dans l'ordre !
Bonjour !
Felicitations pour votre blog passionnant.
Je vous ecris un petit mot pour vous signaler que le Financial Times du jour (Wednesday May 2 2007) vient de faire mention de vos resultats... et de les attribuer a un autre site !! (elyseee2007endirect.com)
Titre "Bloggers may provide clue to winners" p.2.
Merci en tout cas de faire partager votre travail remarquable, et bonne continuation.
Fred
Vraiment intéressant. Il y a eu une étude ailleurs qui établissait une corrélation positive entre les sondages favorables et l'exposition dans les médias, que l'exposition soit positive ou négative, l'essentiel c'est qu'on parle de vous comme candidat. cela fait réfléchir au rôle des médias dans les démocraties occidentales, le 'Mnufacturing consent' de Chomsky propose l'hypothèse que les démocraties occidentales se servent des médias comme un relai pour 'formater' l'opinion publique aux politiques menées. ce qui compte alors ce n'est pas le contenu, c'est le formatage, le fait que par exemple, malgré une opposition mondiale forte, la guerre de 2003 contre l'Irak a eu lieu quand même sans provoquer beaucoup de remous après parce que tout simplement c,est entré dans nos vies, dans les titres de nos journaux et par le matraquage médiatique cette chose impensable a pu appartenir au champ du possible car elle a été insérée préalablement dans le champ sémantique.
Ce qui compte vraiment c'est le formatage et le formatage se fait par le matraquage, surtout visuel mon avis.
C'est vraiment très très intéressant, merci Jean Véronis.
A propos de ce que disait Christine :
J'ai testé sur un plus gros bout du corpus Presse2007 (sans pouvoir, donc, être exhaustive), et j'ai obtenu ça :
Sarko:
Nombre de citations par nom propre:
7968 (52%)
Nombre de citations par nom propre ou autre SN:
10701 (56%)
Détail:
Nicolas Sarkozy 4666
Sarkozy 2138
M. Sarkozy 965
ministre de l'Intérieur 765
président de l'UMP 681
ministre de l'intérieur 560
candidat de l'UMP 344
Sarko 199
candidat UMP 144
patron de l'UMP 113
numéro deux du gouvernement 47
candidat UMP à la présidentielle 21
probable candidat de l'UMP 15
candidat de l'UMP à la présidentielle 15
candidat probable de l'UMP 6
probable candidat de l'UMP à la présidentielle 5
favori de l'UMP 4
locataire de la place Beauvau 4
leader de l'UMP 2
probable candidat UMP 2
chef de file de l'UMP 1
locataire de la Place Beauvau 1
leader UMP 1
candidat possible de l'UMP 1
probable candidat UMP à la présidentielle 1
Ségo:
Citations par nom propre:
7345 (48%)
Citations par nom propre ou SN:
8402 (44%)
Détail:
Ségolène Royal 4304
Royal 1517
Mme Royal 1022
candidate socialiste 539
Ségo 502
candidate du PS 109
présidente de Poitou-Charentes 90
présidente de la région Poitou-Charentes 88
candidate PS 66
candidate à l'investiture socialiste 36
candidate du Parti socialiste 32
candidate socialiste à la présidentielle 24
député des Deux-Sèvres 12
candidate à l'investiture du PS 10
candidate du PS à la présidentielle 8
favorite socialiste 6
candidate PS à la présidentielle 5
favorite du PS 4
candidate des socialistes 3
candidate officielle du PS 3
candidate du PS à l'Elysée 3
candidate socialiste à l'investiture 3
candidate socialiste à l'Elysée 2
candidate du parti socialiste 2
candidate officielle du Parti socialiste 2
candidate à l'investiture PS 2
candidate du Parti Socialiste 2
candidate PS à l'Elysée 1
candidate pressentie des socialistes à l'Elysée 1
favorite des socialistes 1
candidate PS à l'investiture 1
candidate désignée du parti socialiste à la présidentielle 1
favorite à l'investiture PS 1
Et curieusement, le rapport change pas mal : en comptant juste les noms propres, on obtient 52/48, et en comtant en sus les syntagmes nominaux coréférents, on a du 56/44.
Mais à mon humble avis, mieux vaut s'en tenir aux noms propres pour ce genre de stats: on fait forcément des oublis (qui faussent les résultats) en listant à la main les éventuelles expressions coréférentes, et les extraire automatiquement n'est pas facile facile... Plus les questions du genre : doit-on prendre en compte les pronoms, tant qu'on y est.. et tout ça !
En se contentant des noms propres, au moins, on traite à égalité tout le monde.
...désolée pour la taille du commentaire.
Clémentine a fait un travail de bénédictin. Félicitations.
Acessoirement, j'ai appris un mot nouveau pour moi - syntagme. Il va falloir lui faire une place dans la caboche...
Et accessoirement s'écrit avec 2 c!
Jean,
Toi, tu es une star ! Encore mieux que les marchés et les bookmakers (www.betfair.com pour un mix des 2)
LaCroix est un quotidien national qui diffuse autant sinon plus que l'Humanité et dispose lui aussi d'un site web... Pourquoi ne fait-il pas partie des journaux sur lesquel vous basez votre outil de mesure ? simple curiosité (de journaliste de LaCroix !)
La Thide> J'y ai pensé et j'en ai même discuté avec Stéphane Dreyfus (de La Croix). Le problème est que le site Web ne contient qu'une toute petite partie des articles... Dommage ! Dans le futur, peut-être. Je suis ouvert à toute collaboration !
Votre analyse démontre mieux que tout la nécessité d'accorder un accès égal aux médias à l'ensemble des candidats.
La fabrique d'opinion, çà existe. Et elle s'autoalimente, pour des raisons purement financières : il faut parler de ceux dont on pense qu'ils font vendre du papier.
Consacrer un numéro avec 1 page par candidat ? Quel intérêt ? On l'a vu dans la plupart des journaux, les "petits" n'ont eu droit qu'à quelques quarts de page quand les deux finalistes ont eu à leur service des quatre pages...
On assiste donc de la part de la presse à une magnifique prophétie autoprédictive. Et cela n'est en rien réjouissant. En particulier parce que l'ensemble de la presse est sur le même moule (l'Huma excepté) et se nivelle donc sur un modèle curieux, consistant à faire la même chose que les autres pour ne surtout pas perdre un lecteur, denrée de plus en plus rare. Cette rareté s'explique pourtant peut-être par cet alignement pour le moins étonnant.
Pauvre presse écrite !
@ Jean Véronis : merci pour le lien !
La question "comment les sondages influencent-ils les électeurs" est souvent interprétée comme "comment les électeurs comprennent-ils les sondages" alors qu'elle pourrait être posée : "par quels intermédiaires, quels mécanismes les sondages influencent-ils les électeurs". J'avais fait un billet là-dessus, mais il est un peu compliqué, alors seulement pour les fans de la question ! (en lien)
oups - le lien
Des sondages dans le débat public
Bonjour,
Mais où est donc l'outil presse 2012 ?
J'ai beaucoup mieux qu'en 2007. J'ai une véritable plateforme d'observation avec plus de 4000 sources + tweeter, facebook, mais je ne l'ai pas rendu public cette fois-ci.
Enregistrer un commentaire