Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

jeudi, août 17, 2006

2007: Au fil de la presse

Je suis en train de mettre au point des outils d'analyse automatique de la presse, et particulièrement des articles politiques en vue de l'élection présidentielle. Pour l'instant, j'analyse les fils RSS d'actualité française du Monde, de Libération, du Figaro et de l'Humanité.



L'Humanité n'a pas, à ma connaissance, de fil RSS par rubrique, alors j'en ai bricolé un à partir de leur site Web (rubrique Politique). Pour ceux que ça intéresse, le fil que j'ai reconstitué est à l'adresse


J'avais essayé aussi La Croix, mais le fil Actualité France est très erratique, un malheureux petit article y apparaît tous les deux ou trois jours, et ce n'est pas exploitable (je ne sais pas si c'est intentionnel ou si c'est un bug [PS: Voir commentaire de Stéphane Dreyfus de La Croix, ci-dessous]).

Je vous en parlerai plus dans quelque temps (quand ce sera au point) et je mettrai quelques-uns de mes outils en ligne, mais on voit déjà apparaître quelques tendances intéressantes. Depuis le début du mois, 446 articles sont parus, et environ un tiers contient le nom d'un des prétendants à la présidentielle 2007 (exactement 143 articles). Cela ne veut pas toujours dire que l'article traite de politique. Par exemple, lorsque Nicolas Sarkozy fait part de sa "grande émotion" après la mort de trois pompiers à Ramatuelle (Le Figaro), il ne fait pas de politique à proprement parler (encore que...). Mais la distinction entre actualités générales et politique est probablement à peu près impossible à faire de façon stricte (et je vois mal comment automatiser la chose!).

Je me suis donc cantonné à un indicateur, celui de la citation du nom des prétendants potentiels (j'analyse évidemment l'article en entier et non pas la description courte du fil RSS). Et c'est déjà assez compliqué comme ça : il faut enlever les menus, encadrés, bidules divers, pour ne garder que le corps de l'article; il faut repérer non seulement les patronymes mais aussi les diminutifs (MAM, DSK, Ségo, Sako, etc.), accepter Jack Lang mais pas Carl Lang, et ainsi de suite.

Je suis sûr qu'une question vous brûle les lèvres: qui est le plus cité? Vous aviez un doute? C'est évidemment Nicolas Sarkozy, mentionné dans plus de la moitié des articles. Il faut dire que son rôle de ministre de l'Intérieur favorise pas mal sa visibilité, puisqu'en gros, à ce poste, quoi qu'il se passe, il peut en parler (mais on pourrait peut-être en dire autant de Villepin, qui, lui, semble se faire un peu oublier...).

Voici le palmarès:


Citations (en nombre d'articles) du 31/07 au 17/08

La chute est vertigineuse. Villepin est mentionné dans deux fois moins d'articles que Sarkozy, Chirac encore un peu moins (mais il est normal que ce trio, qui représente l'exécutif, soit plus cité que les autres). A gauche, la personnalité la plus citée en cette période estivale est... François Hollande, et non pas Ségolène Royal. Petit repos de la star? Ou bien tendance à confirmer?

Pour les autres, c'est un peu la débandade. A noter, tout de même, la bonne performance relative de Nicolas Hulot, qui tente une percée... Mais c'est la torpeur estivale et tout cela n'est peut-être pas très significatif. Ce qui m'intéressait surtout c'était de tester mes petits outils. Nous verrons bien à la rentrée comment tout cela évoluera. Il y aura peut-être des surprises.

Libellés :


35 Commentaires:

Anonymous Anonyme a écrit...

Pour l'huma, je crois que c'est un site qui tourne sous spip, on trouve un semblant de fil rss à cette adresse :
http://www.humanite.presse.fr/backend.php3

17 août, 2006 12:28  
Anonymous Anonyme a écrit...

L'Huma possède un flux rss, un peu caché: flux rss
Je l'utilise, mais j'ai remarqué que son fonctionnement était parfois aléatoire.

17 août, 2006 12:28  
Blogger Jean Véronis a écrit...

GM, JM> Oui j'ai vu ça (merci!). Malheureusement le flux n'est pas découpé en rubriques (international, France, etc.) comme c'est le cas pour les autres quotidiens, et moi ce qui m'intéresse c'est uniquement la rubrique Actualités françaises. D'où mon bricolage. Mais ça marche...

17 août, 2006 13:06  
Anonymous Anonyme a écrit...

>l'élection prédidentielle.

Interressant cet indicateur...

C'est devellopé en quoi comme langage?

17 août, 2006 13:18  
Blogger Jean Véronis a écrit...

Nicolas> Merci (j'ai corrigé).

Langage: PHP, avec MySql pour la base de données (et d'ailleurs je suis en train de m'apercevoir que l'indexation "fulltext" de MySql est lamentable pour le français et je vais donc devoir m'en reprogrammer une à ma façon...).

Ca m'a pris un peu plus de temps que prévu, tout ça (d'où mon peu d'activité côté billets ces temps-ci), parce que mes outils étaient jusqu'ici ici en Perl, et j'ai décidé de tenter une migration. Il a fallu que je reprogramme plein de choses.

17 août, 2006 13:26  
Anonymous Anonyme a écrit...

et hop, un outil de plus :)
je confirme : il manque pour cette élection un indice des indices (http://www.nuesblog.com/?254/Gadgets-NetPolitiques)

un bravo de plus, donc.
Surprenant cette position de Ségolène. Tendance lourde ?

[ rien à voir - je n'arrive pas à te joindre par mail - tu/vous (?) êtes invité ici > www.lemondecitoyen.com / ce serait une joie que de te compter parmis nous ;) ]

17 août, 2006 14:02  
Anonymous Anonyme a écrit...

Comparer les nombres absolus de citations s'avère certainement intéressant pour la "tête de peloton", mais que donnent les graphiques en échelle(s) logarithmique(s) ?

Beau boulot, un régal - merci !

17 août, 2006 14:14  
Blogger Jean Véronis a écrit...

Nicolas> Indice des indices: oui, bien vu (merci pour le lien.

Ségo: je ne sais pas. Peut-être qu'elle s'économise... La rentée va être chaude pour elle à mon avis avec une bonne charge d'éléphants en furie!

Mail: je suis parti quelques jours et comme d'hab c'est la galère. J'en ai plusieurs centaines en attente (mais je viens de retrouver le tien: j'y réponds ce soir, promis!).

17 août, 2006 14:16  
Anonymous Anonyme a écrit...

Par contre vérifiez aussi les fils RSS de Libé, ils partent furieusement en biberine de temps en temps en renvoyant d'un coup tous les fils de la semaine, voire parfois du mois.
Ça peut faire désordre dans des statistiques...

Et puis l'Huma qui a des tendances aléatoires avec le "flux rss"... phonétiquement j'adore ;o)

17 août, 2006 14:19  
Anonymous Anonyme a écrit...

"Mais la distinction entre actualités générales et politique est probablement à peu près impossible à faire de façon stricte."

Mais, finalement, la politique, c'est pas l'art d'interpréter les actualités générales ? ;-)

Rudement content de ton/votre retour de vacances, que j'attendais avec impatience ! ;-)

17 août, 2006 14:47  
Anonymous Anonyme a écrit...

Comme flux sérieus, il y a aussi :

http://permanent.nouvelobs.com/rss_permanent_politique.xml

Enfin, sérieux, c'est plus la source que la programmation du flux, je n'y entrave que pouic (comme le disait San Antonio)

Belle fin de congés, je vois

Bonjour chez vous

Jean

17 août, 2006 15:36  
Anonymous Anonyme a écrit...

Pour "La Croix", le fil RSS France n'est pas victime d'un bug, je vous rassure. Il contient tous les articles que nous publions dans cette rubrique. Seule une sélection gratuite d'une petite partie des articles du journal est mise en ligne chaque jour, l'ensemble des autres articles étant accessible pour les abonnés en PDF.
Par ailleurs, nous publions des articles de synthèse de dépêches en fonction de l'actualité, comme le font les autres sites de quotidiens.
Il n'y a donc pas d'articles traitant de la politique française chaque jour, mais il est abusif de dire que nous publions un article tous les deux-trois jours dans cette rubrique.
Ceci dit, nous nous efforçons d'améliorer la qualité du site et nous sommes très flattés de l'intérêt qu'un blogueur de votre qualité s'intéresse à La-Croix.com.

17 août, 2006 16:09  
Anonymous Anonyme a écrit...

Oups... ma dernière phrase ne veut pas dire grand-chose...
Nous sommes donc très flattés de l'intérêt que vous portez à la-Croix.com.

17 août, 2006 16:28  
Anonymous Anonyme a écrit...

Hollande devant Royal !
En tant que secrétaire général du PS ?
(à moins que ce ne soit le mot Hollande, avec le pays, qui fausse la donne, mais je suppose que le statisticien a déjà paré à cette éventualité)

17 août, 2006 17:32  
Blogger Jean Véronis a écrit...

Baldi> Flux de libé: pour l'instant ça a l'air stable... A suivre (merci de l'info).

Fl-U RSS de l'Huma: bien vu! j'adore.

17 août, 2006 17:47  
Blogger Jean Véronis a écrit...

Thierry> "Finalement, la politique, c'est pas l'art d'interpréter les actualités générales ?" : peut-être bien!

17 août, 2006 18:06  
Blogger Jean Véronis a écrit...

Jean Meyran> Je n'ai pas retenu http://permanent.nouvelobs.com/rss_permanent_politique.xml parce que j'ai l'impression qu'il s'agit surtout d'un fil de dépêches reprises de AP plutôt que d'articles originaux. Mais peut-être que je me trompe?

17 août, 2006 18:20  
Blogger Jean Véronis a écrit...

Stéphane Dreyfus> Merci de votre commentaire. Je comprends mieux. Le système est différent sur le Monde.fr par exemple, où les articles sont accessibles pour un temps puis passent ensuite dans le système "abonnés". Mais j'avais trop peu d'articles publics de la Croix pour faire un traitement satistique. Sur les autres fils j'ai une centaine d'articles (chacun) depuis début août, alors que sur la Croix je n'en ai qu'une dizaine. Du coup ça déséquilibre les choses. Et dans l'édition abonnés c'est du pdf, donc très difficile à exploiter. C'est dommage, j'aurais bien aimé que la Croix soit dans mon système...

17 août, 2006 18:28  
Blogger Jean Véronis a écrit...

Seb> J'ai pris soin d'exclure "la Hollande", "en Hollande", mais évidemment, il peut y avoir quelques soucis résiduels, encore que la Hollande en tant que pays n'apparaît pas beaucoup dans les actu France (pas une seule fois sur plsu de 400 articles), donc le problème est marginal.

Mais j'ai écrit un système de backoffice qui me permet de corriger à la main les erreurs de catégorisation dans la base. J'en ai corrigé deux jusqu'ici: un certain Le Pen qui semble être joueur de foot et un Waechter qui n'a rien à voir avec l'autre. Je découvre...

17 août, 2006 18:32  
Anonymous Anonyme a écrit...

Bonne idée de passer par feedburner!

18 août, 2006 02:44  
Anonymous Anonyme a écrit...

C'est intéressant, cette histoire de La Croix. La stratégie Internet du journal (ne mettre en ligne que quelques articles pour inciter le lecteur à acheter le journal papier) conduit à son exclusion du corpus étudié. De la même manière, une étude informatisée ne prend jamais en compte le Canard Enchaîné ou Charlie Hebdo qui, sur la Toile, n'existent pas. A l'opposé, lefigaro.fr avec ses 50 flux RSS spécialisés, facilite la tâche de tous les crawlers, agrégateurs, véroniseurs ;-)

Il faudrait prendre en compte Ouest-France, je pense. C'est de la PQR mais selon les chiffres OJD 2005, sa diffusion est de 781.000, soit largement plus encore que le total cumulé de celle du Monde (367.000), Libé (144.000), l'Huma (55.000) et La Croix (103.000).

18 août, 2006 09:27  
Blogger Jean Véronis a écrit...

Pierre> Bonne idée, Ouest-France, mais ils ne semblent pas avoir de fil RSS (ou alors j'ai mal cherché?)...

18 août, 2006 09:43  
Anonymous Anonyme a écrit...

Non ils n'en ont pas... mais ils vont sans doute être très contents de celui que tu vas leur faire ;-)

18 août, 2006 09:47  
Anonymous Anonyme a écrit...

Il est présent partout ce Mr SARKOZY ! :D

18 août, 2006 10:50  
Blogger J2J2 a écrit...

Salut Jean,

Pour tes problèmes de sites n'ayant pas de fil rss, tu pourrais peut-être facilement y remédier avec Dapper.

18 août, 2006 12:41  
Blogger Jean Véronis a écrit...

Jérôme> Merci pour le lien sur Dapper, que je ne connaissais pas. C'est remarquablement bien fait!

18 août, 2006 14:31  
Anonymous Anonyme a écrit...

Je ne suis pas sûr que le corpus que tu utilises soit suffisamment représentatif, en fait. C'est accorder beaucoup de place à une presse quotidienne nationale qui garde un certain prestige symbolique pour des raisons historiques mais qui n'est finalement plus vraiment lue (je rapportais par exemple leur diffusion OJD au nombre de communes, ou de départements... et quand on se dit qu'il n'y a que 1000 lecteurs de Libé par département...).

Là, par exemple, tu vois Royal distancée par Sarkozy, mais si je fais une recherche Sarkozy et Royal sur Google News, en nombre de réponses, Royal est en tête. Idem sur le moteur de Yahoo News (qui curieusement, n'indexe pas seulement les news publiées par Yahoo News mais un panel très large : par exemple tu as des articles du Figaro en recherchant sur Yahoo News, alors qu'ils ne les reprennent pas. En nombre de réponses, j'ai la moitié sur Yahoo News par rapport à Google News, on peut en déduire qu'ils indexent dans les 300 sources francophones contre 600 pour Google).

Certes, dans ces sources, il y a de tout, du journal, du blog, et toujours pas le Canard Enchaîné ou l'essentiel de La Croix, le problème de la disponibilité restant le même. Mais il me semble que c'est plus représentatif, et ça inclut les dépêches d'agence. Or, mon cher Jean, quand tu exclus le Nouvel Obs parce que c'est des dépêches AP... as-tu raison de le faire ? Finalement quand on y pense, ce sont les agenciers les plus lus, et de très loin. Une dépêche AFP qui rejaillit illico sur 100 sites, de Boursorama à Courrier International, a infiniment plus d'impact qu'un article de Libé...

18 août, 2006 17:10  
Blogger Jean Véronis a écrit...

Pierre> Voilà une discussion bien intéressante! Ce sont des questions que je tourne dans ma tête depuis pas mal de temps, sans vraiment pour l'instant trouver de réponse absolue. Car il y a ce qu'on aimerait faire, et ce qu'on peut faire, techniquement parlant... J'aimerais travailler sur les quotidiens régionaux, mais ça n'est pas simple. Je suis allé voir Ouest-France, pas de fil RSS, uniquement un format pdf, très difficile à exploiter (et encore en version payante, ce qui poserait peut-être des problèmes délicats). Idem avec les Nouvelles d'Alsace, la Provence...

Pour ce qui est du Nouvel Obs permanent, ce qui me gêne ça n'est pas que ce soit des dépêches, mais j'ai peur de la redondance entre les sources. Par exemple sur Google News, que tu cites (et un peu moins sur Yahoo), il y a des quantités d'articles qui sont en fait des doublons les uns des autres, parce que simplement copies de la même dépêche AP, Reuters ou AFP... Ce phénomène de duplication complique les choses quand on veut faire du quantitatif. La duplication peut même être interne à une agence. Il y a souvent une ribambelles de dépêches sur le même sujet, au fil des heures, plus ou moins détaillées, etc. Pas facile à maîtriser... Et puis il y a la taille de la base de données que je génère. Pas sûr de pouvoir absorber la masse.

Mes 4 quotidiens, c'est donc un peu la solution de facilité. Mais rien n'est définitif. Comme les lecteurs fidèles doivent commencer à l'avoir compris, je n'ai pas de dogmes, de certitudes établies une fois pour toutes. Je cogite, je teste, j'écoute. Le plus important pour l'instant pour moi était d'écrire mes programmes, tester mes outils. Pour l'instant ça a l'air de marcher et de tenir le coup (j'espère pouvoir mettre ça en ligne avant la fin août).

En tous cas merci pour cette discussion, qui fait avancer le schmilblick ! Je vous remercie tous, d'ailleurs. Je savoure chaque jour la chance d'avoir des lecteurs aussi bons (si!)...

18 août, 2006 22:30  
Anonymous Anonyme a écrit...

Intéressant de trouver Hulot (pas toujours en vacances) car s'il envisage éventuellement une candidature,il n'est pas étiqueté comme politique. L'outil tient il compte de tous les noms présents sur wikipedia?
http://fr.wikipedia.org/wiki/Présidentielle_2007#Candidats_d.C3.A9clar.C3.A9s

18 août, 2006 23:39  
Anonymous Anonyme a écrit...

Jack Lang a pris connaissance de votre outil... et se voyant vexé d'être aussi loin a décidé de faire parler de lui : il a entendu 50 000 voix crier "Jack Président" aux Vieilles Charrues... mais pb, il est le seul a s'en souvenir !

Le Figaro

Ralala, M. Jack Lang d'Arc, pas très sérieux d'autant plus que vous aviez paru sourd lors des insultes sur les harkis de Georges Freche il y a qques mois...

19 août, 2006 10:11  
Anonymous Anonyme a écrit...

Jean> Ce que tu cherches à construire, au fond, c'est quelque chose de semblable à l'Unité de Bruit Médiatique (UBM) réalisé par TNS Media Intelligence, qui le présente ainsi sur son site : "Il porte sur un périmètre plurimedia de 80 supports Presse, Radio et Télévision, généralistes et leaders en audience. L'indice UBM (pour Unité de Bruit Media) intègre le volume et l'impact de l'information pour mesurer la pression médiatique".

Lire par exemple :
http://www.lefigaro.fr/medias/20060722.WWW000000034_lenvolee_mediatique_des_bleus_balaie_le_cpe.html

Bon, évidemment, ils ont des moyens que tu n'as pas ! Mais le principe est le même, il faut "juste" trouver le bon corpus, des pondérations en fonction du support, de la place, de la durée... Peut-être aussi crawler les sites de télé et de radio ?

19 août, 2006 15:58  
Anonymous Anonyme a écrit...

Jean> Pour la redondance dont tu parles, c'est un problème général. Très souvent, sur Google News, des articles sourcés "L'Express", "Le Monde", "Libé" ne sont pas des articles du journal mais des dépêches d'agence (là je viens de cliquer sur un lien sourcé l'Express, et c'était une dépêche Reuters ; Canoë c'était AP. Le Devoir c'était AFP. Boursier.com c'était Reuters). C'est très très fréquent. Tu as l'impression d'avoir une multiplicité de sources mais c'est souvent le même contenu.

Ce qui est pervers, c'est que c'est précisément cette redondance qui indique à Google News ce qui est important (les deux items en haut de page sont toujours ceux qui ont le plus d'articles connexes ("et 163 autres articles..."). L'incendie d'un pavillon en France, par exemple, va donner lieu à une série de dépêches d'agences qui vont être reprises partout, donner "163 autres articles", et devenir le fait marquant de la journée. C'est pour ça qu'un événement qui ne donne pas lieu à une dépêche AFP n'existe pas médiatiquement...

19 août, 2006 16:18  
Anonymous Anonyme a écrit...

Vous faites de la lexicographie gérer par ordinateur. Et les contextes? Vous les prenez en compte?
Comme linguiste vous savez très bien que Sarco est une chose, Sarcosy , une autre, et Sarcosy aux funerailles des pompiers encore une autre.Les statistisques lexicales de ce genre sont trompeuses.Attention mais merci pour votre courage. Pouviez vous expliquer mieux qu'elle est la méthode?

20 août, 2006 09:28  
Anonymous Anonyme a écrit...

Cet outil finalement mesure simplement (façon de parler car le travail en amont semble considérable) l'intensité de la pression médiatique sans tenir compte de sa direction ou de son sens. Il est certain que ces données sont plus difficiles à modéliser. On pourrait imaginer un graphe avec un sens positif pour les articles élogieux (fonction du champ lexical utilisé) et un sens négatif pour les articles critiques...

20 août, 2006 09:40  
Anonymous Anonyme a écrit...

Pour le fait que Hollande soit devant Royal, est-ce que ça ne pourrait pas s'expliquer en partie par le fait que lorsqu'on parle de François Hollande, on ne mentionne que lui, alors que généralement, quand on parle de Ségolène Royal, on (enfin, "on" les journalistes) précise souvent "épouse de François Hollande" ? enfin peut-être pas non plus, c'était une idée comme ça.

20 août, 2006 18:38  

Enregistrer un commentaire