Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

dimanche, août 20, 2006

2007: Plein de fils

Je vous ai déjà parlé des outils d'analyse automatique de la presse que je suis en train de réaliser (voir ici). Ca prend tournure peu à peu, mais il me reste pas mal de détails à régler. En attendant, je vous livre de petits bouts. Voici aujourd'hui un fil RSS qui permet de suivre l'actualité liée aux prétendants à la présidentielle dans quatre quotidiens nationaux (Le Monde, Libération, Le Figaro et de L'Humanité):

Presse 2007 - L'actualité des prétendants à l'Elysée en continu

J'ai mis ça sur :

Quel est l'intérêt d'un nouveau fil? Il y a déjà des fils sur ces quotidiens, mais l'ensemble de l'actualité y est mélangé, l'actualité des nos "prétendants" se trouvant entremêlée avec tout le reste. Et il faut suivre les différents quotidiens en parallèle... Les Alertes Google permettent de recevoir par courrier électronique une sélection des Google News sur des mots clés donnés. Pas très pratique, et les sources sont un véritable méli-mélo... Yahoo Actualités propose un système de fils RSS personnalisé (exemple sur Sarkozy) qui me paraît très efficace, et les sources me semblent faire l'objet d'un travail éditorial plus soigné. Mais on se trouve tout de même avec une redondance considérable : 838 articles en français citant Sarkozy cette semaine...La plupart sont d'ailleurs plus ou moins identiques, consistant en reprises de l'AFP, d'AP ou Reuters. Difficile de s'y retrouver.

Alors j'ai décidé de créer mon propre outil. Mes buts étaient simples: suivre un petit nombre de sources, assez "fiables", et détecter automatiquement les articles qui mentionnent les prétendants à l'élection (on peut évidemment discuter mon choix). J'aurais aimé intégrer deux ou trois sources de plus (La Croix, Ouest-France, etc.), mais il y a des contraintes techniques qui rendent la chose impossible (voir discussion dans les commentaires du billet précedent).

Le fil reprend le titre et la description originaux et ajoute la liste de tous les personnages cités dans l'article avec le nombre fois où chacun est cité. Exemple :

[Le Monde] Ségolène Royal fait sa rentrée politique en Bourgogne
Posted: 20 Aug 2006 07:00:00 +0100
La probable candidate à l'investiture socialiste à la présidentielle a engrangé les soutiens samedi en Bourgogne,accompagnée par François Rebsamen, numéro 2 du parti. Elle est attendue dimanche à la Fête de la rose, à Frangy-en-Bresse. ---
Royal (10) Sarkozy (4) Strauss-Kahn (3) Hollande (2) Jospin (2) Lang (1) Fabius (1)

[mise à jour - 2 oct : j'ai enlevé les noms des candidats, des commentateurs m'ayant indiqué que ça rend le fil difficile à lire]

Et pour la bonne bouche j'ai aussi créé un fil spécialisé pour chacun des personnages que j'ai décidé de suivre. Si vous êtes un fan de Ségo, de Sarko ou d'un(e) autre, vous pourrez ainsi intégrer sur vos pages l'actualité de votre personnalité favorite :


Ce n'est sans doute pas parfait, soyez indulgents (et comme toujours vos commentaires sont très utiles et plus que bienvenus).

Libellés :


9 Commentaires:

Anonymous Anonyme a écrit...

bonjour,


avec alertinfo (GRATUIT) tu as déjà tout ça,
http://www.geste.fr/alertinfo/home.html

tu peux y paramétrer des filtres sur chaque personnalité politique.


AD.

21 août, 2006 15:43  
Blogger Jean Véronis a écrit...

Oui, AlertInfo est un bel outil, mais il y a des différences importantes. Dans AlertInfo, la recherche des mots-clés se fait dans la courte description contenue dans les fils, alors que je la fais dans la totalité de l'article. Ainsi, je ne loupe pas un article qui parle de Bové, même si le titre et le résumé ne parlent que des "faucheurs" et des OGM. Je constitue de plus une véritable base de données avec le texte de tous les articles (que je ne peux pas mettre en ligne bien sûr, pour des questions de droits), mais sur laquelle je peux faire tous les traitements que je souhaite. Par ailleurs AlterInfo est basé sur Feedreader, qui et un lecteur pour une station individuelle, et non un système qui peut fonctionner en automatique sur un serveur...

21 août, 2006 17:35  
Blogger Jean-Marie Le Ray a écrit...

Ce qui s'appelle être prolifique :-)
Jean-Marie

21 août, 2006 19:07  
Anonymous angelina a écrit...

Je trouve l'idée très "à propos".
Sachez qu'en amont, c'est-à-dire, à l'écriture de ces articles que votre outil ou d'autres parcoureront, les rédactions ont intégré cette notion de "tags".
Quand à composer en conséquence, le pas est vite franchi!
Je pense que le résultat peut être faussé d'où l'importance du choix des sources pour un tel outil...

22 août, 2006 15:39  
Blogger Jean Véronis a écrit...

Angelina> On pourrait imaginer un roman de SF (2084 ?) dans lequel les journalistes seraient contraints d'écrire à travers des logiciels spéciaux qui contrôlent les mots qu'ils utilisent et leur fréquence en fonction des desiderata de leur rédaction...(peut-être a-t-il déjà été écrit?).

22 août, 2006 16:27  
Anonymous angelina a écrit...

Malheureux! Ne leur donnez pas ce genre d'exemple.
Ne pensez pas que les rédac-chefs soyent tous aussi peu versés dans l'outil informatique.
Ils seraient foutus de nous remplacer tout simplement pour manque d'effficience.
Les journalistes sont déjà assez formatés, modelés.

22 août, 2006 17:05  
Blogger Kaa a écrit...

Angelina> Les technologies de rédaction contrôlée existent déjà (1), il suffirait de les coupler à un petit calcul de fréquence, on pourrait ainsi pousser (forcer ?) les journalistes à écrire un minimum de fois tel ou tel mot... ou tel ou tel nom.
(1) Les logiciels de rédaction contrôlée servent aujourd'hui à "homogénéiser" une terminologie d'entreprise, en suggérant l'usage de telle expression plutôt que telle autre. Ils permettent également, en aval, de faciliter la traduction automatique des documents ainsi rédigés.

23 août, 2006 14:57  
Anonymous jean-jacques rousseau a écrit...

Je pense que ces logiciels de rédaction contrôlée existent déjà.

Aujourd'hui j'ai fait une recherche sur "François Bayrou" sur GoogleNews et j'ai reçu en tête 7 articles identiques sur Sarkozy à Marseille qui citent le nom "François Bayrou" à propos de son projet de service civique en l'associant à "Parti socialiste". Pour le reste de la recherche deux ou trois article sur Francois Bayrou...

J'ai du actualisé 3 ou 4 fois la page GoogleActualité pour retrouver le lien entre-apercu "François Bayrou" de la rubrique "dans l'actualité"... Un lien qui apparait et disparait mystérieusement...

Je pense que les articles sont calibrés pour apparaitre et classés en tête par les moteurs de recherche. Ce qui est déjà une finalité pour un projet de "rédaction controlée".

04 septembre, 2006 02:43  
Anonymous Thierry a écrit...

Bonjour,
Il est parfois plus facile d'importer une liste de liens RSS à l'aide d'un fichier OPML: OPML
(créé avec OPMLBuilder)
Merci pour cette liste.

10 octobre, 2006 12:45  

Enregistrer un commentaire