Beta: Archivage de l'actu avec Wikio Buzz
Si vous lisez ce blog depuis quelque temps, vous savez que je suis fasciné par les phénomènes de "buzz" (voir par exemple ici ou ici). Cela fait quelque temps que je travaille avec les développeurs de Wikio sur une idée un peu folle : détecter tous les buzz (petits ou grands) de chaque journée, et les archiver pour la postérité, un peu comme l'INA archive la vidéo... C'est un projet qui, je pense, intéressera journalistes, chercheurs et historiens. Vous me direz sans doute "Oui, mais Google News archive aussi l'actu, alors où est la différence ?". Elle est de taille. Google archive les news, certes, et vous pouvez y accéder par mot-clés à travers le moteur, mais n'extrait pas pour chaque journée une synthèse des actus les plus pertinentes classées en dizaines de milliers de thématiques. Aussi simple que cela puisse paraître, c'est un exercice d'une extrême difficulté. Imaginez le challenge : Wikio capture quelque 150 000 news chaque jour, des millions par mois. Que faire émerger là-dedans pour une journée donnée ? Tous les jours des centaines de news mentionnent Nicolas Sarkozy ou Barack Obama. Ce n'est pas pour cela qu'il y a un événement pertinent à archiver...
Je suis heureux de vous donner accès à la version beta de ce projet, sur Wikio Labs. Pour l'instant, la version Labs archive seulement deux mois glissants à cause de contraintes techniques, mais très prochainement (au cours du mois de mai, je pense) l'archive sera en production sur les sites Wikio, et couvrira l'actu sans limitation depuis le 1er janvier 2010. Vous trouverez sur la page d'accueil un résumé de l'actu de la veille (un calendrier cliquable vous permet de naviguer dans le temps).
On voit tout de suite que la journée d'hier, par exemple, a été marquée par un événement majeur, le séisme dans l'ouest de la Chine, qui a fait 400 morts. Le reste de la journée a été marqué par du sport (Arevane Rezaï qui intègre l'équipe de France de tennis), par la mésaventure du comique Eric (d'Eric et Ramzy) qui s'est fait interpeller en train d'acheter de la coke, et par la mise en semi-liberté de l'ex-militant d'action directe Georges Cipriani. Le camembert donne la "coloration" de la journée en termes d'actu : beaucoup de sport, pas mal de news internationales (la Chine, évidemment, mais aussi d'autres, qui méritent lecture au cas où vous les auriez ratés, comme, hélas, la crise alimentaire au Sahel...). Le nuage de tags renvoie aux thématiques qui ont le plus buzzé.
Bien sûr, il y a eu bien plus d'événements marquants. En moyenne, chaque jour le système en détecte une centaine par pays. La liste en est donnée sur le reste de la page, classée par catégories ou par intensité du buzz. Cette intensité est donnée par la petite bulle colorée devant chaque groupe :
Ce n'est pas simplement le nombre de news consacrées au sujet. Ce serait trop simple ! Et Nicolas Sarkozy serait premier tous les jours... Ce coefficient est le résultat de statistiques savantes, que je ne vais pas pouvoir vous exposer ici, mais qui sont une des clés du système -- et une clé sensible. C'est comme de l'horlogerie : un quart de poil de mauvais réglage sur une roue dentée et rien ne marche.
L'autre élément important du système c'est la détection des mots-clés qui font chaque buzz, et le regroupement des news en fonction de ces mots-clés. Vous le voyez par exemple sur le séisme en Chine. Les mots-clés qui caractérisent ce groupe sont seisme, chine, morts, qinghai, ouest, province, blesses, nord, puissant, bilan, tibet, frappe, isolee, magnitude, region, ensevelies, proche, autorites, terre, chinoise, autonome, tremblement, nombreuses, decombres, echelle, richter, pekin, television, medias, milliers, etc. La plupart des news concernées ne possèdent pas la totalité de ces mots, mais il est probable que chacune en contient une bonne partie. Tout le problème est, partant d'un brouillard informe de plusieurs milliers de news, de faire émerger des groupes cohérents (on appelle cela "clustering", dans le jargon de la discipline), sans en rater trop et sans générer trop de bruit (c'est-à-dire de mauvais groupes). Ce n'est pas trop compliqué sans doute sur l'exemple chinois, mais vous pouvez imaginer que sur la politique française, par exemple, il ne s'agit pas de regrouper aveuglément tout ce qui contient sarkozy, fillon, etc. Là-aussi c'est de l'horlogerie. Les idées sont simples, mais la réalisation est délicate... Je crois que le résultat n'est pas mauvais ! A vous de me dire (je sais hélas qu'il est perfectible). En tout cas, je ne connais pas de système équivalent (à grande échelle, s'entend).
Vous pourrez également observer l'évolution des buzz pour chacune des thématiques Wikio (environ 600 000, tous pays confondus !), soit en tapant le nom de la catégorie dans la boîte de la page d'accueil, soit en suivant les liens sur chaque buzz. Par exemple pour la catégorie Chine, vous arriverez sur une page où sont cumulés tous les buzz (depuis deux mois pour la version Labs, mais il n'y aura pas de limitation sur la version de production), et qui sont résumés par une "timeline" synthétique :
Vous pourrez aussi voir l'évolution de façon graphique avec Wikio Trends (voir aussi ici), dont les courbes ont été modifiées avec l'ajout de points cliquables sur chaque Buzz. Cela donne par exemple pour la Chine :
Allez, je vous laisse jouer avec l'outil ! J'ai été trop bavard. Mais il faut dire que le sujet est passionnant ! Il y aurait toute série de cours et de séminaires à faire en ce servant de ce projet, qui est un exemple-type d'application des "technologies du langage". Il en mobilise pas mal de techniques, et en illustre toutes les difficultés et tous les pièges.
Je suis heureux de vous donner accès à la version beta de ce projet, sur Wikio Labs. Pour l'instant, la version Labs archive seulement deux mois glissants à cause de contraintes techniques, mais très prochainement (au cours du mois de mai, je pense) l'archive sera en production sur les sites Wikio, et couvrira l'actu sans limitation depuis le 1er janvier 2010. Vous trouverez sur la page d'accueil un résumé de l'actu de la veille (un calendrier cliquable vous permet de naviguer dans le temps).
On voit tout de suite que la journée d'hier, par exemple, a été marquée par un événement majeur, le séisme dans l'ouest de la Chine, qui a fait 400 morts. Le reste de la journée a été marqué par du sport (Arevane Rezaï qui intègre l'équipe de France de tennis), par la mésaventure du comique Eric (d'Eric et Ramzy) qui s'est fait interpeller en train d'acheter de la coke, et par la mise en semi-liberté de l'ex-militant d'action directe Georges Cipriani. Le camembert donne la "coloration" de la journée en termes d'actu : beaucoup de sport, pas mal de news internationales (la Chine, évidemment, mais aussi d'autres, qui méritent lecture au cas où vous les auriez ratés, comme, hélas, la crise alimentaire au Sahel...). Le nuage de tags renvoie aux thématiques qui ont le plus buzzé.
Bien sûr, il y a eu bien plus d'événements marquants. En moyenne, chaque jour le système en détecte une centaine par pays. La liste en est donnée sur le reste de la page, classée par catégories ou par intensité du buzz. Cette intensité est donnée par la petite bulle colorée devant chaque groupe :
Ce n'est pas simplement le nombre de news consacrées au sujet. Ce serait trop simple ! Et Nicolas Sarkozy serait premier tous les jours... Ce coefficient est le résultat de statistiques savantes, que je ne vais pas pouvoir vous exposer ici, mais qui sont une des clés du système -- et une clé sensible. C'est comme de l'horlogerie : un quart de poil de mauvais réglage sur une roue dentée et rien ne marche.
L'autre élément important du système c'est la détection des mots-clés qui font chaque buzz, et le regroupement des news en fonction de ces mots-clés. Vous le voyez par exemple sur le séisme en Chine. Les mots-clés qui caractérisent ce groupe sont seisme, chine, morts, qinghai, ouest, province, blesses, nord, puissant, bilan, tibet, frappe, isolee, magnitude, region, ensevelies, proche, autorites, terre, chinoise, autonome, tremblement, nombreuses, decombres, echelle, richter, pekin, television, medias, milliers, etc. La plupart des news concernées ne possèdent pas la totalité de ces mots, mais il est probable que chacune en contient une bonne partie. Tout le problème est, partant d'un brouillard informe de plusieurs milliers de news, de faire émerger des groupes cohérents (on appelle cela "clustering", dans le jargon de la discipline), sans en rater trop et sans générer trop de bruit (c'est-à-dire de mauvais groupes). Ce n'est pas trop compliqué sans doute sur l'exemple chinois, mais vous pouvez imaginer que sur la politique française, par exemple, il ne s'agit pas de regrouper aveuglément tout ce qui contient sarkozy, fillon, etc. Là-aussi c'est de l'horlogerie. Les idées sont simples, mais la réalisation est délicate... Je crois que le résultat n'est pas mauvais ! A vous de me dire (je sais hélas qu'il est perfectible). En tout cas, je ne connais pas de système équivalent (à grande échelle, s'entend).
Vous pourrez également observer l'évolution des buzz pour chacune des thématiques Wikio (environ 600 000, tous pays confondus !), soit en tapant le nom de la catégorie dans la boîte de la page d'accueil, soit en suivant les liens sur chaque buzz. Par exemple pour la catégorie Chine, vous arriverez sur une page où sont cumulés tous les buzz (depuis deux mois pour la version Labs, mais il n'y aura pas de limitation sur la version de production), et qui sont résumés par une "timeline" synthétique :
Vous pourrez aussi voir l'évolution de façon graphique avec Wikio Trends (voir aussi ici), dont les courbes ont été modifiées avec l'ajout de points cliquables sur chaque Buzz. Cela donne par exemple pour la Chine :
Allez, je vous laisse jouer avec l'outil ! J'ai été trop bavard. Mais il faut dire que le sujet est passionnant ! Il y aurait toute série de cours et de séminaires à faire en ce servant de ce projet, qui est un exemple-type d'application des "technologies du langage". Il en mobilise pas mal de techniques, et en illustre toutes les difficultés et tous les pièges.
Libellés : outils, Wikio labs
9 Commentaires:
Ca donne envie de travailler dans le domaine !
C'est en tout cas pour moi une véritable passion. Je suis tombé dans la marmite quand j'étais petit. Je n'aurais pas dû aller voir 2001 quand j'avais 15 ans. HAL m'a scotché pour le resté de mes jours...
Vous cherchez un stagiaire ? ;)
Trop top l'outil !! enfin un truc de taille !!
Antoine> Faut envoyer un cv !
Will> Merci !
voilà pourquoi çà me sera utile. je gère mon site d'infos un webmédia: http://ouepafm.ning.com/
et j'espère compter sur ton aide pour répondre à d'éventuel questions au cas ou j'aurai des petites difficultés à effectuer mes petites recherches d'infos Buzz. à plus et merci encore.
super barvo,les gars votre travail est remarqquable,on vous lis souvent en veille Seo.
cordialement pierreM
bravo,pour votre travail remarquable,on vous lis souvent en veille WhiteSeo.
cordialement pierre.
(j'ai corrigé les fautes d'orthographes);)
Enregistrer un commentaire