Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

dimanche, avril 27, 2008

Outil: Qui buzze aujourd'hui ?



J'ai déjà mentionné l'admiration que j'avais pour la technologie linguistique de Wikio, que je trouve être l'une des plus élaborées parmi les outils, moteurs et portails actuellement disponibles sur le Web. Une fonctionnalité très intéressante est la détection automatique des «entités nommées», c'est-à-dire les noms de personnes, de lieux et de sociétés que fait Wikio : vous l'avez peut-être remarqué, le moteur affiche dans le résumé de chaque news des liens hypertextes vers les différentes entités qu'il a reconnues, ce qui permet de déclencher d'un clic de nouvelles recherches. Utilomane invertéré, je me suis amusé à pervertir cette fonctionnalité, en l'agrémentant de quelques statistiques à ma façon pour vous fournir automatiquement le buzz du jour :



Amusant, non? Bouquemarquez cette page, elle se met à jour toute seule à chaque heure en fonction de la nouvelle actu !

Et si vous vous intéressez à d'autres langues, faites un détour par cette page, qui vous donne le buzz dans les news en allemand, en anglais, en espagnol et en italien. Vous serez étonnés de voir à quel point les différents pays ne s'intéressent pas aux mêmes choses !


A lire


35 Commentaires:

Blogger Jadlat a écrit...

ce commentaire ne commentera rien mais comme je n'ai pas trouvé de mail, je passe par là. Je ne sais pas si vous connaissez ce blog qui a des parentés avec vos centres d'intérêt

http://ethologie-communication.typepad.com/grooming_analyse_des_comp/2008/04/dcryptage-de-li.html

amicalement

27 avril, 2008 22:02  
Blogger Jean Véronis a écrit...

Non, je ne connaissais, pas ! Très intéressant. Merci du lien, que je rends cliquable :

Nous autres les primates (Marie Muzard)

27 avril, 2008 22:10  
Anonymous olivier ertzscheid a écrit...

Salut Jean,
Bel outil en effet.
De son côté Microsoft doit surveiller aixtal de très près :
http://blogs.msdn.com/livesearch/archive/2008/04/24/xrank-celebrity-check-out-who-s-hot-and-who-s-not.aspx
;-)

28 avril, 2008 12:44  
Blogger Jean Véronis a écrit...

Eh eh... et moi je surveille xRank de très près ;-) D'ailleurs l'URL qui est donnée sur leur blog ne marche pas, les collègues de Microsoft Research m'ont envoyé un lien qui marche : ici.

28 avril, 2008 13:06  
Blogger Guillaume a écrit...

Génial, merci ! Mais j'ai plutôt booquemarqué (c'est un nouveau mot ? héhéhé) la page consolidant le buzz dans les autres pays. Et bizarrement, alors qu'aujourd'hui tout le monde en France parle de cette affreuse histoire d'inceste en Autriche (Josef Fritzl), on n'en parle pas ou très peu dans les autres pays.

Peut-être n'est-ce qu'une situation temporaire ? Serait-il compliqué pour vos neurones magiques de comparer la vélocité des médias des différents pays par ce biais ou n'est-ce pas le bon outil pour cela ?

29 avril, 2008 11:30  
Blogger Jean Véronis a écrit...

Merci du compliment Guillaume ! J'ai été surpris moi aussi par la différence d'accent sur les news dans les différents pays. Il n'y a guère qu'en Espagne que le cas Fritzl fait du buzz... Et d'ailleurs les Espgnols insistent sur Elisabeth (la fille) alors qu'en France on parle plutôt du père (évidemment au moment où j'écris : ça change d'heure en heure).

Il faut dire que les Italiens sont en plaine élection du maire de Rome, les américains dans l'histoire Jeremiah Wright, etc. On dirait qu'il n'y a de la place que pour une seule histoire par jour... L'actu c'est comme les trains. Un titre peut en cacher un autre (et même plusieurs).

29 avril, 2008 12:04  
Blogger Loran Bernardi a écrit...

Bonjour Jean

votre outil est très pertinent.
J'adore.
Je bookmarque, je bookmarque! :)

Une suggestion, dont je sais bien qu'elle est sans doute chronophage, ce n'est donc qu'une idée jetée à tout hasard.

Je me rends compte au vue des noms exposés que je ne les connais pas (honte à moi)... Vous ne pensez pas qu'il serait possible, au passage de la souris (le clic est deja pris) sur le nom d'afficher dans un div en dessous , par exemple l'article correspondant de Wikipedia? Ou au moins les 5 premieres lignes?

En tout cas merci encore pour cet outil.

29 avril, 2008 13:05  
Blogger Jean Véronis a écrit...

Loran> Les grands esprits se rencontrent ! c'est exactement ce que j'avais en tête pour la suite...

29 avril, 2008 13:59  
Blogger Guillaume a écrit...

Jean>Merci pour votre réponse.

On dirait également qu'il y a des doublons : à l'heure où j'écris ces lignes, on trouve à la fois "Georgio Alemanno" et "Alemanno".

Une des limites de Wikio serait-elle atteinte ?

29 avril, 2008 17:12  
Blogger Guillaume a écrit...

Gianni, pas Georgio, désolé (là c'est une de mes limites qui a été atteinte).

29 avril, 2008 17:17  
Blogger Vicnent a écrit...

Excellent, comme d'hab'....

Marrant, à l'heure ou j'écris ces mots, Saddam Hussein buzz... (oui, je trouve ça marrant...)

Sinon, une idée qui en vaut une autre (les conseilleurs ne sont pas les payeurs...) : faire un petit Cron qui enregistre l'image toute les heures et tous les mois, un petit film qui nous fait défiler les buzz... un film de 28 29 30 ou 31 secondes d'ailleurs :-)

29 avril, 2008 17:21  
Blogger Vicnent a écrit...

j'étais en train de me dire qui buzz aujourd'hui, certes, mais... qui buzzera demain ??!!

Si on file tous les buzzClouds dans un réseau de neuronnes, il "devrait" être capable de nous dire qui buzzera demain, non ? :-)

29 avril, 2008 17:27  
Blogger Jean Véronis a écrit...

Guillaume> Non, c'est plutôt une limite à moi :-/

Il faut que je regroupe le nom seul avec le couple Prénom + Nom le plus fréquent...

29 avril, 2008 17:56  
Blogger Jean Véronis a écrit...

Vicnent> J'enregistre déjà le buzz non pas toutes les heures, mais tous les jours. J'ai l'archive sur une cinquantaine de jours déjà. Il y a des tas de façons de l'exploiter... Un animation chronologique est une excellente idée, mais je ne crois pas que ça donne grand chose avec les nuages HTML. Va falloir passer au Flash...

30 avril, 2008 08:37  
Blogger Jean Véronis a écrit...

Vicnent> Je me suis souvent posé cette question, de la prédictibilité de l'actu. J'ai bien l'impression que la réponse est négative ! A part quelques thèmes de nature plus ou moins sérielle (comme aujourd'hui le retour des thèmes sociaux, grèves etc., ce qui est courant à l'approche du 1er mai...), l'actu est le plus souvent pilotée par des faits divers, accidents, des records sportifs, et toutes choses qui surviennent de façon "aléatoire"...

30 avril, 2008 08:40  
Anonymous Laurent Godard a écrit...

Bonjour

Un peu dans le meme esprit
http://linuxfr.org/~patrick_g/26542.html

C'est une mesure de la fréquentation des articles de Wikipedia.

Sans préjuger de la qualité de l'article, on peut détecter tout pic de fréquentation et donc alerter (ou confirmer) sur un "y a quequechose qui s'passe".

En utilisant ce service directement, on peut surveiller une entrée
http://stats.grok.se/fr/200802/Carla_Bruni
http://stats.grok.se/fr/200803/Carla_Bruni
On constate donc des pics. comment s'expliquent ils ?

Bien sur en l'état c'est surveiller des termes a priori connus (croisable avec avec vos outils wikio ?)

L'outil du Top 1000 pourrait être utilisable (mais quand il fonctionnera)

Voili, voila pour quelques 'délires'
je vous remercie vivement pour vos billets d'excellente qualité toujours agréables à decouvrir

30 avril, 2008 09:20  
Anonymous Mickaël a écrit...

Merci d'avoir ajouté le code couleur par thématique... c'est beaucoup plus lisible.

Ma question maintenant : mais où est donc passer Barack Obama ?
Car je ne peux pas croire qu'il n'apparaisse pas dans le buzz, d'où la suspicion du bug.
bug ? buzz ? Dites-nous tout !

30 avril, 2008 09:45  
Blogger Jérôme Charron a écrit...

Bonjour Jean, très bel outil encore une fois. Je voudrais signaler, pour ceux qui s'intéressent exclusivement à l'actu people (si si il y en a) et donc aux stars qui buzzent que nous proposons ce même genre de nuage sur staragora.com (mais uniquement concernant les stars).

Je trouve xRank également très sympa (merci pour le lien): ressemble beaucoup sur certains aspects à ce que nous utilisons en backoffice (courbes et tendances). Mais comment adapter ce genre d'outils qui deviennent rapidement complexes à l'univers grand public ?

30 avril, 2008 10:11  
Blogger Jean Véronis a écrit...

Mickaël> Pas vraiment bug, mais réglage à faire. Il y a effectivement un souci sur Barack Obama. Dans beaucoup de cas, on parle de lui simpement comme "Obama", alors que quand on parle d'Hillary Cliton, on ne voit quasiment jamais "Clinton" seulement. Du coup ça fausse mes stats. Il faudrait que je regroupe, ce qui n'est pas si simple...

30 avril, 2008 11:12  
Anonymous BioAlexX a écrit...

Bonjour!
Tres interessant en effet. J'aime suivre les actualites depuis Londres, alors j'ai mes flux RSS comme Le Monde, mais j'aime beaucoup cette approche. Pour le RSS, j'utilise (le genial) Netvibes. Je me suis permis de coller le code HTML du nuage dans un widget "code HTML".
A cette heure-ci: Hendrix, Paltrow, decidement, on voit ce qui fait buzzer...

Merci a vous pour ce nouvel outils visuel.

30 avril, 2008 12:07  
Blogger Jean Véronis a écrit...

Laurent> merci pour le lien vers l'outil wikipedia (je le remets en version cliquable ici). Les pics de Carla correspondent sans doute à des événements (mariage, voyage en Angleterre).

Ce serait fantastique de pouvoir croiser avec les pics que je détecte dans l'actu !

Dommage que l'outil soit un peu rustique (on ne peut voir les courbes que d'entrées choisies et no pas voir celles qui buzzent). Que à exploiter les données brutes directement... pourquoi pas ? Mais c'est assez volumineux !

30 avril, 2008 16:09  
Blogger Jean Véronis a écrit...

Bioalexx> Il me semble en effet que ce serait un moyen condensé de suivre l'adcut. Peut-être utile aussi sur téléphone mobile...

30 avril, 2008 16:10  
Blogger Loran Bernardi a écrit...

Bonjour a tous
a tout hasard puisqu'on en parle ;o), concernant wikipedia il existe aussi un outil qui permet de mesurer le nombre d'edit par articles et de les classer.
Ca permet également de repérer les buzzs (et les désaccords ;o) ).

L'outil est la:


Amicalement,

30 avril, 2008 17:03  
Blogger Loran Bernardi a écrit...

Ce commentaire a été supprimé par l'auteur.

30 avril, 2008 17:05  
Blogger Loran Bernardi a écrit...

désolé je n'arrive pas à définir correctement le balisage :o(
je donne donc l'adresse: www.wikirage.com

30 avril, 2008 17:07  
Blogger Jean Véronis a écrit...

Oui, Blogger est très pénible pour ça, il faut se taper les balises à la main.

Merci pour le lien en tout cas : www.wikirage.com

30 avril, 2008 17:35  
Blogger Hugues a écrit...

Juste une question, Jean. Vous exploitez une API privée que vous a ouvert Wikio ?

Ou bien vous lancez une "araignée" qui se balade sur l'arbre de catégorie/thèmes de Wikio ?

02 mai, 2008 01:00  
Blogger Jean Véronis a écrit...

Hugues> Oui, les gens de Wikio (super sympas) m'ont ouvert quelques portes... j'en profite pour leur adresser un grand merci !

02 mai, 2008 08:54  
Anonymous BlogOPhil a écrit...

Dans le même genre, j'utilise depuis pas mal de temps WASALive (http://fr.wasalive.com) qui fournit aussi un nuage de mots à partir de flux RSS un peu comme Wikio. Par contre il ne s'agit pas que de nom de personnes.

01 août, 2008 15:59  
Anonymous jmini a écrit...

Dommage qu'il n'y ait pas un regroupement des noms de famille :
- Trichet + Jean-Claude Trichet
- Assad + Bachar el-Assad

et ainsi de suite...

C'est pire encore avec le nuage indiqué en page d'accueil des labs :
http://labs.wikio.net/
toute une ligne sur Bachar al-Assad...

04 septembre, 2008 21:17  
Blogger Jean Véronis a écrit...

Jmini> Oui, c'est complètement vrai. Je crois que je l'ai dit plusieurs fois dans les commentaires, c'est loin d'être parfait. Le but de cette maquette c'est justement de laisser tourner quelque temps, et de voir quels sont les problèmes. Il faut effectivement regrouper les noms de familles (mais imaginez la difficulté : Sarkozy = > Jean, Nicolas, Andrée, Carla, Cécilia...? ), les variantes orthographiques (comment faire pour ne pas associer tout et n'importe quoi...?), etc.

Donc, on montre tout, même les difficultés. Ca fait partie de l' "ouverture" que j'ai proposée à Pierre Chappaz. Et c'est courageux d'avoir accepté. Les entreprises ont plutôt d'ordinaire le réflexe de "camouflage" : tout baigne, tout roule. Les experts savent bien que ce n'est pas vrai ! Le Web est difficile, le langage humain est terriblement complexe. Et justement si on fait de la recherche, c'est pour ça ;-)

05 septembre, 2008 09:57  
Anonymous Emmanuel a écrit...

Bonjour Jean,
Dans le cadre de vos recherches, êtes vous impliqué dans des projets de Traduction Automatique ? Avez-vous un avis sur l'approche statistique de la TA ?
Merci

07 septembre, 2008 11:28  
Blogger Jean Véronis a écrit...

Emmanuel> Oui, je m'intéresse à la TA de près. J'ai une thésarde qui va soutenir bientôt sur ce thème (et je suis dans un jury de thèse sur ça bientôt à Grenoble).

Réponse rapide (et donc un peu schématique) : oui, j'ai une avis sur l'approche statistique. Elle a permis des progrès impressionnants (Google etc.). C'est la seule qui me semble pouvoir se développer efficacement dans un avenir prévisible. Point de vue qui ne manquera sans doute pas de faire polémique !

08 septembre, 2008 11:52  
Anonymous Tilt a écrit...

Bonjour,
On dirait que la page http://sites.univ-provence.fr/veronis/Wikio/Buzz/ ne se met plus à jour, du moins on ne distingue plus les thèmes couleurs.
Comment cela se fait-il ?

05 décembre, 2009 14:59  
Blogger Jean Véronis a écrit...

Ah, pardon. La page est transférée ici. Je vais mettre une redirection.

07 décembre, 2009 08:39  

Enregistrer un commentaire