Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, décembre 15, 2009

Outil: Wikio Trends

J'avais dévoilé il y a quelque temps l'existence du projet Wikio Trends, et je vous avais montré quelques copies d'écran, mais seuls quelques heureux privilégiés avaient eu jusqu'ici la possibilité de tester la version en cours de développement. L'outil est maintenant relativement abouti, et j'ai donc le plaisir de vous annoncer sa sortie publique sur Wikio Labs :


Cet outil est le digne successeur du Chronologue, que j'avais développé pour l'éphémère moteur de Free (Dir.com), et dont les vieux lecteurs de ce blog se souviennent peut-être (2005 que c'est loin !). L'interface est très simple: vous tapez dans la boîte de recherche le nom d'une catégorie Wikio, et l'outil vous affiche l'évolution du volume de news publiées dans cette catégorie. Par défaut Trends affiche les trois derniers mois. Voici par exemple la courbe de la catégorie Thierry Henry — nul doute que vous devinerez à quoi correspond ce pic de buzz !


On peut remonter dans le temps jusqu'au 1er janvier 2008. Saurez-vous deviner à quoi correspond le pic de buzz de Rachida Dati le 2 janvier 2009 ?


Vous pourrez également vous amuser à comparer vos personnages favoris, et pourquoi pas des entreprises ou des marques (je sens que ça va intéresser quelques marketeux de mes connaissances ;-). Voici par exemple le duel Renault/Peugeot :


On voit que Renault écrase Peugeot au niveau de la com'. Nul doute que la F1 y soit pour quelque chose... Et pas toujours en bien: le maxi buzz du 21 septembre 2009 est lié à l'accusation de triche et à la suspension de Renault de la F1...

Deux petits regrets... Ce serait extrêmement intéressant de pouvoir cliquer sur les pics et de voir les news archivées pour ce jour-là ! Eh bien, figurez-vous que c'est prévu. La fonctionnalité est en cours de développement. Par ailleurs, l'outil a une limitation : il ne peut afficher que les catégories qui ont été prédéfinies dans Wikio, et vous ne pourrez pas faire de recherche libre (style "cueillette champignon"). Dommage, mais ça, ça ne sera pas possible de l'améliorer dans un futur prévisible. Mais vous devriez pouvoir vous amuser quand même : il y a environ 200 000 catégories rien que pour la France !

Une dernière chose pour les matheux (je sais que vous allez demander !). L'échelle verticale du diagramme principal donne un volume de news normalisé, c'est-à-dire ramené à un volume quotidien constant de 10 000 news, de façon à annuler les effets dus aux variations globales du nombre de news (soit sur le Web d'une façon générale, par exemple pendant les vacances ; soit chez Wikio, à cause de l'augmentation régulière du nombre de sources). Le diagramme du bas schématise d'ailleurs l'évolution du volume total de news.

Et maintenant, à vous de jouer !

Libellés : ,


17 Commentaires:

Blogger aurelient a écrit...

Un petit commentaire pour signaler la parution d'un article discutant le la sélection de points dans les séries temporelles (en particulier des pics).

http://vimeo.com/7919934

Relaxed Selection Techniques for Querying Time-Series Graphs

15 décembre, 2009 10:28  
Blogger Jean Véronis a écrit...

Merci du lien ! Il ya pas mal de travail sur le sujet, vu que ça intéresse la finance... En l'occurrence ce doit être le cas pour l'article en question, qui porte sur la recherche de patterns dans la série (par exemple forte hausse suivie d'une petite répliqué).

15 décembre, 2009 10:31  
Anonymous PAC a écrit...

C'est un excellent outil mais c'est dommage qu'on ne puisse pas exporter les données au format CSV ou dans n'importe quel autre format.

15 décembre, 2009 11:13  
Blogger Philippe a écrit...

PAC, tu peux toujours utiliser le CaptuCourbes, même s'il est vrai que ce serait bien d'avoir les vraies valeurs de la courbe (et du volume de news pour pouvoir calculer les volumes absolus).

J'imagine que ce qu'AurelienT pointait est que parfois la courbe est un peu trop irrégulière pour être lisible (notamment quand on en superpose), serait-il possible de simplement proposer d'afficher la courbe discrétisée non pas par jour mais par semaine ou par mois pour la lisser un peu ?

Et comme on ne peut interroger que sur les catégories, quand un terme proposé par l'utilisateur n'est pas trouvé dans les catégories, serait-il possible d'interroger la base Wikio pour trouver des catégories liées au mot proposé ?

Bon, j'imagine que vous avez déjà pas mal de boulot comme ça (vu la périodicité mensuelle de la courbe de Wikio dans Wikio Trends, l'"égomètre" doit être au-dessus de la todo-list ;)...) mais ce serait chouette d'avoir ces petites fonctionnalités pratiques et peut-être facilement implémentables.

15 décembre, 2009 13:08  
Blogger Jean Véronis a écrit...

PAC> Exporter les données, ce ne serait pas compliqué... Mais est-ce souhaitable pour Wikio ? Il ne faut quand même pas donner trop de biscuits aux gens qui font des clones à droite ou à gauche à mon avis.

15 décembre, 2009 17:24  
Blogger ok a écrit...

C'est un bon outils pour les historiens ce truc la. Je connaîs des profs qui vont être ravis.

16 décembre, 2009 15:14  
Blogger romain blachier a écrit...

euh pourquoi le nom préselectionné c'est nicolas sarkozy sur le formulaire?

16 décembre, 2009 15:30  
Blogger Jean Véronis a écrit...

Philippe> Oui, c'est une amélioration que je note dans mes TODO : fournir un diagramme par semaine et par mois. Ce n'est pas très compliqué.

Trouver les catégories apparentées à un terme est un peu plus délicat. J'ai quelques pistes, mais là c'est un peu plus côté recherche... (problème assez intéressant d'ailleurs !)

17 décembre, 2009 13:13  
Blogger Jean Véronis a écrit...

OK> Oui, je crois que ça peut être intéressant comme outil pédagogique, surtout quand il y aura un historique plus long, et quand on aura la possibilité de cliquer sur les pics pour retrouver l'archivage des news su jour !

17 décembre, 2009 13:14  
Blogger Jean Véronis a écrit...

Romain> Tu ne savais pas que j'étais sarkoziste convaincu ? ;-)

17 décembre, 2009 13:15  
Anonymous V. a écrit...

surprenant, quelle que soit la durée demandée... (notamment 1 an )

17 décembre, 2009 15:19  
Blogger Jean Véronis a écrit...

Oui, effectivement ! Ils se collent à la roue. Il faut remonter à novembre 2008 pour trouver un buzz PS de quelque ampleur (élections internes).

17 décembre, 2009 17:01  
Anonymous Gilles a écrit...

Sympa !

20 décembre, 2009 00:31  
Anonymous webink a écrit...

C'est un excellent outil mais c'est dommage qu'on ne puisse pas exporter les données à n'importe quel autre format...

31 décembre, 2009 11:18  
Blogger Jean Véronis a écrit...

Je sais bien, mais ce n'est pas un conseil que je donnerais à Wikio. Il y a trop de concurrents qui seraient heureux de faire usage de ces données...

31 décembre, 2009 11:19  
Blogger Esteban a écrit...

Bonjour,

je tenais à signaler que wikio trends est en panne.

"Pas de données pour Nicolas Sarkozy."


Je développe aussi un programme en java qui permet de tracer des courbes similaires à ce que font les * trends.
Je me repose sur les options "daterange" de certains moteurs de recherche et je ahem hum crawle ahem le nombre de pages retournées. Il y a quelques questions que je me pose et je voulais vous demander si je pouvais vous envoyer un mail sur ce sujet, pas dans l'immédiat car je suis en période de révision (L2 SDL sur Toulouse).

11 janvier, 2010 02:20  
Blogger Jean Véronis a écrit...

Oui, il y a eu une petite panne hier, mais c'est réapré. Merci de votre vigilance.

pas de pb pour m'envoyer un mail, le sujet m'intéresse. La stratégie que vous exposez est celle que j'avais utilisée ici. Le gros problème est la fiabilité de ce "daterange", qui est loin d'être garantie...

11 janvier, 2010 08:08  

Enregistrer un commentaire