Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter

mardi, décembre 15, 2009

Outil: Wikio Trends

J'avais dévoilé il y a quelque temps l'existence du projet Wikio Trends, et je vous avais montré quelques copies d'écran, mais seuls quelques heureux privilégiés avaient eu jusqu'ici la possibilité de tester la version en cours de développement. L'outil est maintenant relativement abouti, et j'ai donc le plaisir de vous annoncer sa sortie publique sur Wikio Labs :


Cet outil est le digne successeur du Chronologue, que j'avais développé pour l'éphémère moteur de Free (Dir.com), et dont les vieux lecteurs de ce blog se souviennent peut-être (2005 que c'est loin !). L'interface est très simple: vous tapez dans la boîte de recherche le nom d'une catégorie Wikio, et l'outil vous affiche l'évolution du volume de news publiées dans cette catégorie. Par défaut Trends affiche les trois derniers mois. Voici par exemple la courbe de la catégorie Thierry Henry — nul doute que vous devinerez à quoi correspond ce pic de buzz !


On peut remonter dans le temps jusqu'au 1er janvier 2008. Saurez-vous deviner à quoi correspond le pic de buzz de Rachida Dati le 2 janvier 2009 ?


Vous pourrez également vous amuser à comparer vos personnages favoris, et pourquoi pas des entreprises ou des marques (je sens que ça va intéresser quelques marketeux de mes connaissances ;-). Voici par exemple le duel Renault/Peugeot :


On voit que Renault écrase Peugeot au niveau de la com'. Nul doute que la F1 y soit pour quelque chose... Et pas toujours en bien: le maxi buzz du 21 septembre 2009 est lié à l'accusation de triche et à la suspension de Renault de la F1...

Deux petits regrets... Ce serait extrêmement intéressant de pouvoir cliquer sur les pics et de voir les news archivées pour ce jour-là ! Eh bien, figurez-vous que c'est prévu. La fonctionnalité est en cours de développement. Par ailleurs, l'outil a une limitation : il ne peut afficher que les catégories qui ont été prédéfinies dans Wikio, et vous ne pourrez pas faire de recherche libre (style "cueillette champignon"). Dommage, mais ça, ça ne sera pas possible de l'améliorer dans un futur prévisible. Mais vous devriez pouvoir vous amuser quand même : il y a environ 200 000 catégories rien que pour la France !

Une dernière chose pour les matheux (je sais que vous allez demander !). L'échelle verticale du diagramme principal donne un volume de news normalisé, c'est-à-dire ramené à un volume quotidien constant de 10 000 news, de façon à annuler les effets dus aux variations globales du nombre de news (soit sur le Web d'une façon générale, par exemple pendant les vacances ; soit chez Wikio, à cause de l'augmentation régulière du nombre de sources). Le diagramme du bas schématise d'ailleurs l'évolution du volume total de news.

Et maintenant, à vous de jouer !

Libellés : ,


17 Commentaires:

Blogger aurelient a écrit...

Un petit commentaire pour signaler la parution d'un article discutant le la sélection de points dans les séries temporelles (en particulier des pics).

http://vimeo.com/7919934

Relaxed Selection Techniques for Querying Time-Series Graphs

15 décembre, 2009 10:28  
Blogger Jean Véronis a écrit...

Merci du lien ! Il ya pas mal de travail sur le sujet, vu que ça intéresse la finance... En l'occurrence ce doit être le cas pour l'article en question, qui porte sur la recherche de patterns dans la série (par exemple forte hausse suivie d'une petite répliqué).

15 décembre, 2009 10:31  
Anonymous PAC a écrit...

C'est un excellent outil mais c'est dommage qu'on ne puisse pas exporter les données au format CSV ou dans n'importe quel autre format.

15 décembre, 2009 11:13  
Blogger Philippe a écrit...

PAC, tu peux toujours utiliser le CaptuCourbes, même s'il est vrai que ce serait bien d'avoir les vraies valeurs de la courbe (et du volume de news pour pouvoir calculer les volumes absolus).

J'imagine que ce qu'AurelienT pointait est que parfois la courbe est un peu trop irrégulière pour être lisible (notamment quand on en superpose), serait-il possible de simplement proposer d'afficher la courbe discrétisée non pas par jour mais par semaine ou par mois pour la lisser un peu ?

Et comme on ne peut interroger que sur les catégories, quand un terme proposé par l'utilisateur n'est pas trouvé dans les catégories, serait-il possible d'interroger la base Wikio pour trouver des catégories liées au mot proposé ?

Bon, j'imagine que vous avez déjà pas mal de boulot comme ça (vu la périodicité mensuelle de la courbe de Wikio dans Wikio Trends, l'"égomètre" doit être au-dessus de la todo-list ;)...) mais ce serait chouette d'avoir ces petites fonctionnalités pratiques et peut-être facilement implémentables.

15 décembre, 2009 13:08  
Blogger Jean Véronis a écrit...

PAC> Exporter les données, ce ne serait pas compliqué... Mais est-ce souhaitable pour Wikio ? Il ne faut quand même pas donner trop de biscuits aux gens qui font des clones à droite ou à gauche à mon avis.

15 décembre, 2009 17:24  
Blogger ok a écrit...

C'est un bon outils pour les historiens ce truc la. Je connaîs des profs qui vont être ravis.

16 décembre, 2009 15:14  
Blogger romain blachier a écrit...

euh pourquoi le nom préselectionné c'est nicolas sarkozy sur le formulaire?

16 décembre, 2009 15:30  
Blogger Jean Véronis a écrit...

Philippe> Oui, c'est une amélioration que je note dans mes TODO : fournir un diagramme par semaine et par mois. Ce n'est pas très compliqué.

Trouver les catégories apparentées à un terme est un peu plus délicat. J'ai quelques pistes, mais là c'est un peu plus côté recherche... (problème assez intéressant d'ailleurs !)

17 décembre, 2009 13:13  
Blogger Jean Véronis a écrit...

OK> Oui, je crois que ça peut être intéressant comme outil pédagogique, surtout quand il y aura un historique plus long, et quand on aura la possibilité de cliquer sur les pics pour retrouver l'archivage des news su jour !

17 décembre, 2009 13:14  
Blogger Jean Véronis a écrit...

Romain> Tu ne savais pas que j'étais sarkoziste convaincu ? ;-)

17 décembre, 2009 13:15  
Anonymous V. a écrit...

surprenant, quelle que soit la durée demandée... (notamment 1 an )

17 décembre, 2009 15:19  
Blogger Jean Véronis a écrit...

Oui, effectivement ! Ils se collent à la roue. Il faut remonter à novembre 2008 pour trouver un buzz PS de quelque ampleur (élections internes).

17 décembre, 2009 17:01  
Anonymous Gilles a écrit...

Sympa !

20 décembre, 2009 00:31  
Anonymous webink a écrit...

C'est un excellent outil mais c'est dommage qu'on ne puisse pas exporter les données à n'importe quel autre format...

31 décembre, 2009 11:18  
Blogger Jean Véronis a écrit...

Je sais bien, mais ce n'est pas un conseil que je donnerais à Wikio. Il y a trop de concurrents qui seraient heureux de faire usage de ces données...

31 décembre, 2009 11:19  
Blogger Esteban a écrit...

Bonjour,

je tenais à signaler que wikio trends est en panne.

"Pas de données pour Nicolas Sarkozy."


Je développe aussi un programme en java qui permet de tracer des courbes similaires à ce que font les * trends.
Je me repose sur les options "daterange" de certains moteurs de recherche et je ahem hum crawle ahem le nombre de pages retournées. Il y a quelques questions que je me pose et je voulais vous demander si je pouvais vous envoyer un mail sur ce sujet, pas dans l'immédiat car je suis en période de révision (L2 SDL sur Toulouse).

11 janvier, 2010 02:20  
Blogger Jean Véronis a écrit...

Oui, il y a eu une petite panne hier, mais c'est réapré. Merci de votre vigilance.

pas de pb pour m'envoyer un mail, le sujet m'intéresse. La stratégie que vous exposez est celle que j'avais utilisée ici. Le gros problème est la fiabilité de ce "daterange", qui est loin d'être garantie...

11 janvier, 2010 08:08  

Enregistrer un commentaire

lundi, décembre 14, 2009

Wikio: 300 000 blogs francophones

Après l'Espagne, c'est Wikio.fr qui vient de dépasser les 300 000 sources (environ 302 000 blogs et 10 000 médias). L'opération était assez délicate sur le français, car cette langue est bien moins présente sur le Web que l'espagnol (et que l'anglais, bien évidemment). Le Web est comme un immense lac : ses eaux sont pures en surface, mais plus on descend, plus on ramène de la vase, et des bestioles bien peu ragoûtantes remplacent les jolis petits poissons argentés... Car il ne s'agit pas d'intégrer tout et n'importe quoi pour faire du chiffre (sinon, il suffirait d'absorber quelques millions de Skyblogs, et le tout serait joué...). J'ai donc encore dû affiner mes algos. On ne s'ennuie jamais sur le Web: en plus du porn et du spam habituels (médicaments, etc.), j'ai constaté cette fois-ci par l'émergence du spam sur les jeux en ligne, qui épargnait relativement le français jusqu'à présent (j'en avais trouvé assez peu au mois de mars). Mais il est évident que la fin annoncée du monopole de la Française des Jeux a déjà donné des idées aux spammeurs...

Au total, tous pays confondus, le million de blogs est largement dépassé. La base Wikio contient près de 1 200 000 sources, dont 30 000 médias. Le diagramme ci-dessous montre l'évolution au cours de l'année. Les sauts successifs correspondent à mes différentes campagnes de sourcing pour chacune des langues : le nombre de sources a été multiplié par plus de 6 depuis le début 2009.


La question que vous vous posez peut-être est : jusqu'où cela peut-il aller ? Il est assez difficile d'estimer la taille de la blogosphère... J'ai le sentiment, néanmoins, qu'en ce qui concerne les blogs francophones, elle est de l'ordre de 500 000 (toujours hors Skyblogs bien sûr).

Mais on va marquer une petite pause pendant les fêtes, histoire de laisser les machines digérer tout ça. Car vous imaginez bien que le changement d'échelle ne pose pas seulement des problèmes d'algorithmes de crawl et de filtrage, mais aussi des problèmes conséquents d'architecture et d'exploitation. Il ne s'agirait pas de tout faire péter entre Noël et le Jour de l'An !

Libellés : ,


16 Commentaires:

Anonymous Rod - Le HibOO a écrit...

Interessant ... ca va permettre vraiment d'avoir de bonnes surprises sur les 6 prochains mois.

En effet, un skyblog d'une nana de 18 ans qui raconte sa life fait, en terme de stats, 100 fois plus que les 100 premiers blogs du top 300 ... donc HEUREUSEMENT que les Skyblogs sont pas intégrés :)

il ne manque plus qu'une chose : que Wikio devienne une sorte de OJD des blogs, et donc, de maniere au depart optionnelle, puis ensuite obligatoire, demander à ceux qui veulent de récup' les stats réelles Google Analytics et ou Xiti ... et ainsi faire un truc sur plusieurs niveaux entre l'influence d'un support, et ses stats réelles. Car beaucoup d'agences utilisent le top 10 wikio de chaque categorie pour cibler, mais ca ne veut pas dire pour autant que ces top 10 sont finalement pertinents (un backlink copinage permet facilement d'etre le top 20)

14 décembre, 2009 14:34  
Blogger Jean Véronis a écrit...

Rod> Oui, je réfléchis à ces choses-là. En fait, on a déjà des stats pour une partie des blogs: tous ceux qui ont le bouton "wikio"... Mais ça ne résoud pas tout. Comment intégrer ces stats ? Ni on intègre des stats uniquement pour une partie des blogs, n'est-ce pas injuste pour les autres ? Et comment mixer audience/backlinks ? C'est un peu comme si on essayait de faire un mix entre TF1 et Arte... Pas simple. Je suis à l'écoute de toutes les bonnes idées !

14 décembre, 2009 14:40  
Anonymous Pierre-Yves a écrit...

Bien le bonjour,
En effet, le mix entre l'audience et l'influence n'est pas simple...
Et pourquoi, ne pas faire 2 classement différents ??
Je ne sais pas, c'est une idée comme ça ;)
Pour le problème de copinage, il me semble avoir lu ici que ça allait être réglé avec la notion de scoring sur les liens provenant de même source ?
Il est intéressant en tous cas de connaître ce volume globale...
Par contre, je pense qu'il serait peut-être encore plus intéressant de le connaitre par catégorie, ce qui donnerait plus de "valeurs" au classement de manière simple.
Ou, si ce n'est pas souhaité pour diverses raisons que je ne connais pas, le faire peut-être une fois par ans, comme cadeau de noël aux Wikiautes par exemple, ça pourrait être pas mal non ?
Merci pour l'info en tous cas et bonnes continuations ;)
CiaO ++

14 décembre, 2009 14:46  
Blogger Jean Véronis a écrit...

Pierre-Yves> Oui, c'est peut-être la solution. Avoir un classemnt par liens (backlinks et backtweets d'ailleurs), et un autre par audience de ceux qui ont le badge Wikio. Comme ça les choses seraient claires.

Ca peut se faire. Il y a juste un peu de dév (notamment pour blinder ça contre les robots, parce qu'évidemment les tricheurs vont cliquer comme des malades)...

14 décembre, 2009 14:50  
Anonymous Alexis a écrit...

Une question d'un profane des blogs : pourquoi est-ce "mal" de comptabiliser les Skyblogs?
Il me semble que c'est assez injuste pour cette "nana de 18 ans qui raconte sa life" qui souffre maintenant d'un ostracisme encore plus aigu.
Qui plus est, Skyblog compterait environ 10 millions de blogs, ce qui n'est pas rien. Alors pourquoi faire cette différence de traitement entre Skyblog et, par exemple, Blogspot ?

14 décembre, 2009 15:56  
Anonymous Ferocias a écrit...

300.000 blogs et toujours un seul qui chronique les fictions mettant en scène des peuples précolombiens! La concurrence ne naît donc pas de l'abondance :)
Sinon pour l'audience, entre celle mesurée par la plate-forme de blog, celle de Google Analytics, celle de Xiti, celle des compteurs divers et variés,... Comment s'y retrouver? (mes stats sont publiées chaque mois, je reçois sans doute moins de visiteurs que d'autres plus mal classés mais la modif. de l'algo a conduit à un gain de deux places dans le classement littérature (allez comprendre!).
De même, tout le monde n'invite pas à cliquer sur le bouton Wikio placé (ou pas d'ailleurs) en bas (ou en haut, ou à droite, ou à gauche, avec toutes les combinaisons possibles). Avec plusieurs adresses IP on doit aussi pouvoir tricher sur le clic de bouton Wikio d'ailleurs... A propos de ce bouton, pourquoi n'est-il livré dans certaines versions que pour des plate-formes précises?
Pas simple tout cela.

14 décembre, 2009 16:03  
Blogger Jean Véronis a écrit...

Je ne suis pas tout à fait sûr qu'il faille faire cet ostracisme moi non plus à dire vrai, mais il faudrait trouver des moyens d'organiser les choses de façon que le résultat reste lisible, ce qui n'est pas évident.

N'exagérons riens sur les 10 millions de blogs: la plupart sont inactifs. Les ados en créent à la pelle puis les laissent tomber pour en créer d'autres. Y en a-t-il seulement 100 000 d'actifs simultanément ?

14 décembre, 2009 16:07  
Blogger Jean Véronis a écrit...

Ferocias> Plus la mare est petite, plus la grenouille paraît grosse (c'est pour ça que je suis bien dans la catégorie Science ;-)

On n'a pas besoin de cliquer pour comptabiliser les visites: l'affichage de la page suffit. Evidemment on peut toujours tricher, mais il faut rendre la chose suffisamment difficile pour que ce n'en vaille guère la peine...

14 décembre, 2009 16:09  
Anonymous lp a écrit...

Brésil: 147 millions d'abonnés au téléphone mobile pour 190 m. d'habitants; Maroc 21 m.d'ab. pour 38 m. d'hab.; Inde : 250 m. d'ab. en hausse de 30 % par an,; Chine 550 m.d'ab. en hausse de 20% par an.
Certes, le total des abonnés dans le monde ( 3,5 milliards ) ne représente que 50 % de la population mondiale, mais sachant qu'on est parti de zéro il y a dix ans, que les 2/3 des abonnés ne sont pas des Occidentaux et que la croissance en pays émergents est phénoménale, je trouve la citation misérabilo-tiers-mondiste de Carter un peu datée...A ce compte là, la France du début des années 70 archi-sous-équipée en téléphone fixe, sans internet, sans ordinateurs personnels, était un pays sous-développé...

14 décembre, 2009 20:23  
Blogger Jean Véronis a écrit...

LP> Vous avez des amis dans des pays africains ?

14 décembre, 2009 20:26  
Anonymous lp a écrit...

Avez - vous des amis dans les bidonvilles de Cassis ?

14 décembre, 2009 21:41  
Blogger Jean Véronis a écrit...

J'ai quelque peu côtoyé ATD Quart-Monde, donc je peux qu'être d'accord avec vous : la misère n'est pas qu'hors de nos frontières. Mais une misère n'en excuse pas une autre, non? Les pays "émergents" n'ont pas grand-chose à voir avec les pays laissés pour compte de la planète...

14 décembre, 2009 21:56  
Blogger Epamin' a écrit...

Je suis admirative devant tant de savoir-faire, d'ingéniosité et de techniques maîtrisées...
Bravo!

14 décembre, 2009 22:14  
Blogger Jean Véronis a écrit...

C'est gentil, Epamin'... Dans quelques années, les jeunes riront de tout ce bricolage, comme on rit maintenant des cartes perforées...

14 décembre, 2009 22:47  
Anonymous Ferocias a écrit...

http://www.commentcamarche.net/news/3491786-la-toile-et-ses-100-millions-de-blogs

Parle de 4 millions de blogueurs.
Il y aurait près de 30.000.000 de skyblogs.
300.000 blogs chez Wikio.
Comment connaître le nombre de blogs en France?
Je n'arrive pas à trouver un chiffre fiable :/

17 décembre, 2009 22:50  
Blogger Spiritoo a écrit...

En tout cas pour ce qui est de Skyblogs, je peux vous dire de source sure que lorsque j'ai passé un entretien pour travailler chez eux (il y a déjà 3 ans), sur 10 millions de blog il y en avait environ 2 millions d'actifs (ajout sur les 30 derniers jours). Je ne sais pas si ce ratio de l'ordre de 20% a bougé depuis

20 janvier, 2010 13:51  

Enregistrer un commentaire