Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

lundi, septembre 29, 2008

Blogs: Turbulence ahead


A big clean is more commonly carried out in Spring... but there's no reason not to do so at the end of the summer! This indeed was my recent advice to Wikio regarding their famous Blog rankings. I told you recently that one of the projects which would be receiving my attention would be the rankings, in collaboration with you all. In fact, I completely reworked it, and, as promised [fr], I will provide you with the algorithm's details in the days to come. My first observation is that there was a significant amount of dust in certain nooks and crannies, which needed a little attention before we could progress and try to improve the rankings as a whole. This is not a criticism: such a ranking is an extremely technical undertaking and even the very big names have troubles with it (Technorati for example [fr]).



So, the various Wikio teams have spent September with broom in hand and the results are likely to ruffle a few feathers... There will surely be some grinding of teeth (there always is: not everyone can be on top), but the engine is now much cleaner. Several of you had noted that there were inactive blogs that had stuck around in the rankings, even though they had not published for a few weeks. Well no more - they're out. I got our developers to create several indicators, one of which flags up publication volume, that allow us to more closely follow the behaviour of the tens of thousands of sources in our database. All such blogs who had not published for four months have thus been jettisoned. Other indicators were a little more difficult to implement, but now in place they allow one to assess the similarity between sources and so address spammers, aggregators and multiple posting (which is sometimes legitimate, but such activity can seriously affect the analysis of backlinks, and thus the rankings as they are based solely on this criterion). So out also with aggregators and other doubles (a lot of the recent work was precisely this, dealing with the enormous presence of source duplication which is a delicate and extensive process).

I also implemented a small change, which has no bearing on the overall principle, but improves the transition from one month to another. Many of you had seen that there was sometimes a yo-yo effect, whereby blogs suddenly lose a large number of positions, or the opposite, they shoot up the rankings like a rocket. This was largely due to the time period used when analysing backlinks. This period as you will know is four months, but say a blog is very heavily buzzed in April, it will then appear high up in the rankings from May to August and then (if it is not further talked about in the mean time), suddenly plummet in September. Not ideal clearly. I thus replaced the straight four-month calculation with a progressive attenuation over nine months. So September's links have a value of 1, August's a value of 1 – 1/9, July's 1 – 2/9 etc. etc. The variations are now a lot more temperate.

Before


Now

Obviously this month there will still be a lot of change in the rankings as many things have been adjusted. The good news is that the clearing out of moribund or spammer blogs has cleared a number of places, and there are thus more blogs on their way up than on their way down. I don't yet wish to reveal the rankings as verifications are still being carried out, but there are some noteworthy and indeed worthy leaps. A few falls as well but that is to be expected. The summer entailed a drop in activity for many blogs but that is true everywhere (you will have likely seen the report on Technorati). It is of course up for analysis, but we hope at least to have provided an improved and cleaner ranking.

Libellés : ,


0 Commentaires:

Enregistrer un commentaire

Blogs: Avis de turbulences


Le grand nettoyage, c’est traditionnellement au printemps... Mais rien n’empêche de donner aussi un bon coup de balai à la fin de l’été ! C’est ce que j’ai conseillé à Wikio à propos de ce fameux classement des blogs, qui fait couler beaucoup d’encre virtuelle tous les mois. Je vous ai dit récemment qu’un de mes premiers chantiers serait de le regarder de près, en collaboration avec vous. En fait, j’ai complètement décortiqué la machine (et comme promis je vais vous décrire l’algorithme en détail dans les prochains jours). Ma première observation est qu’il y avait un peu de poussière dans quelques recoins, qui méritaient nettoyage avant qu’on puisse aller plus loin et essayer d’améliorer le principe pour satisfaire le plus grand nombre d’internautes. Ce n’est pas une critique : tout cela est extrêmement difficile du point de vue technologique, et même les plus grands ont des soucis (voyez ceux de Technorati par exemple). Je vous ai donné mon propre sentiment personnel sur les classements et hit-parades de toutes sortes : je ne marche pas beaucoup à l’ego mais je vois dans le calcul d’un « Wikio Rank » un élément important d’organisation de l’information, comme c’est le cas sur le Web avec le Page Rank de Google (je m’en explique plus ici).


Donc, les équipes de Wikio ont passé le mois de septembre le balai à la main et ça va décoiffer... Il y a aura sans doute quelques grincements de dents (il y en a toujours : tout le monde ne peut pas être sur le podium), mais la machine est désormais bien plus propre. Vous aviez été nombreux à noter par exemple que certains blogs inactifs restaient (parfois assez haut) dans le classement, alors qu’ils ne publiaient plus depuis des semaines (voir par exemple chez Thierry Roget). Eh bien, exit. J’ai fait créer par les développeurs des indicateurs, dont un indicateur de volume mensuel, qui permettent de suivre de façon plus précise les dizaines de milliers de sources présentes dans la base de données (car il n’est pas question de suivre tout ça à la main, n’est-ce pas ?). Ont donc été sortis du classement tous les blogs qui n’avaient pas publié depuis quatre mois. D’autres indicateurs étaient un peu plus délicats à implémenter, mais ils permettent de juger de la similarité entre sources, et notamment de repérer les spams, agrégateurs et postages multiples (parfois légitimes, mais cela peut fausser les comptes de rétroliens, et donc le classement, puisqu’il est basé sur ce seul critère). Exit là-aussi les agrégateurs et autres doublons... (la plus grande partie du moins, car la lutte contre la duplication des sources est un travail difficile et jamais terminé – voir par exemple ici).

Dans la foulée, j’ai fait implémenter un petit changement, qui ne change rien au principe général, mais qui améliore la transition d’un mois sur l’autre. Certains d’entre vous l’avaient observé : il se produisait parfois un effet yoyo, avec des blogs qui perdaient d’un coup un grand nombre de places ou, à l’inverse, montaient d’un coup comme une fusée dans le classement. C’était dû en grande partie à la période temporelle utilisée par Wikio pour calculer les rétroliens. Comme il a été largement dit, cette période était de quatre mois. Mais supposons qu’un blog ait fortement buzzé en avril : il est haut dans le classement de mai à août, et puis (s’il n’a plus buzzé entre temps), il passe à la trappe d’un coup en septembre. Pas très bon. J’ai donc fait remplacer ce « signal carré » de quatre mois par une atténuation progressive, sur neuf mois. Les liens de septembre comptent pour 1, ceux d’août pour 1 – 1/9, ceux de juillet pour 1 – 2/9, et ainsi de suite. Les variations seront donc plus douces désormais.

Avant

Maintenant

Evidemment, ce mois-ci il va quand même y avoir des turbulences assez fortes, puisque beaucoup de choses ont été changées. La bonne nouvelle c’est que le nettoyage des blogs moribonds et sources redondantes a dégagé pas mal de places, et qu’il y a donc plus de blogs à la hausse qu’à la baisse. Je ne veux pas dévoiler le classement (les vérifications ne sont pas encore terminées, et il est possible qu’il bouge encore), mais je peux vous dire d’ores et déjà qu’il y aura de belles montées, comme Nowhere Else ou Vincent Abry. Quelques dégringolades aussi, mais beaucoup de blogueurs semblent s’être essouflés ces derniers temps (dont quelques célébrités). L’été a laissé beaucoup de monde sur le carreau. Mais le phénomène est mondial. Vous avez sans doute vu le rapport Technorati (excellente analyse chez Fred Cavazza). Même s’il est à prendre avec esprit critique (voyez les réserves tout à fait fondées d’André Gunthert), il est clair que la blogosphère se dégonfle quelque peu (et s’assainit ?).


A lire aussi



Pendant ce temps, la réflexion sur le classement continue. Cette semaine Vicnent nous livre la deuxième partie de son étude :
Allegiques aux maths s'abstenir (je rigole, ce n'est quand même pas si compliqué, et c'est en tout cas très intéressant).

Libellés : ,


41 Commentaires:

Anonymous Christophe D. a écrit...

Bien !

En ce qui me concerne, j'ai toujours été un peu réservé sur la prise en compte des rétroliens sur plusieurs mois. Un classement qui bouge énormément d'un mois sur l'autre ne m'aurait pas dérangé. Cela m'aurait même semblé plus conforme à l'actualité du milieu : en effet, ce sont avant tout les billets qui sont « influents », pas les blogs, et il est logique que les billets « qui font du bruit » ne proviennent pas forcément des mêmes blogs d'un mois sur l'autre.
Bref, dans mon esprit, prendre en compte les rétroliens d'une période de plusieurs mois revient à donner plus d'importance aux blogs qu'aux billets, qui sont plus liés à une actu parfois très changeantes (je ne sais pas si je suis clair ;-)
Par exemple, concernant mon blog, il m'est arrivé d'être bien classé dans chez Wikio pendant 3 mois… grâce à un seul billet qui du coup était « périmé » au moment ou mon blog bénéficiait de ce classement.

Cependant, cette idée d'atténuation progressive me plait bien, dans le sens ou les liens frais comptent plus que les anciens, ce qui devrait entrainer plus de mouvement d'actualité et être plus fidèle du milieu, si je m'abuse. Bonne idée, donc !


Autre point qui me gêne (pendant qu'on y est ;-), par rapport à ce que j'ai écrit au dessus : le fait que les points d'autorité augmentent selon le classement de celui qui fait le lien. C'est un autre débat, que je pourrais argumenter longuement mais je pose le problème dès maintenant sur la table au cas ou cela provoque des réactions ;-)

29 septembre, 2008 12:30  
Blogger Jean Véronis a écrit...

Bonjour Christophe !

Sur le premier point, effectivement, il peut y avoir deux perspectives différentes, mesure de l'instantanéité ou de l'linfluence à plus long terme du blog. Débat pas facile, et il y a du pour et du contre dans les deux cas. Il y a aussi une difficulté (plus propre à la blogosphère française qu'américaine), c'est que globalement il y a peu de rétroliens. Le blogueur français lie peu. Donc le classement est très sensible à de petits effets (qui s'amortissent un peu dans le temps). Cependant, comme tu l'as noté, il y a une fonction d'atténuation progressive : ce sont donc bien les rétoliens les plus récents qui contribuent le plus au score final. D'ailleurs dans le futur, la fonction de décroissance pourrait être beaucoup plus abrupte si besoin (décroissance exponentielle par exemple).

Sur le second point, il y a là aussi tout un débat. Le fonctionnement actuel est le même que celui de Google. Mais il y a aussi un argument simplement pratique. Il y a des malins (d'extrême-droite par exemple) qui ont compris qu'avec deux ou trois blogs qui s'interlient on peut remonter assez haut dans le classement. Si tous les liens ont le même poids quelle que soit la source, c'est la porte ouverte au spam massif du classement (et j'avoue que je n'ai pas de solution immédiate).

29 septembre, 2008 12:46  
Anonymous Christophe D. a écrit...

« (décroissance exponentielle par exemple). »

Oui, par exemple. J'ai même failli ajouter un deuxième commentaire, en suivant, pour le préciser ;-) (n x 16 pour les billets du mois ; n x 4 pour ceux du 2e mois ; n x 2 pour ceux qui date de trois mois). Mais j'ai bien conscience qu'un refondement brutal serait difficile à faire passer et l'atténuation progressive est déjà meilleure que la position 0 ou 1 sur 4 mois, qui n'était pas faite pour coller à l'actu du milieu.

Pour le second point, effectivement, c'est un problème auquel je n'avais pas pensé.

29 septembre, 2008 13:02  
Blogger Jean Véronis a écrit...

Effectivement, il y a aussi les habitudes et les attentes des blogueurs à prendre en compte. Que veulent-ils au bout du compte ? Ce sera peut-être d'ailleurs contradictoire, car la blogosphère, comme le reste, est faite de diversité (et c'est tant mieux!). Mon objectif, en accord avec Wikio (car je suis consultant, pas décideur !), était de nettoyer sans tout chambouler. La discussion (ici et sur d'autres blogs, comme le tien) finira d'apporter des idées (enfin, j'espère !).

A noter : rien n'interdit d'avoir un "classement des blogs" sur une échelle de temps de quelques mois et un autre classement "les buzz du mois" qui mette en lumière les posts qui ont été repérés par la communautés (c'est un peu ce que fait Laurent Binard sur le blog officiel de Wikio).

29 septembre, 2008 13:11  
Anonymous Christophe D. a écrit...

« Rien n'interdit d'avoir un "classement des blogs" sur une échelle de temps de quelques mois et un autre classement "les buzz du mois" qui mette en lumière les posts qui ont été repérés par la communautés »

Je ne peux qu'être qu'être d'accord :

http://blog.wikio.fr/2008/01/les-20-mdias-le.html#comment-96073686

;-)

29 septembre, 2008 13:35  
Anonymous Christophe D. a écrit...

Oups, je me suis planté dans le lien précédent : le voici.

Désolé ;-)

29 septembre, 2008 13:38  
Blogger Q a écrit...

Si je puis me permettre, je trouve qu'un classement a toujours un côté un peu conservateur, parce qu'il renforce les plus forts (les mieux classés). Moi même quand je consulte le classement wikio, je vais voir à quoi ressemble les blogs, ça me permet de les découvrir.
Mais si tout le monde faisait ça et uniquement ça pour trouver de nouveaux blogs, le classement ne bougerait plus au bout d'un moment.

Est-ce qu'un bon classement ne devrait pas palier à ça et donner une chance aux nouveaux de percer dans le monde des blogs ?
La solution la plus simple qui me vient à l'esprit serait de donner un poids à la progression (ou simplement de publier un classement "meilleure progression"). Qu'en pensez-vous ?

29 septembre, 2008 14:29  
Anonymous Christophe Berge a écrit...

En réfléchissant sur la notion de classement et d’influence, on peut se poser la question du sens de l’influence. Un exemple :

vendredi dernier sur le blog de Techcrunch FR, un lien sur un billet de Nowhere Else sur la rumeur d’un nouveau Apple Mac Book.

Quel blog est-il influent ? Techcrunch, pour avoir prévenu ceux qui ne lisent pas Nowhere Else que quelque chose « d’important » s’y trouve ? Ou Nowhere Else parce qu’il est repris par Techcrunch ? Dans cet exemple je considère que ni l’un ni l’autre n’est particulièrement influent puisque de toute façon Nowhere Else a puisé son scoop dans une autre source, un blog ou un forum peut-être pas indexé par Wikio. Dans ce cas c’est la source initiale qui est la plus influente. Cela dit Nowhere Else n’en n’a pas donné le retrolien, il n’est donc pas possible d’en prendre compte. Les blogs High-tech sont les plus visibles chez Wikio puisque lus et relayés par une communauté de blogueurs très active. Si on souhaite calculer un degré d’influence ou d’autorité, il faudrait pouvoir connaitre les sources initiales de ceux qui propagent des informations brutes, sans analyse, ce qui correspond à une bonne part des billets des blogs high-tech qui figurent en bonne place du classement général. A mon avis, un billet relayant une information d’un blog ayant lui-même relayé une information ne devrait pas être pris en compte dans le classement ou alors avec certaine pondération. Le même genre de chose est produit par les blogs people. Maintenant on prenait en compte cette petit chose dans le classement Wikio, une grosse partie des blogs les mieux classé aujourd’hui disparaitraient tout simplement de la liste des 300 « meilleurs » blogs.

29 septembre, 2008 14:45  
Anonymous Christophe D. a écrit...

À Christophe Berge : ben justement, dans le cadre d'un classement (parallèle ?) des billets les plus linkés (et pas seulement des blogs les plus « influents »), c'est la source originelle qui devrait être la plus linkée.

29 septembre, 2008 14:55  
Anonymous Sébastien Billard a écrit...

Cet effort sur le classement est bienvenu (même s'il y a forcément une part d'arbitraire et que le classement idéal est une utopie).

Une petite question Jean : pourquoi le classement Wikio est-il mensuel alors que dans le monde du blog, du buzz et de l'actualité l'immediateté règne en maître ? Est-ce un choix éditorial, ou bien les calculs nécessaires demandent-ils trop de ressources ? Peut-on imaginer un classement en quasi temps-réel, journalier, hebdomadaire ?

29 septembre, 2008 14:57  
Blogger Jean Véronis a écrit...

Christophe, cette remarque est plein de bon sens ! Toutefois, c'est très difficile techniquement parlant. Comme connaître la source initiale ? On ne peut guère que suivre le réseau des rétroliens, et espérer que statistiquement, plus de liens pointent vers la source que vers les clones... Il y a un petit espoir du côté de l'analyse de contenu je suis en train de développer des outils qui permettent de repérer les copies au moins partielles. Mais ça fonctionne quand les copies sont vraiment très proches, pas quand (ce qui est souvent le cas), le blogueur fait de la paraphrase diluée...

Pas facile, mais fascinant : c'est tout un champ de recherche qui s'ouvre devant nous (vous comprenez pourquoi je me suis mis dans la tête de collaborer avec Wikio ? ;-)

29 septembre, 2008 14:58  
Blogger Jean Véronis a écrit...

Q> Oui, en tant qu'outil de découverte (et aussi en tant que mesure de pertinence pour l'affichage des news), il faut que le classement soit un peu conservateur. Et effectivement, c'est une bonne idée de compléter par "les plus fortes progressions", "les entrants dans le top 100", ou comme je disais ci-dessus, les "buzz du mois"... Bien du pain sur la planche !

29 septembre, 2008 15:01  
Anonymous l'hérétique a écrit...

Tout cela est passionnant. j'ai du mal à suivre, faute de connaissances techniques suffisamment étendues, mais je lis avec beaucoup d'intérêt vos remarques de bon sens. Petite question : est-ce que vous allez tenir compte des flux partagés (par exemple, les widgets) ?

Il y a également le serpent de mer de tous ceux qui tentent d'établir des classifications : on déclare au départ une catégorie dans wikio, quand on enregistre un blog, mais comment faire quand un blog est multi-thèmes ? Est-il envisageable de déclarer une catégorie principale, et une catégorie secondaire à terme ?

29 septembre, 2008 15:29  
Anonymous l'hérétique a écrit...

ah, et encore un détail : comment considérer les articles qui sont, certes, peut-être des clones, mais qui, de facto, en étant clonés, augmentent mécaniquement leur nombre de lecteurs ?
Quid, par exemple, de CoZop ? Le considérez-vous comme un agrégateur ? de Paperblog, contre-feux, et d'autres encore ? Et comment considérer les choses quand un article dispose d'un lien sur come4news pour aboutir sur un blog, avec vraisemblablement l'intention de rameuter des lecteurs ?

Ce que je veux dire, c'est la chose suivante : considérez-vous les choses avec un pragmatisme absolu, indépendamment de la valeur morale (ou quasi-morale) des stratégies ? Je voudrais soulever par ces remarques la question de la définition de la tricherie. La tricherie, est-ce que c'est tenter de fausser un classement, ou bien est-ce simplement le décalage entre le classement et l'influence réelle.
Comme je le disais initialement, quelqu'un qui réplique un article sur d'autres supports augmente mécaniquement son nombre de lecteurs, a fortiori si le support considéré agrège un lectorat pas forcément issu de la blogosphère.

Si wikiolabs élimine automatiquement tout doublon, il ignore les lecteurs du clone, et pourtant, ils existent.

Enfin, est-ce que wikio explore aussi les rétro-liens des journaux en ligne (le monde, le figaro, et cetera) en distinguant d'ailleurs bien les blogs des plate-formes journalistiques et les journaux eux-mêmes.

29 septembre, 2008 15:36  
Blogger Jean Véronis a écrit...

L'Hérétique> Ce n'est pas évident de tenir compte des widgets. Il est vrai qu'ils peuvent créer des "liens" vers des sites, mais ce sont souvent des javascripts. Pas facile du tout (et se pose aussi le problème de la duplication, ce que j'appelle "effet galerie des glaces").

La question des catégories est très difficile. Elle a affecté mon propre blog (à l'époque où j'avais une moitié d'articles de commentaire politique). Pour l'instant un blog est dans une seule catégorie, mais ce n'est pas satisfaisant. Ca fait partie des chantiers à venir...

29 septembre, 2008 15:49  
Blogger Jean Véronis a écrit...

L'Hérétique> Vous avez décidé de me gâcher la sieste avec des questions qui font réfléchir ! ;-)

L'indicateur que calcule Wikio est un indicateur d'influence (comme le Page Rank de Google), pas un indicateur d'audience. Donc, c'est vrai que les clones ont des lecteurs, mais Wikio n'est pas en mesure de le savoir (et ne cherche pas à le faire).

L' "influence" (mauvais terme mais bon...) est basée sur le nombre de citations, comme c'est la cas dans la communauté scientifique. Ce qui est important est d'avoir été cité par la source X, mais ensuite que cette source soit "photocopiée", redistribuée sous diverses formes n'entre pas en ligne de compte (ce serait d'ailleurs ingérable, et source du plus grand spam de la terre...).

Wikio prend en compte tous les rétroliens, blogs ou médias (la distinction devient d'ailleurs parfois difficile).

29 septembre, 2008 16:04  
Anonymous Christophe D. a écrit...

À l'hérétique :

« comment considérer les articles qui sont, certes, peut-être des clones, mais qui, de facto, en étant clonés, augmentent mécaniquement leur nombre de lecteurs ? »

Tout dépend par qui sont lus ces blogs (on en revient à l'importance des divers flux de lecteurs). Si 10 blogs d'une même thématique linkent un même article mais que ces 10 blogs sont lus par un même noyau de lecteurs, ces 10 liens ne rapporteront pas tous des visites, en tout cas, ils n'en ramèneront pas 10 fois plus qu'un seul. Par exemple, 10 blogs sur les iPhones ne sont pas lus par n visiteurs x 10, mais ils sont lu par un même groupe de visiteurs qui suit plusieurs blogs d'une même thématique.

Concrètement, ceux qui bloguent l'info le plus tardivement ne rapporteront presque rien, quelque soit leur nombre de visiteurs car ces mêmes visiteurs auront déjà cliqués sur le lien via d'autres blogs qui ont déjà parlé de ce fameux billet.

29 septembre, 2008 16:09  
Anonymous L'hérétique a écrit...

@ Christophe et Jean Véronis
et dans ce cas, le fait de figurer dans yahoo actualités ou google actualités est-il pris en compte ?

29 septembre, 2008 18:30  
Blogger Jean Véronis a écrit...

Non.

29 septembre, 2008 18:33  
Anonymous stagueve a écrit...

@Jean : "il y aura de belles montées, comme Nowhere Else", excellente nouvelle! Je suis impatient que ce nouveau classement soit révélé! :)

@Christophe Berge : Concernant la photo du MacBook Pro je souhaite préciser que celle ci m'a été envoyée par mail par un anonyme sans informations complémentaires, si j'avais obtenu cette photo d'une source en ligne je l'aurais cité comme j'en ai l'habitude.

Pour ce qui est de "l'influence" de Nowhere Else je préfère parler d'une certaine capacité à débusquer l'info en primeur.
Les news d'importance ou tout du moins ayant un attrait certain étant systématiquement relayées à de multiples reprises à travers le Web et la Blogosphère je met un point d'honneur à être parmi les tout premiers "sur le coup".

Avoir de l'influence se traduirait selon moi par une influence sur l'avis ou les comportements de mes lecteurs ce qui ne me semble pas être en mon pouvoir, le fait que je parvienne à dénicher des informations fraiches est par contre bien plus vérifiable et je m'en contente pour le moment ;)
(PS: Vous donniez TC Fr en exemple dans votre commentaire mais bien d'autres citations viennent attester des résultats de mon travail de veille > http://www.nowhereelse.fr/?page_id=8265)

30 septembre, 2008 04:32  
Blogger Jean Véronis a écrit...

Sébastien> Oui, j'y pense... Peut-être pas à un classement complet, mais à une sorte de palmarès de la semaine, à la fois des blogs qui se sont distingué et aussi des billets qui ont le plus "buzzé"...

Ce ne sont pas les calculs qui sont lourds, mais plutôt les vérifications manuelles. A chaque classement, les documentalistes de Wikio s'assurent (autant qu'ils le peuvent) qu'on ne fait pas entrer des spammeurs, que les nouveaux entrants dans chacune des catégories est bien en rapport avec cette catégorie (ex: que les blogs Sport ne parlent pas de Gastronomie...), etc. Mais on doit pouvoir faire une version light sur le buzz de la semaine...

30 septembre, 2008 07:54  
Blogger  a écrit...

« je ne marche pas beaucoup à l’ego »

Avec 12 « j' » ou « je » sans compter celui-là, sur 4 paragraphes, non. Pas du tout. Prochaine étape, tout à la troisième personne.

30 septembre, 2008 10:05  
Blogger Jean Véronis a écrit...

Mu> Le grand Véronis vous a entendu. Quand il disait "je" il avait tort, et comme Alain Delon, ne parlera plus de lui qu'à la 3e personne. Ce sera tout à sa modeste gloire ;-)

30 septembre, 2008 10:08  
Anonymous Daniel a écrit...

voilà une note à propos pour booster le referencement du blog aixtal sur Wikio :-)

Merci pour ces clarifications
les yoyos m'avaient fait décrocher le classement wikio depuis 2 - 3 mois et le manque de clarté m'avait découragé de chercher a comprendre

30 septembre, 2008 17:23  
Blogger Jean Véronis a écrit...

Daniel> A dire vrai, j'ai été un peu inquiet de tous les liens que je reçois sur mes billets à propos de Wikio... Manifestement le sujet intéresse, mais j'avais bien peur de me retrouver 1er de la catégorie Science (actuellement je suis 2nd derrière Affordance). Outre le fait qu'Affordance mérite très largement la première place, vu l'énergie qu'y consacre Olivier, je me suis dit que ça allait faire super-louche ! J'avais envisagé me retirer du classement si j'avais été premier. Et puis, finalement, Olivier reste premier à un chouïa près (ouf)...

30 septembre, 2008 17:32  
Anonymous Sophie a écrit...

Je suis curieuse de voir ce que va donner cette nouvelle méthodologie.
Par ailleurs, ce serait aussi très bien si Wikio se décidait à rajouter une rubrique "culture" dans son classement / sa catégorisation de blogs...

30 septembre, 2008 20:05  
Blogger LOmiG a écrit...

intéressante discussion : le fait de chercher à évaluer les choses conduit toujours à se poser des questions passionnantes, controversées, et finalement dynamique.

une question bête : il sort quand, le "wikio nouveau" ?

01 octobre, 2008 09:07  
Anonymous Christophe D. a écrit...

En lisant les billets des blogs qui pointent par ici, on s'aperçoit qu'il y a effectivement 2 écoles pour ce qui concerne la durée de prise en compte des rétroliens. Une partie préfère un classement très stable (lié au « poids » des blogs) et l'autre préfère un classement qui soit volontiers fluctuant, plus lié à l'actu du mois.

Du coup, je me demande s'il ne serait pas intéressant d'imaginer un curseur, qui permette aux utilisateurs de paramétrer à la volée le type de classement qui les intéresse. À une extrémité du curseur, on met beaucoup plus de points d'autorité vers les billets du mois et à l'autre extrémité, on stabilise le classement sur 9 mois (juste une questions de modifier les indices d'atténuation progressive selon la position du curseur, en fait). Cela ne vous empêcherait pas de publier chaque mois un classement « officiel », avec par défaut, une position de curseur médium.
Mais je pense que cette option intéresserait du monde.

C'est ce qui m'est passé par la tête ce matin, on pense à de drôles de choses parfois ;-)

01 octobre, 2008 09:22  
Anonymous Christophe D. a écrit...

(suite) Si ce curseur correspond à une échelle de temps en nombre de mois (ergonomiquement, plus facile à appréhender pour « madame michu »), les utilisateurs pourraient même voir ce que donne le classement sur un mois ou sur l'année (ou sur le nombre de mois qu'ils veulent, mais du coup, il ne serait pas forcément utile de mettre beaucoup de positions intermédiaires).

01 octobre, 2008 09:28  
Anonymous Christophe D. a écrit...

(Allez hop, je continue ! ;-)

Pas grand chose à voir avec mes commentaires précédent mais dans le registre « découverte », on pourrait aussi imaginer qu'il y ait un onglet sur chaque blog présent dans le classement, et en cliquant sur cet onglet, apparaitrait sous le nom du blog les 3 billets qui ont été les plus linkés sur la période définie, ce qui apporterait une couche d'info et un intérêt supplémentaire au classement. Comme vous êtes capable de générer un classement de blogs et un classement de billet, je me dit que c'est surement possible. Cela permettrait aux utilisateurs de se rendre directement sur les billets qui sont responsables de ce classement (même s'ils datent car ça dépend de la période de relevé prise en compte) et aussi, d'avoir une vision du contenu du blog classé encore plus fine que la thématique à laquelle il appartient.

01 octobre, 2008 09:53  
Blogger Daniel a écrit...

la derniere proposition de Christophe (affichage des billets les plus populaires) serait en effet un service tres tres tres intéressant !!
(surtout au retour des vacances pour trouver ce qu'on a raté facilement)

01 octobre, 2008 10:19  
Blogger LOmiG a écrit...

Question bête n°2 : un blog peut se définir comme, basiquement, un site présenté de manière anti-chronologique, et comportant la possibilité de commenter.

Comment intégrer les commentaires dans le classement ?

01 octobre, 2008 14:03  
Blogger FrédéricLN a écrit...

Bravo pour votre façon de voir les choses : les maths, les chiffres, les classements, certes jamais parfaits, doivent pourtant avoir un sens, et un sens compréhensible, réfutable.

Vous faites oeuvre utile !

(et je l'écris sans savoir ce que donnera le classement du 1er octobre !...)

01 octobre, 2008 21:44  
Anonymous Olivier Ertzscheid a écrit...

@Jean : "Outre le fait qu'Affordance mérite très largement la première place" => ah ben si tu te mets à faire un classement au mérite, t'es pas sorti d'affaire :-)))))

01 octobre, 2008 21:44  
Anonymous franck a écrit...

En tout cas il se fait attendre ce classement...

02 octobre, 2008 01:21  
Blogger Jean Véronis a écrit...

Sophie> Oui, il faudrait une rubrique Culture. Mais c'est un poil compliqué. Il y a déjà des blogs dans Littérature, Cinéma, Science (je pense à Langue Sauce Piquante)... Faut-il qu'ils soient dans deux rubriques ? Comment faire ? Pas simple...

03 octobre, 2008 15:37  
Blogger Jean Véronis a écrit...

Lomig> Ca sort lundi officiellement... avec quelques indiscrétions ce week-end ;-) En voici une : Réseau-LHC fait une superbe montée (il passe dans les 400 du classement Politique).

03 octobre, 2008 15:41  
Blogger Jean Véronis a écrit...

Christophe D.> On a commencé à discuter de ça sur le billet suivant... Ca va trop vite ! Je trouve l'idée des curseurs excellente. Avec le nouveau système, Wikio dispose d'un score mensuel. Les différents mois peuvent être combinés de toutes les façons qu'on veut... On peut ne garder que le score du mois, changer la force de l'atténuation sur x mois etc. Toutes ces chsoes nous pourrons les expérimenter ensemble (je ne vois pas de difficulté à publier les scores partiels pour qu'on essaie différentes cuisines dans le cadre des Labs).

03 octobre, 2008 15:46  
Blogger Jean Véronis a écrit...

Christophe, Daniel> Oui, c'est une excellente idée, cette histoire de billets les plus cités (de la semaine, du mois etc.). Ce n'est pas très compliqué en plus (je le mets dans la pile !).

03 octobre, 2008 16:30  
Blogger Jean Véronis a écrit...

FredericLN> On va voir quelles sont les réactions... Il y aura certainement des râleurs (ceux qui descendent !), mais globalement, je trouve qu'il y a un très beau renouvellement avec plein de blogs qui émergent dans des thématiques qui étaient sous représentées dans le top 100 (littérature, marketing, science, blogs de filles, etc.).

Mais bizarrement, j'ai l'impression que Demsf n'est pas dans Wikio... J'ai demandé aux techniciens de regarder ce qui se passe (je ne sais pas s'ils pourront récupérer le pb pour le classement en cours).

03 octobre, 2008 16:35  
Blogger Jean Véronis a écrit...

Olivier> Aïe aïe aïe... Mauvaise nouvelle : les derniers calculs mettent Aixtal premier de la catégorie Science... C'est l'effet des liens des derniers jours, sur ce billet, notamment. Flûte.

03 octobre, 2008 16:37  

Enregistrer un commentaire

mercredi, septembre 24, 2008

Google: Please find attached...


I’ve dreamt about it (and I’m sure you have too), Google have done it (in part at least)... How many times have you sent a message and later realized that you have forgotten to send the attachment? Embarrassment guaranteed. It has nearly come to be a standing joke with me to say that the automatic detection of missing attachments will be one of the best selling natural language processing programs in the world. A few years ago I even had discussions with students in my seminars on the various ways of developing such a function.

Well, believe it or not Google has announced that it has developed this function as part of GMail, under the mildly sexy name of "Forgotten attachment detector".



It must seem slightly magical to some of you, almost the stuff of science-fiction (could Google now be able to guess, or even anticipate our thoughts? It’s enough to make you shiver...). I am the first to denounce false announcements, which do more harm than good in the field of language technologies (there have been a slew of them over the last half century or more, on automatic translation, man-machine dialogue, and others). We know the problem with these technologies, and the greatest modesty still reigns. As I say in my first lesson, in fifty years we have managed to decode the human genome, but not the language... In this particular case however, I do believe it’s perfectly feasible.




How on earth has Google managed to do it? Honestly I have no idea, but I can tell you how I would have done it (and it seems to me to be just about the only way). The wrong way, in my opinion, is to scratch your head and try to find expressions to detect in the body of mails: "please find attached", etc. Even if you hire the best linguists in the world, the majority will still more than likely be missed.

So here’s my recipe:
  • Take a very large mail base, millions, billions if possible (Google easily has that).
  • Split them into two piles: mails with attachments, mails without attachments.
  • Extract from each of the piles the dictionary of words that come up, or even better the n-grams that is sequences of n words that come up.
  • With the use of statistical tools, extract the n-grams which appear frequently in mails with attachments and not in mails without attachments.
  • For each new mail, check to see if one of these magical n-grams is present in the text, and if so trigger an alarm.
I’ve just done a little rough test with my own mails and I can see word sequences appearing like: "hereafter”, "attached file(s)”, "attachment(s)”, "I’m sending you”, "I’m forwarding to you”, "here is the report”, "here is the file”, "here is the/a document”, "here is the estimate”, "please find”, etc.

Of course, a program like this will generate a little noise (false alerts) and silence (missed attachments), but if 95% of cases can be detected, it’s a more than useful function.

My estimate:
  • Building a prototype: one day.
  • Developing and testing an operational version: one month.
Maybe I should offer my services to Google, since if I am to believe the mini-test featured on Pulse 2.0, it's not very good. The detector recognizes "I have attached", but not "Attach a document" or "Here is the attachment"... I tested this myself, with phrases like "Attached please find a copy of...", without much more success. Rather strange all the same.

It remains to be seen (after having resolved these few details...) if Google will offer a French version. I’ve already mentioned in the past the amount of time Google takes in localizing its products. Sometimes a few years. Watch this space.

Libellés :


0 Commentaires:

Enregistrer un commentaire

mardi, septembre 23, 2008

Moteurs: Suggestions (Google, Orange, Yahoo)

Ca m'a amusé hier ou avant hier de voir le nombre de posts qui nous disaient que Google avait un petit logo festif pour célébrer la venue de l'automne. Très joli, d'ailleurs, mais bon, les trois quarts des internautes l'avaient probablement déjà vu, sans doute même en page d'accueil de leur navigateur... Mais trêve de persifflage. Il y a une fonctionnalité qui a été beaucoup moins commentée, c'est l'apparition de Google Suggest en français. Je pense que c'était à la fin août. J'ai été un peu bousculé à cette période-là et je n'ai pas blogué sur le champ, mais je me permets d'y revenir, car je trouve cette fonctionnalité assez intéressante du point de vue des technologies du langage, qui après tout sont le thème de ce blog...


J'avais salué l'apparition de ces suggestions sous la boîte de recherche en décembre 2004 (ouf... ça me fait penser qu'il faut peut-être que je change ma photo dans le coin, je commence à avoir la barbiche qui grisonne...). Lorsqu'on tape les premières lettres d'une requête, Google affiche les requêtes les plus fréquentes dans ses logs qui commencent par le même préfixe (avec quelques petits filtres : tapez encu..., salo... pour voir ;-). A l'époque les interactions communément appelées Ajax étaient moins répandues et le tour de force technique (quand on pense à la volumétrie...) était donc assez remarquable. Jusqu'ici, la fonctionnalité n'existait que pour l'anglais. Il a donc fallu presque quatre ans pour que Google la localise (ce qui rejoint la remarque que je faisais l'autre jour à propos du détecteur d'attachements manquants). Et encore, sauf erreur de ma part elle n'est pas disponible sur www.google.de, ni .it, ni .es. Google est décidément un produit américain.

Mais ne boudons pas notre plaisir. Je suis sûr que ce petit outil va intéresser les référenceurs...

Si la fonction Suggest de Google est passée assez inaperçue, celle d'Orange a carrément été zappée. Pourtant (en début de cette année, si mes souvenirs sont bons), LeMoteur (c'est juste son nom ;-) a lancé une boîte analogue :


Yahoo propose également une boîte de suggestion, je l'avais d'ailleurs annoncée ici en février. C'est peut-être la plus élaborée des trois. Les suggestions ne sont pas seulement basées sur le préfixe, mais sur l'apparition de la chaîne n'importe où dans la requête (par exemple Etap Hôtel est proposé pour hôtel).



Sur une même requête (ci-dessus hôtel), l'intersection n'est pas vide (on retrouve hôtel paris, hôtel ibis, etc.) mais il y a des différences. Les champions SEO vont donc apprécier de pouvoir compléter la liste ;-)

Autre exemple assez compétitif :

Google


Orange LeMoteur


Yahoo

Les référenceurs vont s'amuser (c'est sans doute déjà le cas, surtout s'ils maîtrisent les gadgets du genre XMLHttpRequest et s'ils savent manipuler TOR, mais je ne veux pas donner de mauvaises idées...)

6 Commentaires:

Blogger Vicnent a écrit...

LeMoteur, c'est juste son prénom ? Une réplique qui avait déjà pignon sur rue ici... (ça fait au moins une bière, ça...)

23 septembre, 2008 17:45  
Blogger Jean Véronis a écrit...

Une bière, ok, c'est mérité, mais j'avais tendu un peu la perche quand même... Je peux carrément t'inviter à dîner ;-)

23 septembre, 2008 18:20  
Anonymous Anonyme a écrit...

Ca ressemble un peu à la awesome bar (barre géniale, en Français) de firefox 3.

Sauf que la awesome bar ne recherche (je crois) que dans l'historique et les bookmarks du navigateur. Les liens commerciaux sponsorisés n'ont pas encore envahis firefox, mais ils sont les fondations de Google.

Supprimez la pub (qui devrait en prendre un coup avec les évènements actuels) et Google tremble...

23 septembre, 2008 18:37  
Anonymous Sébastien a écrit...

A noter que pour les "googles" belges et suisses en langue française, cet outil n'a pas été ajouté. De la discrimination envers les francophones non français? Vilain Google.

23 septembre, 2008 18:51  
Blogger Vicnent a écrit...

Tu oses !

\privateJoke{ En fait, je crois que je préfère coucher}

23 septembre, 2008 19:00  
Blogger Jean Véronis a écrit...

\privateJoke{ c'est sûr, mais sur la table en marbre que tu mets en lien, bof...}

24 septembre, 2008 11:57  

Enregistrer un commentaire

lundi, septembre 22, 2008

Blogs: Indices d'autorité relative ?

Je me permets de vous signaler un excellent article de Christophe (Ouinon.net). Christophe est l'auteur de la magnifique carte des blogs francophones dont vous vous souvenez certainement, et a participé l'autre soir à la première "Wikio Labouffe" (voir ici, ici ou ici)...

Classements de blogs : établir des indices « d'autorité relative » ?

Sachant que la plupart des formes de classements de blogs se base sur les liens (entre autres critères, mais c'est souvent le critère principal), mon axe de réflexion se porte sur le rapport entre l'usage des liens et les divers types de lecteurs qui consultent les blogs.


[Lire la suite chez Christophe]

Ne cliquez pas sur le lien si vous êtes pressé. C'est un article long et détaillé, qui vous entraînera sur de passionnantes réflexions... Il complète de façon excellente l'analyse de Vicnent que j'ai déjà signalée l'autre jour, ce compte rendu d'Olivier (Affordance) ou ce billet de Christophe Berge. A lire aussi, l'analyse de Jean-Marie sur le rapport Giazzi (voir également chez Narvic)...

Je n'ai pas l'intention que ce blog se transforme en revue de liens (il faudra peut-être que je mette en place un outil quelconque sur Wikio Labs quand j'aurai un peu de temps...), mais je me permets aussi de vous signaler des réactions très pertinentes sur l'affaire de Wikio et les robots :
Comme toujours les commentaires sont aussi intéressants que les articles...

Ça cogite ferme en ce moment !
Bonne semaine à tous.

Libellés : ,


4 Commentaires:

Blogger Jean-Marie Le Ray a écrit...

Jean,

La rapport Narvic, il va pas être content !
C'est le rapport Giazzi, sur lequel Narvic a fait une analyse tout à fait excellente. :-)

Jean-Marie

22 septembre, 2008 09:54  
Anonymous chaux cedric a écrit...

Cet article m interesse beaucoup car je dois analyser le blog d une entreprise international (http://blogs.intel.com/csr/) et j aimerais etre capable de savoir quel est le traffic sur ce blog et comment il est classe.
BLog, un nouvel outil de communication externe pour les entreprise ? comment l utilise t ils ? quels sont les avantages dans le cadre de la responsibilite social des entreprises ?

22 septembre, 2008 10:03  
Anonymous narvic a écrit...

Le "rapport narvic"... :-))

Le président ne fait pas encore appel à moi pour réfléchir à l'avenir de la presse. Mais s'il lui venait cette bonne idée, j'ai bien peur que ça ne donne pas tout à fait le même résultat qu'avec Mme Giazzi... ;-)

22 septembre, 2008 11:17  
Blogger Jean Véronis a écrit...

Jean-Marie, Narvic> Excellent ! Ce beau lapsus en dit long sur la façon dont fonctionne le cerveau humain (j'étais en train de lire le post de Narvic). J'ai rétabli la phrase dans sa version complète (avec le lien of course). Merci à vous deux.

22 septembre, 2008 13:16  

Enregistrer un commentaire

samedi, septembre 20, 2008

Google: Veuillez trouver ci-joint...


J'en ai révé (vous aussi sans doute), Google l'a fait (en partie au moins)... Combien de fois avez-vous envoyé un message en réalisant quelque temps plus tard que vous avez oublié la pièce attachée ? Embarras garanti. C'est presque devenu pour moi une plaisanterie standard de dire que la détection automatique des attachements manquants serait l'un des programmes de traitement automatique des langues les plus vendables au monde. J'ai même eu il y a quelques années des discussions avec des étudiants dans mes séminaires sur les diverses façons de développer une telle fonctionnalité.

Eh bien, figurez-vous que Google annonce avoir mis au point cette fonctionnalité dans le cadre de GMail, sous le nom moyennement sexy de "Forgotten attachment detector".


Cela paraît sans doute un peu magique à certains d'entre vous, limite science-fiction (Google pourrait-il désormais deviner, voire anticiper nos pensées ? Ça fait frémir...). Je suis le premier à dénoncer les annonces bidons, qui font plus de mal que de bien au domaine des technologies du langage (on en a eu une flopée depuis un demi-siècle ou plus, sur la traduction automatique, le dialogue homme-machine, et autres). On connaît la difficulté de ces technologies, et la plus grande modestie est toujours de mise. Comme je dis dans mon premier cours, en cinquante ans on a réussi à décoder le génome de l'Homme, pas son langage... Mais dans ce cas précis, je pense que c'est tout à fait faisable.


Comment Google a-t-il bien pu faire ? Honnêtement je n'en sais rien, mais je peux vous dire la façon dont j'aurais procédé (et qui me paraît être à peu près la seule). La mauvaise idée, à mon avis est de se creuser la tête et d'essayer de trouver des expressions à détecter dans les mails : "veuillez trouver ci-joint", etc. Même en recrutant les meilleurs linguistes du monde, on a toutes les chances d'en rater la plus grande partie.

Voici donc ma recette de cuisine :
  • Prendre une très grande base de mails, des millions, milliards si possible (Google a largement ça).
  • Faire deux paquets : les mails avec attachement, les mails sans attachement.
  • Extraire de chacun des deux paquets le dictionnaire des mots rencontrés, ou encore mieux des n-grammes c'est-à-dire des suites de n mots rencontrés.
  • Extraire à l'aide d'outils statistiques les n-grammes qui apparaissent fréquemment dans les mails avec attachement et pas dans les mails sans attachement.
  • Pour chaque nouveau mail, regarder si un de ces n-grammes magiques est présent dans le texte, et si oui déclencher une alerte.
Je viens de faire un petit essai à la louche dans mes propres mails et je vois apparaître des suites comme : "ci-joint(e)(s)", "fichier(s) attaché(s)", "pièce(s) jointe(s)", "je t'envoie", "je te fais parvenir", "voici le compte-rendu", "voici le fichier", "voici le/un document", "voici le devis", "veuillez trouver", etc.

Bien entendu, un tel programme comportera un peu de bruit (des fausses alertes) et de silence (des attachements ratés), mais si on détecte déjà 95% des cas, c'est une fonctionnalité plus qu'utile.

Mon estimation :
  • Réalisation d'une maquette : un jour.
  • Développement et test d'une version opérationnelle : un mois.
Peut-être vais-je proposer mes services à Google, car si j'en crois le mini-test paru sur Pulse 2.0, ce n'est pas brillant. Le détecteur reconnaît "I have attached", mais pas "Attach a document" ni "Here is the attachment"... J'ai testé moi-même, avec des phrases comme "Attached please find a copy of...", et je n'ai guère eu plus de succès. Un peu gros quand même.

Reste à savoir si (après avoir reglé ces quelques détails...) Google proposera une version française. J'ai déjà mentionné dans le passé les délais importants de Google pour la localisation de ses produits. Parfois plusieurs années. A suivre, donc.

Libellés :


17 Commentaires:

Anonymous jm a écrit...

Et sinon, de manière beaucoup moins subtile, le client mail libre que j'utilise (kmail) dispose depuis longtemps de cette fonctionnalité.
Elle est basée sur la détection de mots que l'utilisateur peut ajuster à son besoin (dans les faits, très peu suffisent).

Certes, il y a des faux positifs, mais ça m'a beaucoup aidé à plusieurs reprises.

20 septembre, 2008 18:02  
Blogger Jean Véronis a écrit...

JM> Oui, il y a des scripts de ce type qui traînent, comme celui-ci. Mais ils sont, comme vous dites, généralement assez limités et il faut "bricoler" un peu, voire beaucoup... Google a les données (grâce à ses bases de mails gigantesques) pour développer la "killer app" (c'est l'approche qu'ils ont utilisée en traduction automatique, avec un succès considérable).

20 septembre, 2008 18:09  
Blogger Q a écrit...

Je pensais à un filtre bayesien du type des filtres anti-spam. On pourrait inclure la possibilité de l'éduquer (quand effectivement on attache un fichier ou non, ou en lui indiquant quand il se trompe), ce qui le rendrait plus adapté à l'utilisateur...
ça revient à peu près au même.

20 septembre, 2008 20:25  
Blogger Jean Véronis a écrit...

Q> filtre bayésien : oui tout à fait, c'est le genre de mécanisme qui serait tout à fait adapté à ce genre de cas (je n'ai pas voulu entrer trop dans la technique ;-)

20 septembre, 2008 20:34  
Blogger Jerome Eteve a écrit...

Bonjour,

Lu sur google blogoscoped:

L'outil magique est bien base sur la detection de n-gram magiques, mais ceux ci sont hardcodes et ne semblent pas venir d'une analyse statistique.

Pour des cas somme toute assez simples comme celui la, je me demande toujours si l'approche bayesienne est forcement plus performante que la methode 'choisissons des mots cles bases sur notre experience d'humain'.

Pardon pour les accents, ils manquent sur mon clavier.

20 septembre, 2008 21:00  
Blogger Jean Véronis a écrit...

Jerôme> Je crois que c'est ce billet auquel vous faites référence, mais je ne vois pas de mention du fonctionnement, hardcodé ou pas ?

Je ne peux évidemment pas vous en apporter la preuve empirique, mais mon expérience de nombreuses années dans le domaine du traitement du langage me dit qu'en essayant de trouver des mots-clés "a la mano" pour un cas comme ça ne donnera rien de grandiose... En fouillant dans mes mails j'ai trouvé des choses auxquelles je n'aurais pas pensé, comme "vous n'avez pas reçu mon document corrigé ? le revoici" ou "voici un premier retour sur...", etc. A part les mot-clés évidents ("ci-joint" etc.), on a très certainement une "long tail" très difficile à prédire.

20 septembre, 2008 22:06  
Anonymous Anonyme a écrit...

Ca semble être un problème type d'apprentissage supervisé (en "machine learning").

21 septembre, 2008 00:36  
Blogger Jean Véronis a écrit...

Anonyme> Oui, c'est exactement ça !

21 septembre, 2008 08:50  
Anonymous Anonyme a écrit...

L'analyse des milliards de mails de google ?
Cela supposerait donc que google ait stocké, conservé les échanges privés des utilisateurs de gmail !
Je ne sais si dans leurs CGU ils ont prévus de faire renoncer les gens à leur droit à la vie privée en utilisant gmail; mais même là, utiliser (et se faire prendre la main dans le sac) des échanges privés à l'insu du plein gré des auteurs, ça ferait tâche... Non ?

21 septembre, 2008 17:16  
Blogger Jean Véronis a écrit...

Anonyme> Bien sûr que Google stocke les mails, et les utilise pour faire avancer sa technologie. Extrait des CGU (c'est moi qui met en gras) :

Gmail stores, processes and maintains your messages, contact lists and other data related to your account in order to provide the service to you.

Google's computers process the information in your messages for various purposes, including formatting and displaying the information to you, delivering advertisements and related links, preventing unsolicited bulk email (spam), backing up your messages, and other purposes relating to offering you Gmail.

Nous sommes prévenus.

21 septembre, 2008 18:46  
Blogger Nicolas Voisin a écrit...

à rajouter : "PJ" ;-)

22 septembre, 2008 11:42  
Blogger Jean Véronis a écrit...

Ca rappelle trop "police judiciaire"... (bises, Nico ;-)

22 septembre, 2008 16:37  
Anonymous Anonyme a écrit...

quand je pense qu'il y a encore des gens qui croivent que nos mails ne sont pas stockés...
On n'a pas besoin de lire le CGU pour le deviner.
Vous croyez vraiment qu'ils raclent ces milliards par miracle?

Je pense que Google veux créer cet outil pour attirer plus d'utilisateur dans son Gmail, déjà que "Google docs " a du succès.
Malheureusement le commun des mortel ne sait pas que tout cela a un prix, parce qu'ils doivent rentabiliser leur investissement:
- perte de la vie privée;
- possibilité de mieux cibler la publicité sur vous (donc vous n'aurez pas de choix);
- En cas d'attaque qui vise Google on saura tout sur vous et vos contacts (ce genre d'attaque est parfaitement possible et réalisable);
- etc.
Contrairement à ce que l'on croit tout cela a des conséquences sur notre vie tant professionnelle que privée.

Exemple banale:
Vous avez envie vous que l'on sâche que vous étiez dans un hotel de Thailande réputée être l'antre de la pédophilie?
Non, hein? Et pourtant vous y étiez pour rencontrer une amie qui voulait sauver quelques gosses;
Vous avez eu une urgence il fallait envoyer un mail...
La suite vous devinez.

Il ne faut pas être un Nobel de Physique pour comprendre cela.

23 septembre, 2008 14:01  
Blogger Jean Véronis a écrit...

Anonyme> Ce commentaire me fait plaisir... Je suis stupéfait par l'hypnotisation générale qu'a réussi Google. Je me souviens de levées de bouclier contre Microsoft (le système Passport, vous vous souvenez ? pourtant c'etait du pipi de chat à côté !)... mais contre Google, rien. No evil. Circulez.

23 septembre, 2008 20:48  
Anonymous Jean-Pierre a écrit...

Je suis certain qu'un "Jean Veronis" chez Google aurait un impact sur leurs produits... et sur le cours de l'action ;)
... Mais quelle perte pour nous :(

Je comprends tout à fait les détracteurs de Google, mais force est de constater que leurs produits ont aussi transformé notre expérience web et imposé leur rythme aux autres acteurs d'internet.
A l'époque du lancement de GMail, la plupart des sites de messagerie n'autorisaient que 100Mo de stockage avec obligation d'utilisation très régulière sous peine d'effacement des mails ou du compte. Yahoo envisageait même de rendre payante sa messagerie "premium".
N'oublions pas que les produits Google étaient attendus comme des révolutions.

Google a compris que le marketing passait par l'image positive renouvelée et le buzz, mais cela n'est possible qu'en raison de la créativité de leurs produits.

L'histoire (et le business model) de Google est décrite dans un livre, Google Story, mais pour certains ils pourraient virer vers totalitaires, comme décrit dans la fiction Engooglés.
A suivre.

28 septembre, 2008 17:04  
Blogger Jean Véronis a écrit...

Jean-Pierre> Oui, Google a tiré un certain nombre de choses vers le haut, dans tous les cas où il était en situation de concurrence (comme sur le mail).

Mais lorsqu'il est en situation de monopole, il les tire plutôt vers le bas, comme c'est toujours le cas dans ce type de situation... Ainsi sur le search, Google est certes rapide, mais l'ensemble de sa techno est plutôt ancienne de conception. Si vous y réfléchissez, à part des améliorations de détail, rien n'a vraiment changé dans le principe depuis 1998. Or, on peut imaginer des tas de choses novatrices et radicalement différentes. Mais quel challenger aura le courage et les forces d'affronter le géant sur ce terrain ?

C'est la même chose avec tous les monopoles : Windows, Microsoft Office... Il faut s'en contenter, avec leurs défauts. Ce sont eux qui fixent le standard.

28 septembre, 2008 18:48  
Anonymous bafa a écrit...

Puis-je vous dire que je préfère cent fois l'intelligence de ce genre de billets plutôt que lorsque vous nous parlez de moutons et de présidents?
Sincèrement amicalement.

Un fan rebelle.

ps: je crois que Google paye mieux que la fac...

02 octobre, 2008 00:32  

Enregistrer un commentaire

vendredi, septembre 19, 2008

Blogs: Wikio et les robots

Ce n'est pas le titre d'un nouveau roman de science-fiction, mais le thème d'un débat qui anime ce matin la blogosphère...


Je ne voudrais pas décourager les lecteurs de ce blog (qui ne sont pas toujours des "geeks") par des considérations trop techniques, mais pour résumer de façon très grossière, certains blogueurs trouvent que Wikio a tort de placer la directive "disallow" dans le fichier "robots.txt" de son site, qui empêche les robots (Google, mais pas seulement) de suivre les liens vers les billets indexés.

Comme vous le savez, Pierre Chappaz m'a demandé il y a quelque temps d'être conseiller scientifique de Wikio : j'ai donc donné mon avis sur ce point. Je pense aussi que ce n'est pas une très bonne idée de garder une telle directive. En discutant avec l'équipe de Wikio, je comprends qu’elle a été mise dans "robots.txt" au tout début, pour éviter d’attirer les spammeurs de la terre entière, qui ne seraient que trop heureux que Wikio leur transmette du Page Rank... Il faut bien voir que le spam est une vraie nuisance, extrêmement difficile à filtrer. Sans mesures efficaces, ce serait une invasion constante de flux RSS bidons... Prenez par exemple une page telle que la page sur le Viagra :


Elle n'est pas trop spammée, n'est-ce pas ? Imaginez une seule seconde qu'il n'y ait pas de protection !

Mais depuis quelque temps Wikio fait (avec mon aide modeste) un très gros travail de nettoyage et de filtrage. J'ai suggéré à Wikio d'enlever immédiatement ce "disallow" qui traîne pour des raisons purement historiques, car Wikio a maintenant la capacité de se prémunir du spam par d’autres moyens.

Pierre a été immédiatement d'accord, et assez ennuyé en fait de voir que ça avait créé un tel problème. Le fichier "robots.txt" va être modifié dans les meilleurs délais ; c’est peut-être déjà fait au moment où j’écris ces lignes.

Merci à Wikio pour sa réactivité et son écoute.



PS

  • Confirmation : c'est passé en production (voir robots.txt)
  • Bonne analyse chez Jean-Marie Le Ray
  • Note : je ne suis pas porte-parole de Wikio, comme j'ai pu voir sur un forum. Sur ce cas précis, j'ai plutôt l'impression d'avoir été porte-parole des blogueurs auprès de Wikio ;-)

Libellés : ,


47 Commentaires:

Blogger Jérôme Charron a écrit...

C'est ChauffeurDeBuzz qui va être content ;)

19 septembre, 2008 15:44  
Blogger Jean-Marie Le Ray a écrit...

Jean,

robots.txt :-)

J-M

19 septembre, 2008 15:45  
Anonymous Olivier Duffez a écrit...

il me semble que les flux sont choisis ou en tout cas approuvés par Wikio, donc la lutte contre le spam est faite en amont depuis toujours
pourquoi donc avoir mis ce disallow ?

après l'épisode des redirections 302, l'explication fournie est un peu dure à avaler je trouve...

19 septembre, 2008 15:58  
Blogger Jean Véronis a écrit...

jerôme> Ma foi, si ça fait des heureux, tant mieux !

19 septembre, 2008 16:11  
Blogger Jérôme Charron a écrit...

jean > je ne vais personnellement pas m'en plaindre pour staragora

19 septembre, 2008 16:21  
Blogger Jean Véronis a écrit...

Olivier> Non, justement, tout le problème est là ! Certains flux sont choisis par les documentalistes, mais de nombreux flux sont soumis par les utilisateurs ou crawlés directement en suivant les liens des posts. Les documentalistes (un par langue...) surveille a posteriori mais une invasion massive de dizaines de milliers de splogs n'est pas gérable. D'où l'idée des redirections (je suppose, car c'était avant que je mette mon nez dans tout ça). Quoi qu'il en soit, Wikio commence à avoir des parades algorithmiques efficaces, donc je pense que tout cela s'est du passé.

19 septembre, 2008 16:34  
Blogger Jean Véronis a écrit...

...et j'espère que tu me pardonneras les coquilles ;-)

19 septembre, 2008 16:42  
Blogger Jean Véronis a écrit...

Jean-Marie> Ce n'est pas mon jour au niveau typo !

19 septembre, 2008 16:44  
Anonymous Christophe a écrit...

Pour les « petits » blog comme le mien Wikio est avant tout une excellente source de trafic entrant (environ 40% pour mon blog). La qualité du référencement de Wikio permet de place le service dans les premières places de Google. Les internautes venant de là se retrouvent sur une page Wikio qui puise l’information dans seulement 67K sources, contre des millions chez Google. Un billet de mon blog se trouve du coup bien plus visible via Google/Wikio que par Google seul. Pour mon blog la suppression de la directive « disallow » de robots.txt ne me sera donc pas utile puisque de tout façon mon blog est correctement indexé (surtout par rapport au travail de SEO que j’ai fait dessus, proche de 0) par Google et n’a pas besoin de Wikio pour y être aidé. Wikio ne proposant de toute façon que les introductions des billets cela oblige l’utilisateur à cliquer pour le conduire sur le blog source. Je peux toutefois comprendre ceux qui s’en plaignent. Ceux-là là sont des champions du SEO et Wikio peut s’intercaler sur un trafic direct entre Google et leurs sites/blogs. On pourrait aussi dire que cela montrerait dans ce cas que leur SEO n’est pas si bon que cela. En tout cas ceux qui pensent pouvoir se débrouiller tout seul n’ont qu’à demander à Wikio de les supprimer de l’index, ils demanderont à y revenir tôt ou tard quand Wikio sera devenu un peu plus indispensable à la blogosphère.

19 septembre, 2008 16:47  
Anonymous Thomas SOUDAZ a écrit...

Content d'avoir pu faire avancer wikio vers plus de transparence.

On ne m'enlèvera pas de la tête qu'il y avait une vraie problématique "filtre de duplicate content" et trafic autour de ce sujet.

19 septembre, 2008 17:05  
Blogger Jean Véronis a écrit...

Thomas> Je ne suis pas porte-parole de Wikio (en l'occurrence, j'ai plutôt l'impression d'avoir été porre-parole des blogueurs auprès de Wikio sur ce coup), et je ne collabore avec eux que depuis peu de temps. Donc je ne peux répondre. Mais le fait qu'ils aient accepté aussi rapidement ma suggestion me laisse plutôt penser que ce n'est pas la peine de chercher des intentions malignes. Quoi qu'il en soit, si je peux oeuvrer à mon modeste niveau pour faire évoluer Wikio en un véritable outil à disposition des blogueurs, je ferai tout mon possible. N'hésite pas à me contacter directement : je n'ai pas les réponses à tout, mais je peux au moins poser les questions ;-)

19 septembre, 2008 17:15  
Anonymous Anonyme a écrit...

Tout ça me fait bien rire tout de même.
Sans être technicien, je me demande ce que fouttent les experts SEO dans Wikio si le système ne leur plait pas, ou s'ils pensent être abusés.
Ils n'ont qu'à demander leur radiation et point barre. D'ailleurs, ce sont eux qui profitent des TOP sur Wikio après avoir bien négocié leur follow. Et ce sont les mêmes qui ont vendu cette histoire au grand public alors qu'ils en ont profité pour mettre leurs scoops en home.
Au fond, tout ceci est une affaire personnelle entre webentrepreneurs qui éclate au grand jour pour pourrir le business de celui qui a réussit à aller plus loin que les autres. Pathétique cette jalousie.
Et qui en paiera les pots cassés ? Et bien ce sont les petits et moyens blogs qui verront wikio descendre sur les moteurs de recherche, et les webentrepreneurs reprendre le monopole sur google.

Je crois que c'est un aspect dont il faut aussi parler et qu'il faut faire éclater au grand jour. Le boycott de wikio est orchestré dans le but de nuire, et ça, c'est écouerant.

19 septembre, 2008 17:38  
Blogger Jean Véronis a écrit...

Réaction intéressante chez Jean-marie Le Ray.

19 septembre, 2008 17:41  
Blogger Jean Véronis a écrit...

Anonyme> Il y a des choses à méditer dans ce que vous dites... ;-)

19 septembre, 2008 17:58  
Anonymous Otto a écrit...

j'imagine que l'anonyme qui a posté ici est le même qui a trollé sur tous les blogs ;)

1 : dans le billet http://www.chauffeurdebuzz.com/wikio+me+fait+chier-548 , j'ai gueulé pour ne plus être intégré sur wikio

2 : quelques mois plus tard, marc thouvenin (wikio) m'a appelé par tel et m'a proposé de m'y intégrer à nouveau ainsi que d'ajouter un widget. j'en ai profité pour lui soumettre quelques modifications pour rendre clean wikio ...

3 : à la seconde ou j'ai poussé ma dernière gueulante, j'ai envoyé un mail demandant à être retiré de l'index et du classement.

4 : aucune gueguerre de webentrepreneur, je ne visais pas Pierre mais son SEO -> http://twitter.com/ChauffeurDeBuzz/statuses/926971819

Je sais parfaitement que Pierre ne connait pas les tenants et les aboutissants du seo ...

Après si il a réagi comme ça, c'est son pb ...

- - - - - - -

Au final, si le disalow a été supprimé, c'est que je ne devais pas avoir si tort que ça ...

20 septembre, 2008 12:36  
Blogger Bruno Bichet a écrit...

"Elle n'est pas trop spammée, n'est-ce pas ? Imaginez une seule seconde qu'il n'y ait pas de protection !"

Parce que vous pensez vraiment que les spammeurs vérifient l'existence d'un éventuel disallow dans un fichier robots.txt avant de lancer leur offensive ?

Allons, si Wikio a pu fonctionner de cette manière pendant plus de deux ans, c'est que personne n'avait eu l'idée d'y faire un tour, c'est tout.

21 septembre, 2008 09:19  
Blogger Jean Véronis a écrit...

Bruno> Je crois que vous ne soupçonnez pas la perversité (et la patience) des spammeurs... Je vous confirme que Wikio est spécifiquement attaqué de façon spécifique par des gens qui semblent parfaitement renseignés. L'agrégation ne ramenant rien, ils attaquent d'autres points fragiles. par exemple, récemment, Wikio a dû faire des changements importants sur les soumissions d'articles, où il était possible de mettre des liens. C'était un véritable pot de miel offert aux spammeurs...

21 septembre, 2008 09:29  
Blogger Jean Véronis a écrit...

Otto> Je suis heureux que ce blog vous ai offert l'occasion d'exprimer votre point de vue. Et je suis heureux que cet Anonyme exprime le sien. Il n' a pas de censure ici, et la multiplication des points de vues est toujours une richesse. Votre point de vue est éminemment respectable. Il est certain que dans l'écosystème complexe du Web, il y a parfois compétition pour certaines sources de nourriture, comme dans la nature... Le problème se pose très différemment, comme cela a été souligné par Christophe Berge un peu plus haut entre les "champions SEO" (comme il dit) c'est-à-dire des webentrepreneurs qui essaient d'en vivre (c'est légitime) et les blogueurs lambda (l'immense majorité). Nous ne sommes naïfs ni vous ni moi, n'est-ce pas ? Ceux qui crient le plus fort ne sont pas les blogueurs lambda, et ces "champions" appliquent souvent des méthodes SEO très limite (faisant parfois ce qu'ils reprochent à Wikio). Je pourrais monter quelques copies d'écrans édifiantes (je ne le ferai pas : je n'ai aucun goût pour les polémiques). Comme dans les écosystèmes, la meilleure situation est celle où on trouve un équilibre qui satisfait tout le monde dans la paiix...

Juste une petite question : pourquoi "gueuler" ? Je ne sais pas si Wikio ne vous écoutait pas auparavant (il me semble que si avec l'affaire du 302), mais en tout cas, maintenant que je suis devenu leur "conseil", envoyez-moi juste un petit mot à jean@veronis.fr, si vous voyez des choses qu'il faut leur faire remonter ou dont il faut discuter. Pas besoin de s'énerver (j'espère !)...

Et de toutes manières ces colonnes vous sont largement ouvertes si vous souhaitez vous faire entendre ! Bienvenue donc. Essayons d'être constructifs.

21 septembre, 2008 09:45  
Anonymous Anonyme a écrit...

Je comprends l'indignation de certains. La castration de liens par robots.txt est bien moins franche qu'un "nofollow" qui est une pratique 'codifiée', un signal clair, dirais-je, envoyé aux spammers. Cette dernière aurait évité que l'on prête des intentions 'coupables' à Wikio et son équipe. Aujourd'hui, priver un article d'un lien suivi par les robots, c'est un peu nier la rémunération du blogger en Page-Rank et positionnement (droit voisin du droit du blogger ?) et peut-être aussi son droit à la paternité (a rapprocher du filtre duplicate content).
La question essentielle est au fond assez 'groucho marx' :
1/- Comment répartit-on la valeur ajoutée du service proposé par Wikio - ce qui suppose au préalable de faire une analyse de la chaine de valeur de ce service... -.
2/- Existe-t-il un contrat de licence tacite ou éthique entre Wikio et les bloggers ?

21 septembre, 2008 10:10  
Blogger Bruno Bichet a écrit...

> "C'était un véritable pot de miel offert aux spammeurs..."

Admettons que ma naïveté me joue des tours et que Wikio essaie juste de se protéger des spammeurs avec les moyens techniques qui sont a sa disposition.

Mais au final, on se retrouve avec un site (Wikio) qui fonctionne comme un entonnoir à trafic en faisant ressortir le moins de lien possible vers l'extérieur.

Je trouve que Wikio a tendance à jeter le bébé avec l'eau du bain assez facilement.

C'est une question de curseur entre l'intégrité des pages Wikio et le juste retour vers les sources de contenus. Je pense que Wikio devrait accepter un peu plus de spam (pourquoi ne pas mettre un système de modération comme Scoopeo) si ça peut permettre de rendre au milliers de blogs indexés un peu de Google Juice.

J'ai lu les propos de Christophe Berge concernant les 40% de trafic en provenance de Wikio... Grand bien lui fasse, mais je doute que ça soit une généralité. Pour info, je suis dans le top 100 high tech depuis plusieurs mois et le nombre de visites en provenance de Wikio est de l'ordre de 1 ou 2 par jour en moyenne, ce qui est très faible si on considère que Wikio a tendance à passer devant mon blog sur des requête concernant certains de mes billets.

Ceci dit Wikio n'est pas le seul à se placer dans la roue des blogueurs : les résultats sur le mots-clés idtabs, par exemple, sont assez édifiants :

- en premier l'auteur du script, normal ;

- en deuxième, mon article de présentation du script, pourquoi pas ;) ;

- en troisième, la reprise du tweet automatique annonçant mon billet sur tweeter répercuté sur ziki.com... Là c'est beaucoup plus étonnant ;

- et le reste se compose en grande partie d'agrégateurs RSS comme xoofoo, blogasty, au détriment d'autres billets de blogueurs.

A noter que dans le cas de ziki et blogasty, c'est moi qui est fait la démarche d'inclure les flux RSS en question dans mon profil.

Bref, je me rends compte que la dispersion de mes flux RSS génère du trafic chez les autres :/

21 septembre, 2008 10:14  
Anonymous Otto a écrit...

"Pourquoi gueuler ?"

Parce qu'à l'époque Wikio indexait une dizaine de mes sites sans soumission de ma part.

Parce que Wikio claquait une redirection 302 (le disalow n'était pas présent à l'époque) vers le contenu original.

Parce que chaque mois j'étais obligé de re demander la desindexation de mes sites dans Wikio qui étaient indexés automatiquement ... USANT !!!

Voila pourquoi à l'époque j'ai "gueulé"

21 septembre, 2008 10:17  
Blogger Jean Véronis a écrit...

Anonyme> Vous dites bien "certains" ;-) Le commentaire de Christophe Berge à ce sujet un peu plus haut est plein de bon sens. Je m'amuse en voyant d'ailleurs que ceux qui râlent le plus fort font parfois des choses pas très nettes aussi. Ne soyons pas ingénus : le SEO est une affaire d'argent, et on nage en pleine hypocrisie.

Sur le fond, je suis d'accord avec vous sur robots.txt, et c'est ce que j'ai dit à Wikio. J'ai été écouté.

Vos questions sont effectivement pertinentes. Il faudra parvenir à leur donner des réponses (le problème ne se pose d'ailleurs pas de façon identique pour toutes les catégories de blogueurs, comme je dis dans ma réponse à Otto). C'est peut-être la discussion collective que nous entreprenons qui y parviendra, car les choses ne sont pas simples, et nous explorons tout de même un territoire assez neuf...

21 septembre, 2008 10:21  
Blogger Bruno Bichet a écrit...

@anonyme > " Aujourd'hui, priver un article d'un lien suivi par les robots, c'est un peu nier la rémunération du blogger [...] et peut-être aussi son droit à la paternité"

C'est tout à fait mon sentiment. J'irais même jusqu'à dire que la reprise des flux sans autorisation revient à faire du photocopillage.

C'est pourquoi, contrairement à ce que dit Jean Véronis, nous n'explorons pas vraiment un territoire neuf... mais des choses balisées par des textes depuis au moins 1957 !

21 septembre, 2008 10:34  
Blogger Jean Véronis a écrit...

Otto> J'espère que c'est du passé. Si mon arrivée peut permettre de fluidifier les rapports et permettre une écoute et un dialogue, j'en serai ravi ! Je suis sûr qu'il y a place pour tout le monde.

21 septembre, 2008 10:48  
Blogger Jean Véronis a écrit...

Bruno> Que fait Google ? Comment construire un moteur sans reprise aucune de contenus ?

21 septembre, 2008 10:50  
Blogger Jean Véronis a écrit...

Bruno> Que fait Google ? Comment construire un moteur sans reprise aucune de contenus ?

21 septembre, 2008 10:50  
Anonymous Otto a écrit...

tu as mon numéro ...

il y a une façon trés simple de fluidifier tout ça.

21 septembre, 2008 10:52  
Blogger Jean Véronis a écrit...

Otto> Oui, je viens de recevoir ton mail. J'ai quelques obligations familiales en ce dimanche, mais, promis, nous allons discuter.

21 septembre, 2008 10:54  
Blogger Bruno Bichet a écrit...

@Jean Véronis > "Que fait Google ? Comment construire un moteur sans reprise aucune de contenus"

Je viens de comprendre où est le problème... Wikio n'est pas un moteur de recherche : Google ne passe pas devant les articles qu'il indexe...

Que ça vous plaise ou non Wikio est un éditeur de contenus dont il n'a pas la propriété, ce qui ne l'exonère pas, par ailleurs, d'une responsabilité "éditoriale" sur ce qui apparait dans ses rubriques. Mais c'est un autre débat.

21 septembre, 2008 10:58  
Anonymous Olivier SC a écrit...

Je trouve cet article justement par Wikio (mentionné dans mes statistiques).
Ce sujet rejoint celui des liens nofollow sur les blogs du Monde (sauf vers les autres blogs du quotidien ...), raison pour laquelle Bloguer ou ne pas bloguer est parti et changé d'adresse.
Merci de donner une autre lumière sur ce sujet.

21 septembre, 2008 17:30  
Blogger Jean Véronis a écrit...

Bruno> Google ne passe pas devant les articles qu'il indexe : vrai, car il est au sommet de la chaîne écologique...

Ce qui pose une question grave : peut-on créer des outils utiles (voir nécessaires, car à mon avis la blogosphère en manque), sans passer par Google, sans en être totalement dépendant ? Si la réponse est non, la conclusion est effrayante. Cela veut dire que Google devient la caulerpa taxifolia du Web... Plus rien d'autre ne peut se développer sans lui.

Je crois que la question de la propriété des contenus n'était pas au centre des protestations récentes. Elle est importante, je vous l'accorde, mais ce que j'observe ce sont surtout des réactions de "champions SEO" pour reprendre l'expression de Christophe plus haut, dont Wikio grignote (peut-être) une partie du fromage. Concurrence dans le deuxième niveau de l'écosystème... C'est normal. Mon sentiment est qu'il y a place pour tout le monde. Je vais essayer d'y travailler, avec mes modestes moyens.

21 septembre, 2008 19:09  
Blogger Jean Véronis a écrit...

Olivier SC> Je crois qu'il y a un sérieux problème de spam derrière cette histoire sur les blogs du Monde. Supposez un instant que le Monde autorise n'importe qui à créer des blogs avec des liens follow... Immédiatement la plateforme serait envahie par des centaines de blogs bidons dont le seul but serait de pointer vers des sites de viagra et autres cochonneries pour faire monter leur Page Rank dans Google. Sans parler des réseaux de blogs fachos et autres. Ca pose un véritable problème... La solution adoptée par le Monde est déplaisante, mais le problème n'est pas simple.

21 septembre, 2008 19:34  
Anonymous Marie-Aude a écrit...

@Bruno

en l'occurrence, et en tout cas en ce qui me concerne, Wikio présente uniquement le contenu de la balise description, c'est à dire le chapeau publicitaire de mon article, celui que je rédige pour les moteurs.
Je ne vois donc pas dans ce cas concret, de pillage...

Mais surtout, et c'est le sens du billet que j'ai fait sur mon blog, je crois qu'il ne faut pas se tromper d'objectif : le positionnement, à part nous faire très plaisir, n'est qu'un accessoire au trafic. Un site comme Wikio, qui renvoie immédiatement vers le blog, ne me semble pas un détourneur de trafic.

21 septembre, 2008 19:50  
Blogger Bruno Bichet a écrit...

@Marie Aude > en l'occurence il s'agit moins de trafic que de Google Juice, c'est à dire de la prise en compte des liens sortants de Wikio vers les éditeurs de contenus.

Sauf qu'à terme, une fois tout le jus aspiré par Wikio, il passera devant ton/mon/nos blogs en présentant ton/mon/nos articles.

Et je me mets à la place du visiteur qui pense trouver un article sur les CSS par exemple, et qui tombe sur le résumé de Wikio dans un environnement graphique un peu impersonnel...

Je suis sûr que le visiteur va vite cliquer sur le bouton retour pour trouver un autre résultat, à moins qu'il ne reste sur Wikio pour flâner.

Bref, il y peu de chance pour que le visiteur se rende sur ton billet. En tout cas ce scénario va dans le sens des visites que je reçois de Wikio qui se chiffrent à moins d'une dizaine par mois si j'exclus les visites en provenance du classement des blogs.

Ceci dit, je pense qu'il manque des acteurs francophones dans le web, mais pour l'instant, j'ai du mal à cerner l'apport de Wikio qui se positionne un peu comme Google News, mais pas aussi efficace ; un peu comme Technorati, mais pas aussi complet ; un peu comme un moteur de recherche de blogs, mais pas vraiment non plus ; un peu comme un agrégateur de flux ; un peu comme une page personnelle...

Bref, Jean Véronis a du pain sur la planche ;)

21 septembre, 2008 20:08  
Blogger Jean Véronis a écrit...

Bruno> une fois tout le jus aspiré par Wikio : on en est extrêmement loin ! Je doute d'ailleurs que la chose soit possible.

j'ai du mal à cerner l'apport de Wikio : oui, ça c'est un vrai problème. C'est peut-être la première chose que je leur ai dite. J'en vois (mais parce que je suis technicien) le potentiel au niveau technologie, mais je vous l'accorde, l'apport immédiat n'est pas clair pour l'instant pour le blogueur de base.

Donc : oui, il y a du pain sur la planche !

21 septembre, 2008 21:00  
Blogger Jean Véronis a écrit...

Otto> C'est un détail, mais bon...

Wikio claquait une redirection 302 (le disalow n'était pas présent à l'époque) -- si, il était présent depuis le début. Wikio a juste mis un 301 à la place du 302 en mars.

C'eût été vicieux, je vous l'accorde.

21 septembre, 2008 21:07  
Anonymous Marie-Aude a écrit...

@Bruno

on est bien d'accord :), la crainte est sur le "jus". Or je ne pense pas qu'il faille espérer du jus d'un agrégateur comme Wikio ou autre. En réfléchissant un peu à la valeur transmise par chaque lien, sur une base de plus de 50.000 blogs, avec en moyenne 5 articles par feed, ça fait pas bezef... même avec le joli PR7 de sa home (et puis ce n'est plus le PR qui fait le positionnement).

Par ailleurs, si un blog n'est pas indexé à cause du nofollow de Wikio, ce blog a de sérieux problèmes.

La seule question qui reste, c'est effectivement de savoir si Wikio va détourner des internautes qui seraient allés sur le blog en le trouvant avant Wikio dans les SERP, et qui seraient rebutés par l'interface de Wikio.

Là, personne n'a de chiffres fiables. Mais l'interface de Wikio n'est pas plus rebutante que celle d'autres agrégateurs, et beaucoup moins trompeuse que celle de beaucoup d'annuaires.

Wikio va t il aspirer tout le jus ? Il n'arrive même pas premier sur "Wikio Véronis" (ni aixtal d'ailleurs...) il y a encore des progrès importants à faire :)

22 septembre, 2008 07:55  
Blogger Jean Véronis a écrit...

Marie-Aude> Voilà un commentaire plein de bon sens. C'est bien pour cela que je dis à tout le monde (Wikio compris) de garder son sang froid. Qu'il y ait des liens en dur, avec disallow ou pas, tout cela n'a que peu d'impact à l'arrivée... Et Wikio n'est pas présent en premier sur beaucoup de requêtes : il ne faut pas rêver (j'ai fait des tests). L'ombre qu'il fait aux autres est donc très relative...

22 septembre, 2008 08:47  
Anonymous Audiofeeline a écrit...

>> pour éviter d’attirer les spammeurs de la terre entière, qui ne seraient que trop heureux que Wikio leur transmette du Page Rank.

Je vais faire comme si je n'avais rien lu... 0_o

22 septembre, 2008 13:16  
Blogger Jean Véronis a écrit...

Audiofeeline> J'aurai dû écrire "qu'ils aient l'impression que Wikio peut leur transmettre du Page Rank"...

J'ai vu ton commentaire sur wri :

Wikio veut se placer 1er sur l'agrégation de blog, je n'ai rien contre. Ce qui me dérange plus c'est le "non-respect" des codes de la blogosphère, par exemple lorsque l'on parle d'un sujet que l'on a vu sur un autre blog on se doit de citer l'auteur original en lui faisant un lien. C'est ce qui a fait la force des blogs, aujourd'hui Wikio est en contradiction avec la communauté.

Je partage ton point de vue. La page est tournée me semble-t-il. Essayons d'écrire ensemble la suivante ;-)

22 septembre, 2008 14:15  
Anonymous Emmanuel a écrit...

Jean, je discute avec Wikio depuis longtemps, via le GESTE, des questions de liens et de no-follow qui empoisonnent les relations avec les éditeurs. Nous essayons de trouver un équilibre dans l'échange avec Wikio et je suis heureux de suivre de loin la démarche entreprise avec les Wikio Labs.

Je suis toutefois plutôt étonné qu'on "découvre" le problème avec Chauffeur de Buzz (désolé je prends connaissance à peine aujourd'hui de cette polémique) alors que tout ceci est parfaitement identifié depuis plus d'un an.
Je pense que tu sous-estime quelque peu les enjeux stratégique autour de la question du référencement (malgré ta remarquable expertise sur le sujet c'est peut être paradoxal) et la stratégie très très ambigue des agrégateurs sur ce domaine. La chance c'est que Wikio accepte d'en discuter avec les éditeurs et pour cette raison ils ont toute mon estime.
Ce qui ne signifie pas que les problèmes soient réglés. Pour que ce soit bien clair je pense très clairement que le modèle des agrégateurs vident très précisément à se référencer devant les éditeurs vis à vis de Google. La seule question est de savoir si l'échange est équilibré. C'est l'objet de toutes nos discussions et j'espère que nous aurons l'occasion de te voir lors de ces travaux. J'invite l'équipe de Wikio à te communiquer très précisément les échanges que nous avons eu jusqu'à présent sur le sujet. Tu verras que nous n'avons pas attendu Chauffeur de buzz pour documenter ce problème et qu'il n'y a plus beaucoup de place pour la naïveté non plus.

25 septembre, 2008 00:26  
Blogger Jean Véronis a écrit...

Bonjour Emmanuel, Je ne sais pas si je sous-estime ces problèmes. En tout cas, je leur porte la plus grande attention. Je ne suis que consultant, pas décideur chez Wikio, mais tu vois que le conseil que j'ai immédiatement donné en "découvrant" ces problèmes va exactement dans le sens (je crois) de ce que souhaite le GESTE. Les enjeux sont très importants, effectivement, mais je crois qu'ils ne se posent pas de la même manière pour la presse (le GESTE donc), les petits blogueurs (comme moi) et les blogueurs "industriels" (sans rien de péjoratif). Ma démarche est d'écouter, d'essayer de comprendre, et de conseiller du mieux que je peux dans la recherche des fragiles équilibres.

25 septembre, 2008 08:33  
Anonymous Emmanuel a écrit...

Jusqu'à un certain point je défend totalement l'idée que les blogueurs et éditeurs ont les mêmes intérêts (d'ailleurs la moitié des blogueurs du top ne sont ni blogueur ni petit mais c'est une autre histoire).

L'intérêt commun ça veut dire : des liens directs vers les sources des articles. Pour tout le monde. Comme sur Digg.
Simple, net, équilibré et plus besoin de faire des romans :-)

25 septembre, 2008 11:29  
Anonymous Anonyme a écrit...

Il me semble assez symptomatique dans cette affaire où chacun réclame son dû - petit blogger et grands bloggers - que personne ne perçoit la valeur ajoutée de Wikio.

On lance ici et là de grands termes comme 'éditeur', 'droit d'auteur', 'agrégateur', 'création collective'... mais en fait personne ne perçoit réellement en quoi Wikio valorise la pseudo-information reçue des flux rss.

Je pose la question :
- Wikio est-il un éditeur ?
- Est-il un distributeur ?
- Est-il un promoteur ?
- Est-il un marchand ?
- Est-il un politique ?
- Est-il un industriel ?

Et je la pose sans attendre des réponses juridiques ou économiques mais plutôt des réponses qui relèvent 'fonctionnelles'.(relatives à l'usage bloggers/utilisateurs de Wikio).

Aussi longtemps que ces questions resteront en suspens, chacun tirera la couverture à soit.

Lorsqu'il s'agit de décrire ce service, ses objectifs, ses pratiques, on tombe rapidement soit dans un excès d'utopie (en terme d'usage/utilisation/potentiel) soit dans des extrapolations sur la façon dont Wikio aurait pu utiliser le jus (non reditribué) des bloggers à des fins marchandes, stratégie qui n'honore pas le projet initial et qui, amha, est un demi-aveu de son echec.

En fin de compte, on peut imaginer que si les SEO se réveillent, c'est aussi parce qu'ils craignent que Wikio échoue dans sa capacité à rendre captifs des utilisateurs et donc, soit contraint de marcher sur leurs platebandes et avec leurs méthodes.

Cela donne des sueurs froides à tous... et en 1er lieu aux investisseurs.

Essayez deux secondes d'expliquer avec réalisme comment Wikio imagine la rentabilité de son service.
Espérons que le projet n'a pas déja vendu son âme pour reproduire la logique SEO qui consacre Google.

Espérons aussi, qu'il ne s'est pas appuyé sur l'idée que l'information en provenance des blogs est une ressource gratuite.

Finalement, c'est quoi le projet Wikio ?
Comment la stratégie a-t-elle été présentée aux investisseurs ?
Quels sont les objectifs opérationnels et les objectifs stratégiques ?
Je me demande parfois si la question du classement des blogs chère à certains n'est pas un peu prématurée...

26 septembre, 2008 16:06  
Blogger Jérôme Charron a écrit...

Je rebondit sur le dernier commentaire de anonyme sur certains points qui me semblent être un préalable avant toute réflexion sérieuse dans le cadre de Wikio Labs :

1. Qu'est-ce que wikio ? (pas d'un point de vue juridique, mais quel est le positionnement de wikio)
Un moteur de recherche d'actualité?
Un portail d'actualité?
Un éditeur de contenu?
...

Quel est/sont les buts de wikio ?
Offrir un service pertinent?
Faire du traffic?
Fournir des outils d'analyse de l'actualité?
Fournir des outils d'analyse de la blogosphère?
...


Ces points sans réponse sont des freins (pour moi) à la réflexion sur le ranking de wikio, le classement des blogs, etc...

Pierre, Jean, auriez-vous des débuts de réponses ?

26 septembre, 2008 18:09  
Blogger Jean Véronis a écrit...

Pierre pourra compléter, et aura certainement une vue différente, car je suis conseil pour Wikio et pas entrepreneur ni investisseur. Comme j'ai déjà eu l'occasion de le dire, je ne suis pas porte-parole de Wikio (j'ai eu le sentiment d'être ces derniers temps plutôt porte-parole des blogueurs auprès de Wikio ;-)

Donc, je ne peux que dire ce que j'aimerais que Wikio soit. A dire vrai, le message d'Anonyme m'a interpellé parce que les premières fois où j'ai discuté avec Pierre de cet outil, je lui ai fait part justement ce type de questions, que je me posais. Ce n'était pas exactement clair pour moi, ce que Wikio pouvait être, et c'est peut-être là la source de beaucoup de confusion. J'ai dit et je redis que Wikio a un "look" d'agrégateur "cheap" qui le dessert, car la techno sous-jacente permet bien plus que ça (sinon, je n'aurais d'ailleurs rien à y faire !).

Pour moi Wikio pourrait être (sera !) un "organisateur d'actualité". Ni le terme de "moteur", ni celui de "portail" ne me conviennent. "Moteur" implique une logique "pull", à l'ancienne : je sais ce que je cherche, je tape mes mots-clés, j'ai mes réponses. "Portail" (façon Yahoo) implique une logique très passive, c'est du "push" minimal : les contenus s'y agrégent de façon assez plate et finalement statique.

Or, il y a tellement d'information qui nous environnent que nous avons besoin d'outils qui nous fassent remonter ce qui est pertinent pour nous. D'où mes recherches sur le BUZZ. Je crois que c'est la clé fondamentale de la lecture d'actualité moderne. L'informtion s'auto-organise selon différents critères avant d'arriver à moi de façon extrêmement synthétique (surtout sur mobile !). Ce n'est pas de la simple agrégation.

Voilà, c'est ça que je cherche à faire. Wikio est pour moi (si Pierre le veut bien) une magnifique plateforme d'expérimentation scientifique.

Je suis un chercheur. Mon seul intérêt est intellectuel. Donnez-moi une cabane et des livres et je suis heureux (surtout si la cabane a l'ADSL).

Pour le reste, investissement, business plans, etc. je laisse parler Pierre !

26 septembre, 2008 18:27  
Anonymous Anonyme a écrit...

Je ne suis pas partie prenante dans ces conflits d'intérêt, mais je crois que la question de la rentabilité est centrale pour de nombreux observateurs qui pourraient bien finir par accepter l'idée d'aider Wikio.

En imaginant que la ressource inévitable (pour donner le temps suffisant au projet de créer de nouvelles habitudes de consommation de l'info – ça c’est pour la partie rassurante du discours-) passe par un positionnement des produits sur Google, qu'est-ce que cela coûte d'énoncer clairement cet objectif intermédiaire (ou même terminal) ?

Je me souviens d'une intervention (il y a quelques années), sur un forum, d'un grand 'annuariste' (intervention dont nul ne soupçonnait les effets bénéfiques auprès de la communauté SEO), qui sans complexe, avait dévoilé que sa stratégie visait à se positionner dans les 1ers résultats de Google sur les mots clés des sites inscrits pour capter les revenus d'adsense en contrepartie du service de promotion rendu.

Et où est la révolution derrière cela ?
En quoi est-ce une révélation ?

En aucune façon, assurément…. et à l'époque, on ne comptait plus les témoignages indignés des webmasters qui constataient que leurs sites prenaient une place secondaire dans les SERP.

Il y avait une telle chappe de plomb dans la communauté SEO sur ces questions là, que le seul fait d'énoncer clairement sa stratégie avait été une libération pour tous...
Contre toute attente, son éditeur fut crédité d'un trés bon indice de confiance... comme si les webmasters lui avaient donné quitus de poursuivre son oeuvre avec la plus grande latitude qui soit.

27 septembre, 2008 10:36  

Enregistrer un commentaire

mercredi, septembre 17, 2008

Blogs: Idées en tous sens

Les idées fusent... Après les longs billets de Vicnent, Olivier Ertzcheid, les outils d'Olivier Ruffin et Thierry RogetChristophe Berge nous livre une analyse détaillée de ce qu'il aimerait voir évoluer sur Wikio. C'est en fait un véritable audit auquel il se livre ! Je vous le laisse découvrir (et commenter !) sur son site (ou ici, évidemment) :
Dans le contexte du travail du Wikio Labs, le cercle de réflexion sur le futur de Wikio (mais si, vous savez, Jean explique tout sur son blog), voici ma première listes de fonctionnalités que Wikio pourrait proposer :

Christophe n'a pas pu nous rejoindre hier soir, mais nous avons eu avec Pierre et quelques comparses (voir la liste chez Jérôme Charron alias Motrech) la première "Wikio Labouffe" au Joe Allen. Soirée incroyablement stimulante et enrichissante. De l'oxygène pur ! On va essayer de trier tout ça, et de vous en faire profiter, mais je plonge d'ores et déjà dans le cambouis pour travailler sur quelques-unes des pistes qui ont été lancées...



PS

  • Voici aussi le mot d'Emilie qui nous a rejoint pour cette "Labouffe".

Libellés : ,


6 Commentaires:

Anonymous jm a écrit...

Tout ça présage plein de bon :)

HS: Il y a une fonctionnalité que je n'ai vue évoquée nulle part, et que je ne crois pas avoir trouvé sur l'interface que propose wikio, c'est la recherche avec date.
En effet, il semble que tout soit disponible pour par exemple rechercher l'actualité sur Edvige avant le 1er septembre 2008. Ça pourrait être très pratique, notamment pour référencer une recherche wikio à la date où elle a été effectuée (un peu comme on pointe une version de l'historique d'une page wikipédia plutôt qu'un article complet quand on parle de son état à un moment donné).

17 septembre, 2008 11:21  
Blogger Jean Véronis a écrit...

Entièrement d'accord, JM ! Ca me paraît de la première importance pour un site d'actu que de pouvoir rechercher les actus d'une date précise. C'est dans la road map (ainsi que d'autres fonctions de recherche avancée : rechercher dans le titre, dans le nom de la source etc.)... Merci de la suggestion !

17 septembre, 2008 11:25  
Blogger Loran Bernardi a écrit...

Bonjour,

je n'utilise pour ma part wikio que que lorsque je veux connaitre sur un sujet précis et ponctuel l'état du buzz, l'air du temps...

C'est finalement exceptionnel.
Wikio n'est pas pratique au quotidien pour lire les news, et ce pour plusieurs raisons:
- Les informations ne sont pas cadrées (international, sport...). Je sais bien qu'il y a les système des couleurs, mais c'est moins pratique que sur google. Et je n'aime pas la navigation en nuage.

- Les sources sont de qualités très variables, cela fait perdre du temps.

- Même si la source est sérieuse, il est fréquent, que ne la connaissant pas, je perde du temps en essayant de remettre l'analyse dans le contexte de la ligne "éditoriale" du blog.

Du coup, au quotidien j'utilise netvibes qui me permet de regrouper mes flux bien calibrés, mes fichiers, mes notes... et même certains flux wikio sur certains sujets (mais que je ne lis quasiment jamais).


Je pense qu'une killer app wikio pourait être, en schématisant beaucoup, un système de curseur qui permettrait de positionner une info par rapport aux blogs de droite VS ceux de gauche par exemple (Un peu sur ce modèle décrit par Jérôme en ... 2005).
On peut imaginer le même jeu de curseur avec d'un coté les pure web player et de l'autre la presse traditionnelle. Cela pourrait donner sur certains sujets (au hasard le 11 septembre, feu le référendum sur le TCE...), des
mises en perspectives étranges.


Et aussi pourquoi pas un système inspiré par le tri des commentaires sur slashdot, appliqué chez Wikio non pas aux commentaires, mais aux sources.
Je peux décider de ne vouloir voir apparaitre que les articles fouillés (ou des sources réputées très sérieuses) ou au contraire tout voir. Et avec bien sur les distinction "insightfull", "funny" :o) ....

Je dois avouer, qu'une autre grosse valeur ajoutée pourrait être d'avoir une mise en contexte du blog. Un exemple, je cherchais à savoir l'autre jour qu'elles étaient les réactions suite à la deuxième sortie de Bigard. Wikio, m'a renvoyé un lien vers un blog titrant (de mémoire), "il faut boycotter bigard". Il s'agissait d'un blog néocon en Francais, cela m'aurait fait gagné du temps si wikio me l'avait dit avant.

J'aurais cliqué sur le lien, mais je n'aurais pas eu à me frapper le "à propos" et 5 articles pour appréhender le ton général.


My 2 cents,
Oui je sais yaka, faucon...

En tout cas bon courage, Amicalement,
Loran

18 septembre, 2008 10:44  
Blogger Mrique a écrit...

dsolé, un peu hors sujet, mais je me permets de vous suggérer lors de vos contacts avec les équipes de wikio de surveiller les liens présents dans leur classement top blog : à cette adresse et ce jour le lien 101 est http://www.bivouac-id.com/, d'un racisme tout à fait nauséabond.
Une petite visite sur google trends http://trends.google.com/websites?q=http://www.bivouac-id.com/&sa=N vous montre que ce site n'a pratiquement pas de traffic a part une pointe ponctuelle, et que les sites associés s'appellent "français de souche" ou "islamisation.fr"

bien sur ce sont des algo qui établissent les classements, mais la responsabilité d'éditeur est bien toujours celle ci : que des sites comme ceux ci existent dans leur coin, ça semble difficile à empêcher, par contre qu'on leur envoit des liens depuis des sites à fort traffic "grand public" comme wikio, c'est pour moi un problème
mrique

18 septembre, 2008 18:53  
Anonymous Anonyme a écrit...

Un problème de Wikio, c'est que dans certains secteurs le blog n'est plus utilisé, remplacé par MySpace ou Facebook.

C'est par exemple le cas des sites d'artistes, concentrés sur MySpace.

Un réseau très important de liens entre pages de jeunes artistes se tisse sur MySpace, et tout cela n'est pas présent sur Wikio.

Le secteur culturel, ce qui fait sa vitalité, la jeune production musicale et cinématographique, tout le bouillonnement créatif, est ainsi largement mal représenté sur Wikio.

Internet, ce n'est pas seulement les commentaires d'actualité, les blogs High Tech, les blogs sur les médias, et les blogs cuisine...

Peut-être que le plus intéressant c'est justement ce bouillonnement créatif qui passe par MySpace, avec des réseaux densifiés tous les jours, débouchant sur des créations, loin de l'éternel esprit négatif qu'on trouve sur tant de blogs.

17 octobre, 2008 03:05  
Blogger Jean Véronis a écrit...

Vous avez raison, le blog est en déclin. C'est ce que je répondais à Astrid Giradeau pour Ecran en décembre dernier :

Lorsque tout cela a commencé, il y avait une excitation due à la découverte d’un nouveau, fantastique média. Après plusieurs années, il me semble que le modèle s’essouffle : partout le même « look », les mêmes nuages de tags, les mêmes blogrolls, les mêmes gadgets - et surtout le même genre de contenu, les mêmes commentaires. C’est un peu à l’écriture ce que le fast food est à la restauration. Vite écrit, vite lu, vite commenté... et vite oublié. Le modèle du blog devra se transformer rapidement, ou disparaître (déjà les Facebook et autres alternatives guettent)

Personne ne voulait me croire. Mais je vois que de plus en plus de gens tiennent ce discours. Et le dernier rapport de Technorati sur l'état de la blogosphère confirme ce début de déclin.

17 octobre, 2008 08:40  

Enregistrer un commentaire

mardi, septembre 16, 2008

Blogs: Réflexion sur les outils de recherche

Après le long billet de Vicnent sur la façon de classer les choux blogs (on attend la suite !), voici qu'Olivier Ertzcheid nous livre un superbe compte rendu de l'article de Marti Hearst, Matthew Hurst et Susan Dumais "What should blog search look like ?" (pdf). 
Si cet article a attiré mon attention, c'est pour plusieurs raisons, et tout d'abord le "profil" de ses trois auteurs. L'article est en effet rédigé par Marti Hearst, professeur à Berkeley et spécialiste de la navigation et des interfaces "à facette", Susan Dumais (Microsoft), inventeur de l'indexation sémantique latente et spécialiste des interactions homme-machine, et Matthew Hurst (Microsoft), blogueur et inventeur du remarquable outil BlogPulse...

Lire la suite
N'hésitez pas à commenter, chez Olivier, ou ici bien sûr. La réflexion avance ! Effet Wikio Labs ?

Libellés : ,


2 Commentaires:

Anonymous Laurent R. a écrit...

Effet Wikio labs... Les chevilles, Jean !?

16 septembre, 2008 10:14  
Blogger Jean Véronis a écrit...

Vanité des vanités... Mais en ce qui concerne Olivier, un peu quand même ;-) Voir aussi Vicnent, et aujourdh'ui Christophe Berge.

16 septembre, 2008 16:33  

Enregistrer un commentaire

mardi, septembre 09, 2008

Blogs: Wikio enlève le haut

Je sais bien que depuis mon annonce des Wikio Labs, beaucoup d’entre vous aimeraient aller droit au but : qu’y a-t-il donc dans les recoins les plus intimes de ce satané classement Wikio qui déchaîne tant de passion chaque mois ? Mais comme dans tout strip-tease qui se respecte, il faut faire les choses dans l’ordre, faire un peu monter la pression (ou autre chose ;-) Donc, aujourd’hui on n’enlève que le haut...

Blague à part, j’ai besoin, avant d’expliquer les « gory details » du classement, de vous expliquer un certain nombre de petites choses sur le fonctionnement de Wikio, et, sinon d’y répondre, au moins de poser la question : « A quoi ça sert, un classement de blogs » ? J’en profite pour vous livrer tout de suite ma position personnelle sur la question : les vieux lecteurs de ce blog savent que je ne suis pas un accro des stats et de l’égomètre. Bien sûr, ça m’a amusé comme un gamin quand j’ai vu que ce blog, démarré sur un coin de table, dépassait le million de « visiteurs uniques », mais il faut garder la tête froide... Tout le monde peut avoir ses « 15 minutes of fame ». D'ailleurs, que le Monde me classe dans les « leaders d’opinion » à la Une, voilà qui m’a franchement fait rigoler ! Je crois que je n’ai pas assez d’ego pour m’exciter sur ce genre de choses (et quand la tête commence à me tourner, bien que je sois un incurable mécréant, je relis ce texte, qui est à mon sens un des plus beaux de notre héritage...). Le classement Wikio m’intéresse pour de tout autres raisons.

*

Tout d’abord, l’océan d’informations dans lequel nous vivons désormais est de plus en plus difficile à la navigation. Vous vous souvenez peut-être de l’âge d’or de l’annuaire Yahoo ! quand le Web est apparu. Quelques catégories bien organisées de façon arborescente, quelques clics et vous aviez l’univers virtuel entier sous la souris... Les choses ont bien changé. Le Web est devenu d’une taille et d’une complexité effarante, et ce serait bien difficile de s’y retrouver sans instruments adéquats. Pour ne parler que des blogs, il y en a quelques millions qui traînent, rien qu’en langue française, mélangés de surcroît à des agrégateurs, du spam, des piles, des listes de bookmarks et autres objets virtuels plus ou moins bien identifiés. Comment découvrir rapidement les blogs sur mes centres d’intérêt ? Littérature, cuisine, vins, équitation, que sais-je ? Dans un commentaire sur un précédent billet, Christelle nous expliquait par exemple que l’idée de classement l’intéresse comme outil de navigation et de décryptage du média internet avec ses élèves collégiens. Elle suggérait (c’est une excellente idée) de créer une catégorie « Education ». Voilà qui serait un bon point d’accès pour tous les profs qui cherchent des blogs sur le sujet !

Voilà donc la première utilité pour moi d’un classement de blogs. Evidemment, cela peut avoir des effets pervers. Ainsi, qu’une ministre nouvellement nommée se serve du top 10 du classement Wikio High-Tech pour choisir ses interlocuteurs sur l’évolution de la recherche en France ou la réforme des Universités, ou que sais-je encore, voilà qui est quand même un peu fort de café... Et, bien entendu, la tentation est grande pour les journalistes de se servir des « célébrités » du top 10 ou 20 à tout bout de champ pour alimenter leurs papiers. Nicolas (ex-Versac) nous a expliqué qu’il a fini par vivre ça comme un harcèlement. Je conçois que ce soit lourd à porter, comme toute exposition médiatique. Mais ce sont des épiphénomènes, à mon sens, d’ailleurs à part quelques blogueurs du « top » (non professionnels, évidemment, car les autres se réjouissent), personne n’a à souffrir trop de cette surexposition...

*

Deuxième aspect, qui m’intéresse encore plus, en tant que chercheur, le classement est la base du tri et de l’organisation des articles, de façon à présenter les nouvelles et billets les plus « pertinents » (notion bien difficile à cerner, nous y reviendrons !) à l’utilisateur. Le Web a sa potion magique : le « Page Rank » (même s’il a bien évolué dans la pratique depuis la belle formule initiale simple et propre comme du cristal). Le classement Wikio reprend globalement la même idée : mesurer l’ « influence » des sources grâce à leurs rétroliens (nous entrerons dans les détails dans les billets suivants, promis). C’est ce qui permet d’afficher les informations de façon lisible sur le site, en faisant apparaître en premier les informations les plus « pertinentes » dans les pages de résultats ou en choisissant des « têtes » représentatives dans le groupage des infos similaires. A part l’aspect com et le buzz médiatique mensuel, il a donc une utilité profonde : c’est lui qui vous permet d’avoir des résultats à peu près présentables sur les pages d’infos. Chaque blog a un « poids » qui résulte directement du classement, de façon très analogue au Page Rank de Google : 7 pour le top 100, 6 pour le top 1000 et ainsi de suite. On peut bien sûr discuter des paramètres, et de la façon de décider algorithmiquement de la pertinence (et c’est ce que nous ferons – en attendant je vous conseille la lecture du billet de Vicnent, qui nous fait un inventaire magistral des différents paramètres que l’on pourrait prendre en compte), mais qui voudrait voir 125 fois la même information sur une page (c’est ce qui se passe quand une nouvelle importante arrive), ou à l’inverse voir en tête des résultats papy et mamy qui s’extasient de la naissance du petit dernier ? Ce sont donc des choses à garder en tête quand nous discuterons des pistes d’amélioration !


A lire


(on attend la suite avec impatience, Vicnent !)

Libellés : ,


16 Commentaires:

Anonymous Christophe a écrit...

Au vu de tout ce qui se dit en analyse du classement Wikio et des autres classements de blogs, les blogueurs semblent avant tout souhaiter que la pertinence du classement puisse classer leur propre blog au dessus des autres. Les uns ne voient que par le nombre de visiteurs, d’autres par la « qualité » de leur retroliens ou simplement le nombre de ces retroliens. Forcément un classement pouvant faire de chaque blogueur un n°1 en fonction de ses propres critères serait un peu compliqué à mettre en place. Personnellement, un classement sur tous les blogueurs de ma rue, dans ma petite, ville m’irait bien. A vue de nez j’y serais n°1 et je serais fier de le dire à tout le monde. Certains annonceurs pourraient même être motivés pour y placer de la pub très localisée (ex : mon boucher ou mon boulanger).

09 septembre, 2008 13:00  
Blogger Jean Véronis a écrit...

Christophe> Oui, tu as sans doute raison ! Mais c'est humain, n'est-ce pas ? En anglais il y a un proverbe qui dit en gros "plus la mare est petite, plus la grenouille paraît grosse"... Ca s'applique, non ?

09 septembre, 2008 13:03  
Blogger Vicnent a écrit...

"on attend la suite avec impatience" : tu serais quand même pas en train d'essayer de me mettre la pression, là, sur ce coup là ? hein ? :-)

09 septembre, 2008 13:22  
Blogger Jean Véronis a écrit...

Vicnent> Mais non, mais non ;-) C'est sincère... Mais prends ton temps. Pour filer la métaphore du strip-tease, il vaut mieux ne pas arracher la petite culotte tout de suite !

09 septembre, 2008 13:27  
Anonymous Anonyme a écrit...

"de façon très analogue au Page Rank de Google"

pas vraiment, car Wikio ne prend pas en compte les liens en blogroll.

Sont donc favorisées les polémiques (on cite souvent un blog dans un article pour de mauvaises raisons: untel a dit une grosse connerie).

Une blogroll qualifie des sites qu'on recommande. Un lien fait dans un article peut être n'importe quoi, un avis négatif aussi bien.

Et puis il y a les liens mondains. Je ne pourrai jamais comprendre qu'un lien fait au nom de la présence de X dans un événement mondain puisse déterminer la pertinence d'un blog.

Faites le compte des blogs politiques en tête de Wikio qui sont composés des participants parisiens à la république des blogs, par exemple... Cela vous donnera une idée de la façon dont ce classement est biaisé par des choses sans rapport avec la pertinence du contenu.

10 septembre, 2008 17:58  
Blogger Jean Véronis a écrit...

Anonyme> Vous avez raison. J'y reviendrai quand on parlera des détails des algos (j'ai dit "analogue", pas identique ;-)

Wikio a fait le choix de ne pas prendre en compte les blogrolls (et de limiter les liens à 4 mois) justement pour refléter un aspect plus dynamique, des mouvements rapides d'opinion. Ca mesure quelque chose d'assez différent de Google. J'ai des graphiques mettant en XY le classement Wikio et le PR de Google, c'est assez instructif !

Evidemment ce choix peut-être discuté, la preuve ;-) Nous pourrons analyser tout ça plus en détail (et vous verrez que les blogrolls ne sont pas exemptes de phénomènes de "cliques", voire de spam...)

10 septembre, 2008 18:11  
Anonymous Anonyme a écrit...

Il y a un s de trop dans la citation.

10 septembre, 2008 22:08  
Anonymous Anonyme a écrit...

L'orthographe...quelle vanité !

10 septembre, 2008 22:09  
Blogger Jean Véronis a écrit...

C'est vrai, quelle vanitation !

(merci)

10 septembre, 2008 22:11  
Anonymous abadinte a écrit...

Il y a plusieurs choses sur lesquels il faut réfléchir.
Déjà la classification d'un blog :
- comment classer un blog "marketing" vs "pub", "développement durable" vs "environnement", "politique" vs "actualité" etc...
S'il y a un point sur lequel le classement Wikio était hilarant, c'est que certains blogs étaient classé politique alors qu'en fait ils n'en parlaient pas. Et que d'autres blogs classés divers parlaient surtout de politique.

Ensuite comment faire un classement logique?
Un classement doit se baser sur des faits scientifiques. Utiliser des outils 100% anglais pour se baser sur un classement? A rejeter, les blogueurs ne sont pas tous anglophones.
- Il faut travailler sur les liens entrants (très bonne idée) et aussi les liens sortant (car un bon blog c'est aussi un blog capable de renvoyer vers d'autres blogs).
- Il faut travailler sur l'ergonomie. Un blog illisible ne peut pas être classé dans les meilleurs blogs.
- Il faut travailler sur la vitesse d'affichage d'une page.
- Il faut travailler sur le contenu des articles. Parce que voler des articles de presse/communiqués de presse voire de voler les contenus d'autres blogs ne peut pas faire un blog.
- Il faut travailler sur l'orthographe, la grammaire. Le ration nombre de faute de français/nombre de mots doit entrer en considération.

Voilà quelques pistes. Et comme je l'ai dit à Pierre Chappaz, je suis ouvert pour entrer dans le pôle de réflexion. Si je ne suis pas linguiste, universitaire ou quoique ce soit, je suis un fourmillement d'idées !

11 septembre, 2008 12:07  
Anonymous Vincent² a écrit...

Je vais pousser un petit coup de gueule, je trouve que tout est trop policé sur ce blog !

Un des gros problèmes d'Internet est l'immatérialité des échanges. Ce problème, souvent oublié par les internautes, me gêne ici.

D'une, j'ai un peu perdu le fil de la conversation depuis 2/3 posts (n'étant pas connaisseur du tout). De deux, j'aimerais bien pouvoir échanger de tout ça en direct. Pourquoi ne pas essayer d'organiser une petite rencontre ? J'ai l'impression que la "communauté des fans de JV" n'est pas très grande, donc ce n'est pas complètement irréaliste.

Qu'en pensez-vous ? (Je sais bien que la France est grande, et que tout le monde a un emploi du temps chargé, mais on peut sûrement s'arranger).

12 septembre, 2008 14:47  
Blogger Jean Véronis a écrit...

Vincent²>Vous voulez dire "autour d'une bière" (par exemple) ? Ca devrait pouvoir se faire... Mais nous sommes probablement tous aux 4 coins de la planète (ou au moins de l'hexagone). Vous êtes où ? D'ailleurs depuis le temps que vous commentez (et je vous remercie), je réalise (cruelle immatérialité !) que nous ne nous connaissons pas vraiment. Qui êtes-vous en vrai ? avez-vous un blog, un site ?

12 septembre, 2008 14:52  
Anonymous Vincent² a écrit...

Je suis le vengeur masqué ! C'est vrai que c'est injuste pour vous, vous prenez des risques en vous exposant, et en retour, vous prenez des commentaires acerbes de crétins anonymes !

Je n'ai pas de blog ni de site, c'est beaucoup trop de travail pour moi. Je vis (oh, quelle surprise) en banlieue parisienne, je suis fonctionnaire dans un bureau, 23 ans, ni riche ni pauvre. Je suis tombé sur ce site je ne sais plus comment, il me semble pendant les présidentielles de 2007.

Il m'arrive d'aller à Aix parfois (mais je ne connais pas Rognes). Et je suis tout à fait d'accord pour vous rencontrer.

A bon entendeur...

12 septembre, 2008 15:26  
Anonymous l'hérétique a écrit...

Dites, il enlève quand le bas wikio ?
j'attends toujours la suite, moi...

29 septembre, 2008 15:21  
Blogger Jean Véronis a écrit...

cette semaine...
j'attendais les résultats du petit nettoyage d'automne afin d'y voir plus clair

29 septembre, 2008 15:35  
Anonymous Gavilan a écrit...

A tiens, je cherchais - pas activement du tout - une édition en ligne de la Bible. Merci du lien vers celle de Jérusalem. Et à part ça, être mécréant et aimer l'Ecclésiaste, ce n'est pas si étonnant, lisez donc Sagesse et blessures Réflexions sur l'Ecclésiaste et Tchouang-Tseu de Charles Juliet chez Bayard. ;-)

04 décembre, 2009 06:45  

Enregistrer un commentaire

lundi, septembre 08, 2008

Wikio: Classement des blogs en OPML

L'annonce des Wikio Labs a généré pas mal de réactions, toutes positives. J'en suis ravi ! Et je vois que des initiatives se mettent déjà spontanément en place... J'essaierai de les relayer sur ce blog, en attendant qu'on mette en place des outils collaboratifs plus sérieux (wiki ou autres).

Ce matin je découvre ce billet de Christophe Berge :


Tous les lecteurs de Technologies du langage ne sont pas des "geeks", donc je me permets de préciser qu'OPML (Outline Processor Markup Language) est un format XML permettant de regrouper et d'identifier les titres de section d'un document. Il peut être appliqué à différentes choses, et notamment à des listes d'URL et de flux RSS.

Voilà donc une contribution très utile de notre ami Christophe ! Comme il le rappelle, il y a quelque temps Olivier avait proposé un outil du même type sur Veille Perso :
Wikio a ce développement dans sa pile (très longue) des choses à faire, mais ils ont été plus rapides !

Bravo à tous deux et merci pour cette première contribution... Les premiers éléments d'une communauté d'utilisateurs qui partagent des données et des outils sont peut-être en train d'émerger !

Libellés :


2 Commentaires:

Anonymous Anonyme a écrit...

Merci pour toutes ses sources...mais comment fais tu pour arriver à suivre autant de flux?? Tu utilises Crossfeeds avec des mots-clés? (je n'ai pas encore testé Crossfeeds)
Djé

08 septembre, 2008 20:57  
Anonymous Anonyme a écrit...

Ah mince je croyais avoir laissé un commentaire sur VeillePerso...
Néanmoins ma question reste pertinente, car là j'ai du mal à voir comment quelqu'un peut suivre autant de flux sans avoir une autre technique de filtrage derrière!
Djé

08 septembre, 2008 21:01  

Enregistrer un commentaire

jeudi, septembre 04, 2008

Actu: Naissance de Wikio Labs

Scoop: Wikio se lance dans la recherche et crée Wikio Labs. Ayant critiqué souvent le fait que l'accès à l'information mondiale était dans les mains quasi exclusives de trois entreprises américaines (Google, Yahoo, Microsoft), je ne peux qu'applaudir des deux mains l'émergence d'une équipe française à la pointe dans le secteur de la recherche d'actualité. Bien entendu, les "Labs" de Wikio n'auront pas la taille des géants d'Outre-Atlantique, mais vous savez que les villages gaulois, même petits, arrivent parfois à tailler des croupières aux empires ;-)

Pour l'instant c'est encore une coquille vide, mais nous allons la remplir ensemble !


Scoop dans le scoop : Pierre Chappaz m'a demandé de devenir officiellement Conseiller scientifique de Wikio, et d'y piloter cet effort de recherche. Notre collaboration est déjà en route depuis plusieurs mois, comme vous l'avez remarqué si vous lisez régulièrement ce blog, avec mes recherches sur les arbres et les nuages, le buzz, et quelques petites choses dont je ne vous ai pas encore parlé, mais que je vous montrerai bientôt. Cet effort de recherche se fera en collaboration avec mon laboratoire universitaire, le Laboratoire d'Informatique Fondamentale de Marseille (je vois déjà poindre pas mal de sujets de master et de thèse !) ou avec d'autres labos comme le Laboratoire Informatique d'Avignon et l’Institut Eurecom (avec lesquels des projets sont déjà en cours), l'équipe RTGI (vous vous souvenez de l'Observatoire de la présidentielle, de la Blogopole, et du Tendançologue ?), et quelques jeunes chercheurs brillants.

J'ai accepté avec plaisir, car j'ai déjà dit tout le bien que je pense de la technologie sous-jacente à Wikio. Bien entendu, tout n'est pas parfait, je ne suis pas naïf (et c'est même pour ça que la recherche est utile, n'est-ce pas ?), mais si l'on regarde du côté des concurrents, côté actu (Google News par exemple), ou côté blogs (Technorati, Blogsearch), on s'aperçoit que Wikio n'a pas à rougir de honte. Après avoir analysé la machine en détail, je pense même très honnêtement que le petit village gaulois a une longueur d'avance sur l'Empire côté techno. Ça ne se voit pas toujours suffisamment, il y a chez Wikio un look "aggrégateur RSS" qui le dessert, mais justement, c'est ce qui va évoluer -- avec votre aide, et votre collaboration, si vous le voulez bien, car ce que j'ai proposé à Pierre Chappaz est de faire toute cela de façon ouverte, comme j'avais commencé à le faire très modestement sur ce blog, en montrant petit à petit des maquettes, des esquisses, des essais. Je sais qu'il y a ici des lecteurs à l'oeil de lynx et aux remarques acérées (mais toujours très utiles) : ils pourront s'en donner à coeur joie, et participer à la réflexion sur ce que peuvent être les outils de navigation modernes dans l'actu et dans les blogs. Essayons de faire avancer tout ça ensemble !

L'un des premiers chantiers sera peut-être une réflexion sur le fameux classement Wikio, qui a fait couler pas mal d'encre virtuelle ces derniers mois, et fait l'objet de pas mal de polémiques : il y a eu ceux qui se trouvaient trop bas et enrageaient de ne pas monter, ceux qui se trouvaient trop haut et ne supportaient plus la pression (si !), les adeptes de la théorie du complot ("Wikio magouille") et ainsi de suite... J'ai eu, l'air de rien, un été très studieux (ce qui ne m'a pas empêché de prendre l'air et de monter à cheval tous les matins : je suis en pleine forme, merci ;-) et j'ai plongé dans les arcanes de Wikio et visité ses boyaux les plus secrets. La première chose à faire, si vous voulez mon avis, c'est déjà expliquer comment ça marche, car il y a bien quelques explications sur le site Wikio, mais elles sont succintes (et pas toujours complètement comprises).

Tout sera sur la table, promis. C'est à cette condition que j'ai accepté le deal avec Pierre : je suis universitaire, j'aime la clarté et l'ouverture, et mon seul but est de faire avancer la réflexion et les outils (certains ont dit que j'étais même "utilomane", souvenez-vous). Dans les prochains jours, attendez-vous donc à une série de billets, qui expliqueront les mécanismes du classement (simples au demeurant !), exposeront honnêtement les points noirs et les difficultés (si vous croyez qu'il n'y en a pas et que le Web est un univers facile, je vous conseille d'autres lectures ;-) et qui essaieront de répondre à vos questions. Car je sens qu'elles vont fuser ! Mais c'est le but. J'aimerais que nous puissions réfléchir ensemble. J'ai apprécié depuis quatre ans votre contact, vos remarques toujours pertinentes, toujours constructives. J'espère qu'au-delà de ce groupe de lecteurs fidèles, des blogueurs qui ont déjà planché sur la question (je pense à Olivier Ertzcheid, Philippe Lagane, Jean-Marie Le Ray, Thierry Roget, Oliver Rufin , Jérôme Charron, Vincent Abry, Christophe Berge, Versac, Vicnent --pardon à tous ceux que j'oublie) nous feront profiter de leurs remarques et de leurs idées. Considérons Wikio Labs comme une plateforme d'expérimentation communautaire !

En tout cas, c'est comme ça que je vois les choses (et Pierre aussi). Merci à tous, une fois de plus !

Libellés :


46 Commentaires:

Anonymous Guilhem Fouetillou a écrit...

Enfin le coming out !

Nous sommes évidemment, nous aussi ravis, de travailler avec toi et tout l'équipe de Wikio.

Je trainerai attentivement dans les commentaires dans les semaines à venir si le débat doit se lancer sur les questions de ranking au sein des médias sociaux et j'affute mes arguments !

Longue vie à Wikio Labs !

04 septembre, 2008 18:06  
Blogger Jean Véronis a écrit...

Merci Guilhem ! Je sens que je vais avoir du mal à suivre la machine que j'ai lancée ;-)

En tout cas, j'espère que la réflexion que nous avons entamée avec RTGI va se poursuivre, et pourra se nourrir de tout ce qui va se dire ici. A bientôt.

04 septembre, 2008 18:09  
Blogger Jérôme Charron a écrit...

Une excellente nouvelle qui explique ce long silence du pays d'aixtal.

Super initiative, je vais suivre et certainement participer activement aux wikio labs.

(merci pour le lien ;-)

04 septembre, 2008 18:23  
Blogger Jean Véronis a écrit...

Eh eh ;-)

et je vois que Motrech est reparti aussi, bravo !

Je sens qu'on va avoir de la communication inter-blog à nouveau !

04 septembre, 2008 18:27  
Anonymous Vincent Abry a écrit...

excellente initiative
eh oui Jean tu viens de créer un monstre communautaire là, tu vas avoir du boulot :-)

04 septembre, 2008 19:33  
Anonymous philippe lagane a écrit...

Merci pour la citation Jean et heureux de rejoindre l'équipe de réflexion ( oui c'est tout nouveau :) ) sur un sujet que j'ai souvent abordé et absorbé les foudres de mécontents.

La tâche sera certes difficile mais très intéressante.

Mais ton expertise et ton expérience permettront, sans aucun doute, de déboucher sur du concret qui rendra à ce classement toute la valeur qu'il mérite.

A très bientôt

04 septembre, 2008 19:54  
Anonymous NV a écrit...

Je t'ai déjà dit combien je trouvais que c'était une bonne nouvelle. On a un capital génial, en France, sur l'analyse du sujet web social, et une réelle avance potentielle. Quand je vois les noms des labos et structures qui planchent autour des wikio labs, j'applaudis. Parmi les meilleurs au monde sur ces sujets, je n'en doute pas, avec une boite qui en veut. Clap clap.

Les grincheux vont râler, c'est normal. Des peurs vont se lancer aussi, légitimes. A wikio et wikio labs de montrer leur dévouement en termes de recherche, et de donner autant qu'ils recevront. Je ne doute pas trop que ce sera le cas.

Ceci-dit, si je devais mettre ma petite graine, et si j'étais chercheur, je travaillerais moins sur l'idée de classement (on s'en barre) que sur les logiques d'analyse, de traitement ou d'accès à l'information.

Long life, et tout à fait prêt à bosser, dans nos moyens et nos contraintes, sur des cas, avec vous.

long life. Great news.

Nicolas Vanb.

04 septembre, 2008 20:05  
Blogger TOMHTML a écrit...

Toutes mes félicitations Jean !
Un beau projet que voila, j'espère que vous garderez un peu de temps quand même pour vos étudiants ! ;-)

04 septembre, 2008 21:14  
Blogger Jean Véronis a écrit...

Vincent> Oui, il va y avoir du boulot... Mais c'est passionnant. J'espère que nous arriverons à garder l'esprit positif et convivial qui a toutjours été présent sur ce blog (car cette histoire de classement déclenche bien des passions !). Enfin, on verra bien ! Je compte sur vous.

04 septembre, 2008 21:24  
Blogger Jean Véronis a écrit...

Philippe> Oui, je t'ai cité justement arce que tu avais déjà toute une réflexion sur le sujet. Merci de monter à bord ! Je ne sais pas si on trouvera un classement qui fait plaisir à tout le monde, mais je suis sûr que ce sera l'occasion de réflexions passionnantes (et c'est le but, non ?).

04 septembre, 2008 21:26  
Anonymous Deeder a écrit...

Très bonne nouvelle : il y a beaucoup à faire dans cette direction et savoir que des personnes s'investissent dans ce domaine.

Je découvre par ailleurs ce blog grâce à l'annonce du Wikio Labs sur le Kelblog de Pierre Chappaz qui touche à un domaine qui m'intéresse beaucoup. Je ne suis qu'étudiant, mais j'ai quelques années d'expérience sur le Web en tant que créateur de contenu et développeur de contenant. Les questions de navigation, de taxinomie et de l'organisation du contenu m'importent beaucoup et j'ose espérer que cette réflexion à ciel ou plutôt à blog ouvert sera l'occasion pour moi de réfléchir plus avant sur le sujet.

Quoi qu'il en soit, bonne chance à vous et à très bientôt ici ou ailleurs.

04 septembre, 2008 21:30  
Anonymous Christophe Berge a écrit...

Une excellente initiative à laquelle je serai heureux de pouvoir apporter ma modeste contribution.

04 septembre, 2008 21:32  
Blogger Jean Véronis a écrit...

Nicolas (ex-versac, pour ceux qui se lèvent à peine ;-) > Merci de ton mot ! Tu as raison, les grincheux vont râler, comme d'hab, mais bon, mon expérience depuis quatre ans sur ce blog me montre qu'il y a plus de gens positifs que de gens négatifs, alors je suis confiant ! Je te rejoins sur la question des classements en général. Ce n'est pas ma tasse de thé personnelle, je crois que je n'ai pas assez d'égo... Tu l'as compris : ce qui m'intéresse ce sont les mécanismes, les algos qui sont derrière. Toute cette histoire de web social qui émerge sous nos yeux me fascine totalement. J'aimerais en comprendre quelques clés. Dans l'idée de classement, ce qui m'intéresse ce n'est pas tant qui est le meilleur, le plus "influent" -sur d'autre blogs on dirait "qui a la plus grosse" (influence, bien sûr)- mais plutôt une forme d'organisation de l'information qu'il permet, un peu comme le Page Rank de Google. Si toutes les sources sont à plat, sans pondération, le Web est illisible. Mais je m'en expliquerai mieux dans des billets futurs !

ps: Long life à Spintank aussi ;-)

04 septembre, 2008 21:34  
Blogger Jean Véronis a écrit...

Deeder> Eh bien, voilà une découverte réciproque. Je ne connaissait pas ton blog (LiberT). Très intéressant, je le mets dans mes fils. Magnifique de voir la passion qu'il y a chez les jeunes, les étudiants comme toi ! Et que les vieux ringards comme moi (qui ont appris l'informatique sur cartes perforées !) puissent encore dialoguer avec ceux qui sont nés avec une souris dans la bouche ! La vie est belle, non?

04 septembre, 2008 21:39  
Blogger Jean Véronis a écrit...

TomHtml> Merci de ton mot ! Oui, il reste du temps pour mes étudiants... Wikio est d'ailleurs une mine de sujets de réflexion et de travail pour eux. Plusieurs s'en sort déjà servis pour des projets, ou des stages. Je ne fais pas partie des universitaires qui craignent les entreprises (ou l'entreprise...), bien au contraire. Que serait mon enseignement si je ne suivais pas ce qui se fait dans la vraie vie grâce à mes collaborations... ?

04 septembre, 2008 21:44  
Blogger Jean Véronis a écrit...

Christophe> Merci de nous rejoindre. Tu fais sans doute partie de ceux qui ont la plus ancienne réflexion sur tous ces sujets : du temps de Xoolyx, n'est-ce pas ?

04 septembre, 2008 21:47  
Blogger Loran Bernardi a écrit...

Bonsoir,
c'est une excellente nouvelle!
A l'heure des monopoles triomphants, cette collaboration est une tres bonne idée.
Bonne chance.
amicalement,

04 septembre, 2008 22:26  
Anonymous Christophe Berge a écrit...

Du temps de Xoolyx en effet, sur lequel j’avais essayé quelques algorithmes d’extraction des tags, de groupement de billets par sujets et déjà à l’époque de classements des blogs indexés. Mais j’ai vite été débordé par un manque de puissance de calcul sur des temps d’analyses des contenus indexées dépassant les 12 heures sur une base de données de plusieurs millions de billets. Pas évident d’arriver à quelque chose de bien poussé lorsque l’on fait cela en « amateur ». Mais pour le coup nos contributions sur les méthodes de calcul de Wikio auront à coup cûr les bons débouchés. Connaissant bien une partie de l’équipe de Wikio je leur donne tout ma confiance pour arriver à quelque chose de formidable.

04 septembre, 2008 23:15  
Blogger Jean Véronis a écrit...

Loran> Merci de tes encouragements ! Effectivement, les monopoles m'étouffent. Quand je vois le buzz qui arrive à se créer sur un truc aussi creux que Chrome, ça m'épate. Si une startup sortait un navigateur aussi léger, elle ne récupèrerait pas trois liens... Mais en attendant l'araignée tisse sa toile, envahissant peu à peu tous nos espaces, engrangeant nos données personnelles, dans l'indifférence la plus générale. Ca fait peur... Vive la diversité, vive la concurrence. Vive les petits villages gaulois rebelles !

04 septembre, 2008 23:40  
Anonymous Olivier Ruffin a écrit...

Nous n'avons pas l'occasion de nous connaître, mais réfléchir et avancer sur un tel est clairement dans mes centres d'intérêts actuels.

Donc Jean je te confirme que je suis intéressé pour participer à cette aventure ;-)

05 septembre, 2008 00:50  
Blogger Dreamside a écrit...

Versac et Lagane, juste eux, ça me va.

La clarté, aussi, très important, car pour moi, le classement Wikio marche par l'ancienneté ou pour les experts du référencement.

La comparaison de Wikio à Google News m'a étonné. C'est plus un Digg-Like automatique avec un bon moteur de recherche.

05 septembre, 2008 04:30  
Blogger Jean Véronis a écrit...

Oliver> Nous nous connaissons par blogs interposés : tu fais partie de mes lectures ;-) En tout cas, bienvenue au club ! Et pardon pour cette "invitation" un peu cavalière : on a pas eu le temps d'imprimer des cartons ;-)

05 septembre, 2008 08:16  
Blogger Jean Véronis a écrit...

Dreamside> La clarté est nécessaire -- et à mon avis elle évitera bien des polémiques, qui sont pour beaucoup basées sur des malentendus, qui alimentent les théories du complot et autres fantasmes variés. Mais il y aura toujours des mécontents : tout le monde ne peut pas être dans le top 100...

05 septembre, 2008 08:19  
Blogger Jean Véronis a écrit...

Dreamside> J'ai oublié de répondre à la deuxième partie : pour moi Wikio est vraiment un portail/moteur de lecture de news, d'organisation de l'actu (d'où ma comparaison avec Google News). Par exemple son système d'onglets qui permet de suivre des catégories d'info ressemble beaucoup aux alertes Google (mais en bien plus élaboré). Il me semble que le coté Digg-like ("votes", etc.) est un peu anecdotique. D'ailleurs, l'influence des votes, des soumissions spontanées, est bien moindre que sur Digg. On en parlera un jour. Le coeur de la machine c'est vraiment la techno, les algos qui vont pêcher l'info et la regroupent en catégories "intelligentes" --avec des bugs parfois, ok, ok... mais c'est quand même très différent de Digg.

05 septembre, 2008 08:25  
Anonymous NEWSeR a écrit...

Félicitations Jean,
Je suis sûr que depuis le temps que vous "flirtez" en ensemble, votre collaboration ne peut-être qu'un succès.

05 septembre, 2008 09:13  
Anonymous Sylvain a écrit...

Les choses avancent et je vois qu'un cadre favorable se met en place pour que tu puisses travailler sereinement. Comme tu dis il y a tant de choses à faire pour exploiter le potentiel de Wikio et je serais toujours ravis d'échanger sur le sujet.

05 septembre, 2008 09:34  
Blogger Jean Véronis a écrit...

Sylvain > J'espère en effet que ce sera serein (cette histoire de classement a tendance à exciter quelque peu la blogosphère ;-)

Tes commentaires et ton expérience sur la traduction seront utiles : Wikio est une mine extraordinaire de news structurées en 5 langues, et pour l'instant il n'y a pas de passerelles entre les sites. Ne serait-il pas fantastique de développer des outils de navigation interlingues entre news des différents pays ? Du genre qu'est-ce qu'on dit de Nicolas Sarkozy en Allemagne, etc. ? Les perspectives font rêver...

05 septembre, 2008 09:44  
Blogger Jean Véronis a écrit...

Newser> j'espère, j'espère ! Ca dépendra beaucoup de vous tous !

05 septembre, 2008 09:44  
Blogger Remi a écrit...

bravo pour cette initiative bienvenue au moment où nos amis d'outre-atlantique marque le pas dans la réflexion et les développements à ce sujet...s'il reste de la place dans la dream team du Wikio Labs, l'équipe de The Metrics Factory (www.themetricsfactory.com) auteur et productrice du Vidéometre (www.videometre.org) veut bien apporter son grain de sable sur la vidéo et les réseaux sociaux...j'espère à bientôt...

05 septembre, 2008 11:52  
Anonymous Sylvain a écrit...

En effet les perspectives de tels outils laissent rêveur. Cela fait déjà pas mal de temps que Primoscrib y réfléchit et participer à l'effort de recherche de Wikio Labs serait très motivant.

05 septembre, 2008 12:02  
Blogger Vicnent a écrit...

pas grand chose à dire de plus en nième commentaire...

Tout d'abord, je me réjouis grandement de cette fusion entreprise/recherche !

S'il y a des algos, ça va me plaire, et je serais (je mets un 's'...) très heureux d'apporter ma contribution.

Un classement n'a de valeur, de toute façon, que s'il est expliqué voire explicité. Brut de fonderie, ce n'est qu'un excitateur d'Égo. Il sera bon de poser les bases : un classement de quoi d'abord ? de links ? de backlinks ? d'influence (hahaha), de lecteurs, de pertinence,... Bref, il y a du boulot : réflexions (sereines), discussions (animées) et modélisation... (De toute façon, en terme de Classement, il y a le théorème d'Arrow qui mettra tout le monde d'accord vite fait...)

Pour le reste, évidemment, j'attends tes prochains billets afin de voir quels sont les axes de recherches qui seront privilégiés.

Mais clairement, "organiser l'information", quelle belle Œuvre à venir...

Bravo Jean ! (Et merci Pierre d'avoir su te laisser séduire)

05 septembre, 2008 12:21  
Blogger glouglou a écrit...

Bonjour Jean
Je suis un fidèle depuis un an et demi environ. Je me réjouis moi aussi de cette collaboration avec wikio. Puis-je te demander ton avis sur un agrégateur qui a attiré mon attention, parce qu'il joue également le rôle d'outil d'annotation collaborative de documents: diigo ?
Cela a-t-il du sens de le comparer a wikio, et si oui, quel comparatif établirais-tu?
Merci
Philippe L.

06 septembre, 2008 12:54  
Anonymous Anonyme a écrit...

Intéressant.

Le principal problème du classement Wikio, reste de mesurer l'influence en partant des blogueurs pour juges (par les liens qu'ils font).

Cela favorise les blogs s'adressant particulièrement aux blogueurs, ceux qui font du méta-blogging, qui suivent les sorties de blogueurs, qui lancent des polémiques, etc.

Tout cela est déconnecté du public, du fond.

Ecrire pour les blogueurs, c'est tourner en rond dans un petit milieu.

Faire réagir des blogueurs, est-ce vraiment une mesure de l'influence crédible ? Le monde ne s'arrête pas aux blogueurs.

Les classements d'audience ont leur défaut, mais ils permettent de refléter la vie d'un blog au-delà de ce qu'en pensent les collègues blogueurs.

Est-ce qu'on classe les titres de presse selon le nombre de citations par d'autres journalistes dans d'autres titres de presse ? Non, tous les titres de presse sont classés selon l'audience.

06 septembre, 2008 23:51  
Anonymous Matt a écrit...

Pas grand chose à raconter à tous ces commentaires. Je trouve l'initiative très intéressante de lancer Wikio Labs, autant pour le classement que pour les autres sujets de recherche que Wikio peut apporter.

J'aurais été assez intéressé de participer à ce projet, mais en tant que simple étudiant n'ayant pas de très nombreuses années d'expérience dans le Web, je ne pense pas être vraiment utile :).

En tout cas, je vais suivre toute cette évolution de près... L'avenir du petit village gaulois m'intéresse =).

Bonne soirée à tous! Et encore bravo!

07 septembre, 2008 01:37  
Blogger Louis Volant a écrit...

Bonjour,

Passionné par le web, je le suis d'autant plus par le web français : je considère Wikio comme un des meilleurs Digg-likes à l'heure actuelle (justement parce qu'il ne fonctionne pas exactement comme Digg, Fuzz, Scoopéo ou les autres), opinions que j'ai exprimées plusieurs fois sur le blog de Pierre Chappaz.
C'est avec grand plaisir que j'ai lu dans son dernier billet que vous l'aviez convaincu "de mettre toutes les "cartes sur table" et d'inviter toutes les bonnes volontés à se joindre à l'effort de recherche qu'il va impulser."

Ainsi je souhaiterais vous demander s'il serait possible de me joindre a vous dans cette initiative motivante.

Cordialement,

Louis Volant, AbriCoCotier.fr

07 septembre, 2008 15:01  
Blogger Jean Véronis a écrit...

Vicnent> Excuses : j'ai pris du retard dans mes réponses... Mais ce billet a suscité un nombre impressionnant de commentaires ! Tu as raison, sans explication, un classement ne peut qu'être source de frustrations. Et tu as vu : tu plaidais pour l'ouverture, ton voeu a été exaucé ;-)

A bientôt ! Fais-nous profiter de ta science.

07 septembre, 2008 21:30  
Anonymous Farid a écrit...

Félicitation pour cette perspective. Google n'a qu'à bien se tenir.

Quoique ne nous chamboulez pas trop notre Wikio. (L'esprit agrégateur rss plait aussi ;-)

Salut, Guilhem !

07 septembre, 2008 22:51  
Anonymous Christelle Membrey a écrit...

Mes élèves collégiens et moi-même nous intéressons au décryptage du fonctionnement du média internet sur notre blog. La notion de classement nousintéresse. A ce titre, nous sommes restés plusieurs fois perplexes face au difficile référencement de nos écrits sur Wikio, aucune catégorie ne semblant convenir.
Une catégorie "éducative" pourrait-elle être créée ?
Vous l'avez compris, nous aimerions participer, même modestement à cette initiative.

08 septembre, 2008 08:14  
Blogger Jean Véronis a écrit...

Glouglou> J'ai un peu regardé diigo. C'est assez différent de Wikio. Il y a une orientation "communautaire" assez forte et, contrairement à Wikio (si j'ai bien compris, car je t'avou que je n'y ai pas passé énormément de temps), les sources de news sont les bookmarks posés par les utilisateurs. J'ai trouvé intéressante la fonction "highlight" qui permettrait à tout un chacun d'annoter les pages qu'il suggère: mieux que les commentaires! Petite déception (à nouveau, après un regard très superficiel) : il me semble en regardant le nombre d'annotations sur les différents articles, qu'il est presque toujours égal à 0... C'est peut-être là le point faible de la machine : excellente idée, mais un peu théorique. Dans la pratique les internautes n'ont peut-être pas le temps/ l'énergie pour annoter.

08 septembre, 2008 09:00  
Blogger Jean Véronis a écrit...

Anonyme> "Le principal problème du classement Wikio, reste de mesurer l'influence en partant des blogueurs pour juges (par les liens qu'ils font)." -- Je vois ce que vous voulez dire. Effet microcosme, en quelque sorte, ou plutôt microsphère... Certes, mais l'évaluation par les "pairs" a aussi son intérêt : c'est la mesure qui est utilisée couramment dans le monde scientifique par exemple (citation index). Malgré les critiques évidentes, elle doit donc quand même mesure quelque chose.

En fait, les différentes mesures possibles reflètent des choses différentes. L'audience (difficile à mesure comme vous l'avez remarqué), mesure autre chose. La reconnaissance par le grand public, par exemple.

J'y reviendrai dans les billets suivants, mais je vous donne le fond de ma pensée : il est illusoire de vouloir réduire la richesse d'un phénomène social quelconque en un seul indicateur linéaire. On a besoin d'indicateurs variés, qui chacun donne une éclairage sur les objets observés...

08 septembre, 2008 09:07  
Blogger Jean Véronis a écrit...

Matt> La porte est ouverte à tous, sans distinction de race, de religion ou de croyance... ni de niveau d'étude ! N'hésitez pas à laisser vos commentaires et à participer à la réflexion!

08 septembre, 2008 09:09  
Blogger Jean Véronis a écrit...

Louis Volant> Comme je viens de le dire ci-dessus, la porte et ouverte à tous ! La participation sera informelle : nous n'allons pas éditer des cartes de membres comme dans un club privé. Au contraire, l'idée que j'ai soumise à Pierre c'est celle de l'ouverture. Nous discuterons comme les Anciens sur l'agora, en mangeant quelques olives, et tous ceux qui voudront participer à la discussion seront les bienvenus !

08 septembre, 2008 09:14  
Blogger Jean Véronis a écrit...

Farid> je ne crois pas qu'on en soit déjà à menacer Google, mais on va essayer ;-)

08 septembre, 2008 11:11  
Blogger Jean Véronis a écrit...

Christelle> "Mes élèves collégiens et moi-même nous intéressons au décryptage du fonctionnement du média internet sur notre blog. La notion de classement nousintéresse. -- C'est intéressant ce que vous dite, car c'est en contraste avec une certaine mode qui tend un peu à dire "un classement, bof, pourquoi faire?". Je partage votre avis (je développerai plus dans des billets futurs) : classements et autres indicateurs sont des outils (bien imparfaits, d'accord) d'organisation de l'information.

Quand à créer une catégorie "éducation", pourquoi pas, bonne idée ! Cela implique d'identifier un nombre suffisant des blogs sur ce thème pour que la catégorie ait un sens (si vous avez déjà des listes ou des points d'entrée, je suis preneur !)

08 septembre, 2008 11:16  
Anonymous electropublication a écrit...

je trouve que cette création de Wikio labs est un évènement de taille pour la recherche sur le web français:
l'idée que je m'en fait est que les sociologues – qui ont besoin de données concrètes et à l'échelle du web - si vous en accueillez, vont avoir accès aux données de centaines de milliers d' internautes transitant quotidiennement sur Wikio, en temps réel. On ne sera plus à disposition d'éventuelles mesures user centric mais bien dans du site-centric. Ce qui est remarquable... Je souhaite participer à ce projet : je vous ai envoyé un mail (jean at veronis point fr) pour vous expliquer plus en détail mon idée, j'espère que vous pourrez me répondre.

Dans tous les cas je trouve cette idée de Wikio labs (me fait penser aux fascinants digg-labs) géniale. Bravo.

08 septembre, 2008 23:08  
Anonymous Christelle Membrey - Cicla71 - Education au Media Internet a écrit...

De nombreux enseignants sont répertoriés par défaut dans la rubrique Sciences (de l'information) ... voire nulle part voir par exemple dans notre cas, dans la rubrique High-Tech. Par ailleurs, il existe des plate-formes de blogs éducatives. Donc oui, établir une liste me semble plus que possible :-)
A bientôt.
Cordialement,
Christelle

11 septembre, 2008 09:03  

Enregistrer un commentaire