Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

vendredi, octobre 31, 2008

Blogs: Fuites et liens radioactifs

Voilà, le classement d'octobre est quasiment bouclé... J'ai continué à améliorer l'algo, de façon à prendre en compte vos remarques et commentaires. La modification principale concerne la prise en compte des liens vers la page d'accueil (la "home") des blogs, alors que Wikio prenait en compte jusqu'ici seulement les liens de billet à billet (je l'évoquais ici). Le résultat est vraiment intéressant. On voit sortir des profondeurs du classement tout un tas de blogs nouveaux qui valent la peine d'être découverts, et en particulier des "blogs de filles", qui entrent nombreuses dans le top 100 (je suis sûr qu'Olympe va être contente que le "plafond de verre" se craquelle et que la "machosphère" régresse un peu. Manifestement le nouvel algo fait émerger de nouvelles communautés qui ont tendance à lier les blogs (donc les personnes), plutôt que les infos (comme ont tendance à faire les geeks). C’est un peu l’aspect “réseau social”, je présume. Du coup la part des blogs high tech dans le top 100 diminue, et c'est aussi bien ! J'ai produit quelques stats, mais j'en ai laissé l'exclu à Mr. Xhark, qui avait eu la gentillesse de reprendre celles du mois dernier. Je vous invite à lire le détail chez lui.


Je vais vous proposer encore un peu de maths et de technique, pour vous expliquer une autre modif, beaucoup plus mineure, celle-là, mais puisque j'ai promis de tout vous dire, vous allez devoir maintenant me supporter ! Vous vous souvenez peut-être que quand j'ai pris le dossier en main, les liens étaient comptés avec un poids de 1 pendant 4 mois et puis tout d'un coup au bout de cette période ils n'étaient plus comptés du tout, c'est-à-dire prenaient un poids de 0. Il en résultait des "Wikio Dances" pas très souhaitables. Car s'il faut du mouvement, comme cela a été dit maintes fois en commentaires, il ne faut pas non plus que ça ressemble à du mouvement brownien (surtout dans les profondeurs du classement). Pressé par le temps, j'avais fait implémenter une rustine, qui consistait à donner aux liens un poids décroissant de façon linéaire sur 9 mois. Pas génial.

Une approche plus propre consiste à utiliser, là aussi, une décroissance exponentielle, une fonction décidément bien utile, qui peut servir à modéliser toutes les situations où une quantité décroît d'un taux proportionnel à sa valeur. On peut imaginer bien des façons pour les liens de perdre de leur force dans le temps, mais la façon qui me séduit le plus est celle-là. C'est aussi celle des éléments radioactifs (à propos de fuites...) Vous avez sans doute entendu parler de période radioactive ou de demi-vie. C'est le temps qu'il faut pour pour que la moitié des atomes d'un isotope radioactif se désintègre naturellement. Et plus elle longue, plus c'est embêtant dans le cas des déchets... Pour le krypton (allô, Superman ?) c'est 11 ans, pour le thorium plusieurs milliards d'années (mieux vaut ne pas en avoir trop dans sa cave !).

Pour les liens j'ai choisi deux mois. On pourrait bien sûr discuter de ce choix, et on pourra l'ajuster. Le premier mois, un lien vaut 1, le mois suivant 0,707 (à peu près : c'est la racine carée de 1/2...), le troisième mois (qui correspond à la demi-vie) 0,5 et ainsi de suite. Attention, contrairement à ce qu'on croît souvent la radioactivité ne disparaît pas au bout de deux fois la demi-vie ! Au bout de 22 ans vous aurez toujours du krypton, mais la moitié de la moitié. Et ainsi de suite... La courbe est la suivante :


Au bout de quatre mois, il reste 0,25, et après c'est vrai qu'il ne reste plus grand chose, mais un petit peu tout de même et ça suffit pour faire la différence pour des blogs qui sont quasi orphelins dans les profondeurs du classement. N'oublions pas que ce sont les valeurs relatives qui comptent, et donc celui qui a un vieux lien qui vaut 0,04 passe devant celui qui a un lien encore plus vieux qui vaut 0,03. Mais en aucun cas ils ne sont en compétition avec des blogs qui ont des liens "frais". C'est voulu, comme ça tout le monde a sa chance et le classement nous permet de faire des découvertes. Sinon ce serait ennuyeux comme la pluie (radioactive ?).

Le classement sera publié lundi. Il y a plein de bonnes surprises... Évidemment ce blog monte comme une flèche (entrée dans le top 10). Ça ne me plaît qu'à moitié parce que les mauvaises langues vont sûrement dire que je règle les paramètres pour me faire monter, ce qui n'est pas le cas. Mais bon. La caravane passe. Vous n'aviez qu'à pas me lier comme des malades. Mon billet sur la naissance de Wikio Labs a été le plus lié de septembre, toutes catégories confondues, et j'ai l'impression que celui sur les "entrailles du classement Wikio" a atteint des sommets en octobre aussi... La preuve que ça vous intéresse, quand même, vous ne feriez pas ça juste pour me faire plaisir ?

Sur ce, mon cheval m'attend. Un peu de détente me fera du bien !

Libellés : ,


40 Commentaires:

Anonymous Anonyme a écrit...

« et en particulier des "blogs de filles" »

Un peu de douceur dans un monde de brutes ;-)

31 octobre, 2008 16:51  
Blogger Jean Véronis a écrit...

Oui, je trouve ça bien, personnellement. J'ai toujours pensé que la femme était l'avenir de l'homme... ;-)

31 octobre, 2008 16:54  
Anonymous Anonyme a écrit...

une bonne nouvelle pour les nanas :)

31 octobre, 2008 17:13  
Blogger Jean Véronis a écrit...

et "marc vasseur" se porte très très bien... Belle surprise dans l'air ;-)

31 octobre, 2008 17:16  
Blogger t0pol a écrit...

Et moi j'espère perdre quelques places, ce serait mérité. Je n'ai rien foutu ce mois-ci.

31 octobre, 2008 17:32  
Blogger Jean Véronis a écrit...

Raté, ils continuent à te citer ;-)

31 octobre, 2008 17:39  
Anonymous Anonyme a écrit...

Mais "justement", dans ces petits Divers en-dessous de la 300ème fois, combien de liens vers des blogs au féminin dans leurs blogroll et/ou mentionnés dans des billets ? Le nom d'un blog n'avoue pas forcément son "sexe" ; mais ! ...
Et : oui, je prends ma Revue comme "exemle" ;)

31 octobre, 2008 18:42  
Blogger Jean Véronis a écrit...

Ah oui, joli, Olivier : tu passes de 306 à 158 ! Après avoir gagné 94 places déjà le moi dernier. Comme à force de lier les autres, ils finissent par vous lier. Bravo !

31 octobre, 2008 21:10  
Anonymous Anonyme a écrit...

bon bin c'est très très bon tout ça, surtout que je profite bien de l'algo, j'ai fait une belle rentré dans le classement le mois dernier, on attends avec impatience le classement de lundi ;)

PS : t'es de Aix ? ça fait plaisir, j'ai moins l'impression d'être le seul blogueur dans cette vile ^^

31 octobre, 2008 22:21  
Blogger Jean Véronis a écrit...

Ah oui de 935 à 539 : ça grimpe sec !

Dans la campagne pas loin d'Aix ;-)

31 octobre, 2008 22:25  
Anonymous Anonyme a écrit...

Lol tu m'as spoilé mon classement, mais bon il est bon alors je t'en veut pas :p

31 octobre, 2008 22:33  
Anonymous Anonyme a écrit...

Je trouve que le fait que les blogs non mis à jour mais populaires descendent dans le classement est une bonne chose, car un blog par définition est chronologique. Sinon c'est un site, wiki, cms, tout ce que vous voulez...

Merci pour le link, je vais de ce pas éditer mon billet ajouter un link vers celui-ci.

31 octobre, 2008 23:03  
Anonymous Anonyme a écrit...

Merci pour le lien vers le blog d'Olympe que je ne connaissais pas, je vais y faire un tour.

01 novembre, 2008 08:48  
Anonymous Anonyme a écrit...

Il est effectivement très bien d’affiner le classement de mois en mois. Cela dit on va peut-être finir par s’y perdre un peu d’un mois sur l’autre. Une méthode de classement est dans sa définition quelque chose sujet à beaucoup d’interprétation, en fonction des choix fait par ceux qui la conçoivent et de la nature des éléments que l’on y classe. A mon sens, et là j’adresse un message plus général sur les évolutions possibles des fonctionnalités de Wikio, le classement des blogs n’intéresse probablement qu’une poignée de bloggeurs, disons les 100 premiers des classements général et thématiques (sans comptez qu’une partie de ceux là ne vont qu’une fois par mois sur Wikio, uniquement pour vérifier leur nouvelle position dans le classement). Pour moi, 90% de l’intérêt de Wikio est dans sa vitrine des billets la blogosphère et 9% dans ses fonctionnalités utiles pour la veille. Je mets gentiment 1% d’intérêt sur le classement des blogs mais c’est en fait bien moins que cela. Peut-être sera-t-il donc intéressant de commencer discuter ici des évolutions possibles sur les nombreuses autres fonctionnalités proposées par Wikio qui produisent moins de buzz (je reste dans l’idée que le classement des blogs de Wikio n’est qu’un outil marketing plus utile pour Wikio que pour ce qu’il y a à y apprendre sur la blogosphère et je m’incline devant cette grande réussite ;-) mais dont l’intérêt touche un bien plus grand nombre d’utilisateurs de Wikio.

01 novembre, 2008 11:18  
Blogger danielbroche a écrit...

il y a vraiment un souci avec les migrations de noms de domaine

les onglets dans mon compte wikio qui indexaient habituellement mes notes (parmi d'autres sujets) ne le font plus

wikio ne s'emmèle t'il pas les pinceaux dans les flux RSS pour les ratacher correctement dans les thématiques ?

01 novembre, 2008 13:23  
Blogger danielbroche a écrit...

D'ailleurs mes notes récentes n'apparaissent même plus dans la page wikio idoine...

http://www.wikio.fr/high-tech/internet/blogosphere/blogueurs/daniel_broche

et je ne suis pas le seul à rencontrer ce souci

01 novembre, 2008 13:31  
Blogger FrédéricLN a écrit...

Toutes ces informations sont intéressantes non seulement pour qui s'intéresse aux blogs (ou à wikio) mais aussi au plan épistémologique - si si si !

Une bonne série des problèmes de méthode en sciences sociales appliquées sont représentés dans cette suite de billets. La transparence de la recherche de l'auteur est d'autant plus louable. Même si ... elle impacte son propre classement wikio !

Plus concrètement : à partir du moment où la construction des indicateurs est transparente, cela incite (peu ou prou) à changer de comportement pour influencer les indicateurs. Ce qui conduirait en retour wikio à faire évoluer ceux-ci pour qu'ils rendent mieux compte de la réalité (modifiée). Donc à casser les séries chronologiques.

Pour le 2ème mois consécutif, les évolutions dans le classement wikio ne seront pas dues à des évolutions dans la réalité, mais à des changements de méthode de mesure. Normalement, un baromètre cherche à mesurer les évolutions de la réalité - non les évolutions du baromètre.

Réflexions générales (et banales certes) car ce chantier "classement wikio" me renvoie à une vieille expérience professionnelle comme directeur scientifique de Médiamétrie ("audimat") où nous rencontrions cette famille de problèmes...

01 novembre, 2008 14:09  
Anonymous Anonyme a écrit...

@Jean Veronis
ce nouveau classement va encore faire grincer des dents.

PS : à ceux qui viennent jouer les redresseurs d'égo... avant de jouer les psychanalystes de bazar... il faut d'abord connaitre le patient :)

01 novembre, 2008 15:12  
Anonymous Anonyme a écrit...

Et bien, des perturbations sont encore à prévoir ce mois-ci... Je sens que ma 33° place ne va pas faire long feu ;-)Plus de variété est une bonne chose, cela amènera probablement plus de découvertes (non, la blogosphère n'est pas uniquement high-tech !)Quand à ton entrée dans le top 10, oui cela fera sans doute grincer des dents. Mais bon, c'est un peu logique : un blog qui sort des exclus sur le classement Wikio est forcément repris par ceux qui s'y intéressent, c'est-à-dire ceux qui sont bien classés ^_^

Petit question, les liens vers les homes sont pris en compte, cela inclus les blogrolls ?

Bravo pour le travail accomplis en tout cas, rester à l'écoute des blogueurs est une excellente chose. En espérant qu'un jour le nombre de liens reçus par chacun soit précisé ;-)

01 novembre, 2008 16:59  
Anonymous Anonyme a écrit...

Demande au père Noël : euh, moi m'sieur, ce que je voudrais c'est qu'il y ait juste une rubrique éducation/formation car j'suis vraiment pas à l'aise dans la rubrique tech

01 novembre, 2008 18:30  
Anonymous Anonyme a écrit...

J'ai du mal à saisir comment vous (je n'ose pas tutoyer, ô grand manitou du wikio) pouvez connaitre la date de mise en ligne d'un lien. J'aimerai avoir des éclaircissements techniques là dessus.

Merci :)

02 novembre, 2008 00:02  
Blogger Jean Véronis a écrit...

iChristophe> Je n'ai pas beaucoup de goût personnel pour les podiums moi non plus, mais ce travail sur le classement était nécessaire : s'il y en a un, autant qu'il soit fait du mieux possible... Ce n'est pas tout à fait déconnecté du reste, car la mise au point d'un "Wikio Rank" à peu près fiable est pour moi la base de tout système de recherche et de lecture de blogs (comme Google avec son Page Rank). Donc c'est important pour la suite...

Nouvelles fonctionnalités : ok ! Je suis toutes ouïes -- sachant qu'ensuite il y a du développement derrière et que Wikio est une toute petite équipe : il faudra parfois être patients. Rome ne s'est pas faite en un jour...

Qui commence ?

PS : J'ai déjà un petit chantier en tête : une meilleure catégorisation automatique des blogs. Les documentalistes ne peuvent vérifier à la main que le top, et il y a pas mal d'erreurs de classification dans le reste. Et le fourre-tout "Divers" n'est pas très satisfaisant...

02 novembre, 2008 09:12  
Blogger Jean Véronis a écrit...

Daniel Broche> il y a vraiment un souci avec les migrations de noms de domaine -- Oui. Ce n'est pas toujours évident. Il y a des ratés (sans compter les cas où le blogueur met juste un mot sur sa page en disant ça continue ailleurs...). Les développeurs y travaillent...

wikio ne s'emmèle t'il pas les pinceaux dans les flux RSS pour les ratacher correctement dans les thématiques ? -- Si, parfois. Je n'ai pas encore ouvert ce dossier, mais il est certain que ce n'est pas optimal. Ca viendra : comme je disais à l'instant, Rome (ni même Google) ne s'est faite en un jour.

02 novembre, 2008 09:18  
Blogger Jean Véronis a écrit...

Daniel Broche> D'ailleurs mes notes récentes n'apparaissent même plus dans la page wikio idoine... http://www.wikio.fr/high-tech/internet/blogosphere/blogueurs/daniel_broche -- Il faut que je voie si c'est à cause des dysfonctionnements ci-dessus, ou si c'est une décision éditoriale. Je crois qu'à un certain moment Wikio a décidé de ne pas mettre le flux du blog dans les pages blogueurs, mais seulement les cas où ils sont cités. Par exemple, sur ma page wikio, mon propre flux n'apparaît pas. La raison en était, me semble-t-il que cela pourrait poser un problème diplomatique : certains blogueurs n'apprécieraient peut-être pas que leurs flux (ou du moins les résumés puisque c'est la seule chose que publie Wikio) soient lisible dans leur totalité ailleurs que chez eux.

Qu'en pensez-vous, d'ailleurs, amis blogueurs ? Il me semble qu'il y a du pour et du contre...

ps: Daniel : j'ai transmis tes pbs à l'équipe technique (il y a d'ailleurs une adresse pour ça pour tous ceux qui rencontrent des difficultés : info@wikio.fr).

02 novembre, 2008 09:26  
Blogger jb ingold a écrit...

@Jean Veronis
J'aurai aimé que vous répondiez aux commentaires de ichristophe et fredericin qui me semblent faire progresser le débat.

02 novembre, 2008 09:39  
Blogger Jean Véronis a écrit...

JB> J'ai commencé (ci-dessus pour iChristophe), nos commentaires se sont croisés. j'ai pris un peu de retard, désolé... Le commentaire de Frédéric est superbement intéressant, mais demande un peu de réflexion (et comme il est dimanche et que j'ai quelques petites obligations de famille, j'essaierai de répondre ce soir ;-).

02 novembre, 2008 09:47  
Blogger FrédéricLN a écrit...

"Le commentaire de Frédéric est superbement intéressant"

-> trop aimable, mais tout de même pas vrai !

C'est juste un souvenir du clivage entre "scientifique" au sens de "chercheur de connaissance" (qui remet en question les approches existantes pour trouver mieux) et scientifique au sens de "faiseur de connaissance" (qui gère un atelier, produit de l'information pour des utilisateurs selon des normes qualité). Clivage que j'avais vécu professionnellement il y a une douzaine d'années.

02 novembre, 2008 22:35  
Blogger jb ingold a écrit...

Merci Jean

Pour l'automatisation de la catégorisation des blogs hors top j'imagine que les moteurs semantiques peuvent aider.

Sur Drupal on a des plug-in genre open-calais ou simplement de tagging utilisant les services de yahoo.

02 novembre, 2008 22:43  
Blogger danielbroche a écrit...

Merci pour la réponse

J'avais en effet envoyé un message au support technique qui a été très réactif

Sur l'indexation, vu que Wikio est maintenant comptabilisé comme un aggrégateur chez Feedburner, je pense que ça ne pose aucun souci de réplication

En revanche toujours pour Feedburner, Henri de 2803 m'a signalé un ecueil: comment diableWikio peut il correctement indexer les liens dans les billets si on active le tracking feedburner qui réecrit les url et fait des redirections
Du coup j'ai désactiver l'oeil de Google et je suis bien content de remonter dans le classement meme si je n'ai pas de certitude que ce soit corellé...

03 novembre, 2008 14:51  
Blogger Vicnent a écrit...

je trouve pas terrible qu'un site du podium (en divers) ne soit pas tant un blog qu'une structure de blog ne lient que du porno et du commercial.

Au moins, sur le blog d'Agnès, on est sur un blog...

03 novembre, 2008 20:32  
Anonymous Anonyme a écrit...

oui, c'est une bonne nouvelle que les blogs de femmes se mèlent un peu à la blogo en France. Enfin des femmes ! Et avec des blogs très intéressants... Merci Jean...

04 novembre, 2008 11:10  
Blogger Jean Véronis a écrit...

FrédéricLN> Merci d'avoir noté qu'il y avait un intérêt épistémologique dans ce travail... C'est ce qui me motive. Nous sommes avec les blogs (et on pourrait étendre aux réseaux sociaux) face à un objet socio-technologique mal défini, mouvant, complexe et finalement peu étudié. Ces objets finissent par disparaître, ou se transformer, avant même qu'on ait eu le temps d'en faire un objet d'étude. Je suis vraiment reconnaissant à Pierre Chappaz de m'avoir laissé transformer Wikio en terrain d'expérimentation et d'analyse. C'est une chance rare pour un chercheur.

Evidemment, la question du thermomètre qui change la température se pose en plein ! Mais c'est finalement assez classique en sciences sociales : la présence de l'enquêteur sur le terrain change le comportement des gens qu'il observe. C'est aussi le cas des sondages... Je crois qu'il faut être modeste vis-à-vis de ces indicateurs : ils sont très imparfaits, et on peut essayer de les régler, mais on n'a pas le recul qu'on a dans d'autres domaines. Je pense à nouveau à celui des sondages, dans lequel il y a maintenant un demi-siècle d'expérience. Et encore n'y est on pas à l'abri d'approximations et de dysfonctionnements (voire de manips) : remember 2002 ! Sur les blogs il n'y a quasiment pas de recul. Lorsqu'il y en aura un peu, les blogs auront disparu, ou se seront transformé en autre chose...

Ce qui m'intéresse derrière tout ça, ce ne sont pas tant les indicateurs eux-mêmes (et encore moins le classement en tant que podium), que tout le travail d'analyse et de compréhension qu'ils suscitent...

04 novembre, 2008 17:52  
Blogger Jean Véronis a écrit...

Flav> les liens vers les homes sont pris en compte, cela inclus les blogrolls -- Non, seul les liens partant du corps du billet (flux RSS) sont pris en compte.

L'affichage de nombre de backlinks et même leur liste complète est dans les tuyaux. Mais il y a encore quelques problèmes de développement (performances, font-end, etc.) pour la mettre à disposition. Très bientôt j'espère...

04 novembre, 2008 17:54  
Blogger Jean Véronis a écrit...

Jadlat> Oui, il faut une rubrique éducation. Elle est souvent demandée, comme économie, informatique, etc. Ca viendra, peut-être pas pour Noël (c'est un travail lourd).

04 novembre, 2008 17:55  
Blogger Jean Véronis a écrit...

Ninfosman> comment vous (je n'ose pas tutoyer, ô grand manitou du wikio) pouvez connaitre la date de mise en ligne d'un lien -- On tutoie bien Dieu de nos jours... ;-)

C'est simple : c'est la date du publication du billet qui émet le lien, et elle est dans le flux RSS. Et si elle n'y est pas ou est incohérente, c'est la date de capture, ce qui, à quelques heures près revient au même.

04 novembre, 2008 18:00  
Anonymous Anonyme a écrit...

@Jean Véronis : oui, j'imagine que c'est du boulot ! Merci pour la réponse en tout cas. Allez une dernière petite question si çà ne te dérange pas ;-) Si les liens sont repris à partir du flux RSS, les liens provenant de blogs proposant des flux tronqués (partiels) ne sont donc pas pris en compte ?

05 novembre, 2008 14:52  
Anonymous Anonyme a écrit...

Proposition.

Votre approche est intéressante pour un lien "mort", j'entends par là un lien qui a été posé dans une page, et puisque la page perdure, le lien perdure aussi. Dans ce cas, ca semble naturel qu'au fur et à mesure du temps qui passe, le "poids" du lien diminue jusqu'à ne plus rien peser.

Reste le cas du lien qui réapparait. Supposons que tous les jours que Dieu fait (si Dieu existe), je parle de l'apotre Jean Veronis et que je replace un nouveau lien vers la home de "aixtal" (http://aixtal.blogspot.com/). Théoriquement, chaque jour, mon lien devrait retrouver sa virginité et la fougue de son premier jour.

Pourquoi ?

Parce que si un site comme Slashdot par de Jean Veronis aujourd'hui et dans un mois, l'impact de l'article "de dans un mois" sera masqué par la décrépitude de l'article d'aujourd'hui.

Proposition ?

Enrégistrer, en plus du lien, son contexte (des mots, une imbrication de div et de tags, que sais-je ?). Quand le ("UN"!) contexte change, la virginité est retrouvée.

-- G.A. aka Off Topic ailleurs.

05 novembre, 2008 19:20  
Blogger Jean Véronis a écrit...

Flav> Non, mais que faire ? Il y a eu quelques essais de capture par crawl, mais l'identification des bons morceaux de la page (prendre le corps du billet et ignorer les commentaires, les blogrolls et les reste) est très difficile. Ca ramène pour l'instant plus de bruit que de bon...

05 novembre, 2008 20:53  
Anonymous Anonyme a écrit...

Il serait intéressant de comparer le classement Wikio à la sélection des 176 meilleurs blogs mondiaux sélectionnés en finale pour le concours BOBs 2008 de la Deutsche Welle, le plus prestigieux des concours de blogs :

http://www.thebobs.com/index.php?l=fr&s=1154893154682279QQCXSYUE-NONE

On aurait ainsi en rapport entre les blogs les plus liés, et les blogs jugés les meilleurs qualitativement selon un jury international.

11 novembre, 2008 03:10  
Anonymous Anonyme a écrit...

"contrairement à ce qu'on croît..."
Mais si on ne croît pas, on risque de rétrécir ! Malgré ces temps incertains de croissance négative, je crois obstinément en l'avenir ;-)

Signé : la brigade circonflexe

14 novembre, 2008 19:49  

Enregistrer un commentaire