Blogs: Fuites et liens radioactifs
Voilà, le classement d'octobre est quasiment bouclé... J'ai continué à améliorer l'algo, de façon à prendre en compte vos remarques et commentaires. La modification principale concerne la prise en compte des liens vers la page d'accueil (la "home") des blogs, alors que Wikio prenait en compte jusqu'ici seulement les liens de billet à billet (je l'évoquais ici). Le résultat est vraiment intéressant. On voit sortir des profondeurs du classement tout un tas de blogs nouveaux qui valent la peine d'être découverts, et en particulier des "blogs de filles", qui entrent nombreuses dans le top 100 (je suis sûr qu'Olympe va être contente que le "plafond de verre" se craquelle et que la "machosphère" régresse un peu. Manifestement le nouvel algo fait émerger de nouvelles communautés qui ont tendance à lier les blogs (donc les personnes), plutôt que les infos (comme ont tendance à faire les geeks). C’est un peu l’aspect “réseau social”, je présume. Du coup la part des blogs high tech dans le top 100 diminue, et c'est aussi bien ! J'ai produit quelques stats, mais j'en ai laissé l'exclu à Mr. Xhark, qui avait eu la gentillesse de reprendre celles du mois dernier. Je vous invite à lire le détail chez lui.
Je vais vous proposer encore un peu de maths et de technique, pour vous expliquer une autre modif, beaucoup plus mineure, celle-là, mais puisque j'ai promis de tout vous dire, vous allez devoir maintenant me supporter ! Vous vous souvenez peut-être que quand j'ai pris le dossier en main, les liens étaient comptés avec un poids de 1 pendant 4 mois et puis tout d'un coup au bout de cette période ils n'étaient plus comptés du tout, c'est-à-dire prenaient un poids de 0. Il en résultait des "Wikio Dances" pas très souhaitables. Car s'il faut du mouvement, comme cela a été dit maintes fois en commentaires, il ne faut pas non plus que ça ressemble à du mouvement brownien (surtout dans les profondeurs du classement). Pressé par le temps, j'avais fait implémenter une rustine, qui consistait à donner aux liens un poids décroissant de façon linéaire sur 9 mois. Pas génial.
Une approche plus propre consiste à utiliser, là aussi, une décroissance exponentielle, une fonction décidément bien utile, qui peut servir à modéliser toutes les situations où une quantité décroît d'un taux proportionnel à sa valeur. On peut imaginer bien des façons pour les liens de perdre de leur force dans le temps, mais la façon qui me séduit le plus est celle-là. C'est aussi celle des éléments radioactifs (à propos de fuites...) Vous avez sans doute entendu parler de période radioactive ou de demi-vie. C'est le temps qu'il faut pour pour que la moitié des atomes d'un isotope radioactif se désintègre naturellement. Et plus elle longue, plus c'est embêtant dans le cas des déchets... Pour le krypton (allô, Superman ?) c'est 11 ans, pour le thorium plusieurs milliards d'années (mieux vaut ne pas en avoir trop dans sa cave !).
Pour les liens j'ai choisi deux mois. On pourrait bien sûr discuter de ce choix, et on pourra l'ajuster. Le premier mois, un lien vaut 1, le mois suivant 0,707 (à peu près : c'est la racine carée de 1/2...), le troisième mois (qui correspond à la demi-vie) 0,5 et ainsi de suite. Attention, contrairement à ce qu'on croît souvent la radioactivité ne disparaît pas au bout de deux fois la demi-vie ! Au bout de 22 ans vous aurez toujours du krypton, mais la moitié de la moitié. Et ainsi de suite... La courbe est la suivante :
Au bout de quatre mois, il reste 0,25, et après c'est vrai qu'il ne reste plus grand chose, mais un petit peu tout de même et ça suffit pour faire la différence pour des blogs qui sont quasi orphelins dans les profondeurs du classement. N'oublions pas que ce sont les valeurs relatives qui comptent, et donc celui qui a un vieux lien qui vaut 0,04 passe devant celui qui a un lien encore plus vieux qui vaut 0,03. Mais en aucun cas ils ne sont en compétition avec des blogs qui ont des liens "frais". C'est voulu, comme ça tout le monde a sa chance et le classement nous permet de faire des découvertes. Sinon ce serait ennuyeux comme la pluie (radioactive ?).
Le classement sera publié lundi. Il y a plein de bonnes surprises... Évidemment ce blog monte comme une flèche (entrée dans le top 10). Ça ne me plaît qu'à moitié parce que les mauvaises langues vont sûrement dire que je règle les paramètres pour me faire monter, ce qui n'est pas le cas. Mais bon. La caravane passe. Vous n'aviez qu'à pas me lier comme des malades. Mon billet sur la naissance de Wikio Labs a été le plus lié de septembre, toutes catégories confondues, et j'ai l'impression que celui sur les "entrailles du classement Wikio" a atteint des sommets en octobre aussi... La preuve que ça vous intéresse, quand même, vous ne feriez pas ça juste pour me faire plaisir ?
Sur ce, mon cheval m'attend. Un peu de détente me fera du bien !
Je vais vous proposer encore un peu de maths et de technique, pour vous expliquer une autre modif, beaucoup plus mineure, celle-là, mais puisque j'ai promis de tout vous dire, vous allez devoir maintenant me supporter ! Vous vous souvenez peut-être que quand j'ai pris le dossier en main, les liens étaient comptés avec un poids de 1 pendant 4 mois et puis tout d'un coup au bout de cette période ils n'étaient plus comptés du tout, c'est-à-dire prenaient un poids de 0. Il en résultait des "Wikio Dances" pas très souhaitables. Car s'il faut du mouvement, comme cela a été dit maintes fois en commentaires, il ne faut pas non plus que ça ressemble à du mouvement brownien (surtout dans les profondeurs du classement). Pressé par le temps, j'avais fait implémenter une rustine, qui consistait à donner aux liens un poids décroissant de façon linéaire sur 9 mois. Pas génial.
Une approche plus propre consiste à utiliser, là aussi, une décroissance exponentielle, une fonction décidément bien utile, qui peut servir à modéliser toutes les situations où une quantité décroît d'un taux proportionnel à sa valeur. On peut imaginer bien des façons pour les liens de perdre de leur force dans le temps, mais la façon qui me séduit le plus est celle-là. C'est aussi celle des éléments radioactifs (à propos de fuites...) Vous avez sans doute entendu parler de période radioactive ou de demi-vie. C'est le temps qu'il faut pour pour que la moitié des atomes d'un isotope radioactif se désintègre naturellement. Et plus elle longue, plus c'est embêtant dans le cas des déchets... Pour le krypton (allô, Superman ?) c'est 11 ans, pour le thorium plusieurs milliards d'années (mieux vaut ne pas en avoir trop dans sa cave !).
Pour les liens j'ai choisi deux mois. On pourrait bien sûr discuter de ce choix, et on pourra l'ajuster. Le premier mois, un lien vaut 1, le mois suivant 0,707 (à peu près : c'est la racine carée de 1/2...), le troisième mois (qui correspond à la demi-vie) 0,5 et ainsi de suite. Attention, contrairement à ce qu'on croît souvent la radioactivité ne disparaît pas au bout de deux fois la demi-vie ! Au bout de 22 ans vous aurez toujours du krypton, mais la moitié de la moitié. Et ainsi de suite... La courbe est la suivante :
Au bout de quatre mois, il reste 0,25, et après c'est vrai qu'il ne reste plus grand chose, mais un petit peu tout de même et ça suffit pour faire la différence pour des blogs qui sont quasi orphelins dans les profondeurs du classement. N'oublions pas que ce sont les valeurs relatives qui comptent, et donc celui qui a un vieux lien qui vaut 0,04 passe devant celui qui a un lien encore plus vieux qui vaut 0,03. Mais en aucun cas ils ne sont en compétition avec des blogs qui ont des liens "frais". C'est voulu, comme ça tout le monde a sa chance et le classement nous permet de faire des découvertes. Sinon ce serait ennuyeux comme la pluie (radioactive ?).
Le classement sera publié lundi. Il y a plein de bonnes surprises... Évidemment ce blog monte comme une flèche (entrée dans le top 10). Ça ne me plaît qu'à moitié parce que les mauvaises langues vont sûrement dire que je règle les paramètres pour me faire monter, ce qui n'est pas le cas. Mais bon. La caravane passe. Vous n'aviez qu'à pas me lier comme des malades. Mon billet sur la naissance de Wikio Labs a été le plus lié de septembre, toutes catégories confondues, et j'ai l'impression que celui sur les "entrailles du classement Wikio" a atteint des sommets en octobre aussi... La preuve que ça vous intéresse, quand même, vous ne feriez pas ça juste pour me faire plaisir ?
Sur ce, mon cheval m'attend. Un peu de détente me fera du bien !
Libellés : Blogs, Wikio labs
40 Commentaires:
« et en particulier des "blogs de filles" »
Un peu de douceur dans un monde de brutes ;-)
Oui, je trouve ça bien, personnellement. J'ai toujours pensé que la femme était l'avenir de l'homme... ;-)
une bonne nouvelle pour les nanas :)
et "marc vasseur" se porte très très bien... Belle surprise dans l'air ;-)
Et moi j'espère perdre quelques places, ce serait mérité. Je n'ai rien foutu ce mois-ci.
Raté, ils continuent à te citer ;-)
Mais "justement", dans ces petits Divers en-dessous de la 300ème fois, combien de liens vers des blogs au féminin dans leurs blogroll et/ou mentionnés dans des billets ? Le nom d'un blog n'avoue pas forcément son "sexe" ; mais ! ...
Et : oui, je prends ma Revue comme "exemle" ;)
Ah oui, joli, Olivier : tu passes de 306 à 158 ! Après avoir gagné 94 places déjà le moi dernier. Comme à force de lier les autres, ils finissent par vous lier. Bravo !
bon bin c'est très très bon tout ça, surtout que je profite bien de l'algo, j'ai fait une belle rentré dans le classement le mois dernier, on attends avec impatience le classement de lundi ;)
PS : t'es de Aix ? ça fait plaisir, j'ai moins l'impression d'être le seul blogueur dans cette vile ^^
Ah oui de 935 à 539 : ça grimpe sec !
Dans la campagne pas loin d'Aix ;-)
Lol tu m'as spoilé mon classement, mais bon il est bon alors je t'en veut pas :p
Je trouve que le fait que les blogs non mis à jour mais populaires descendent dans le classement est une bonne chose, car un blog par définition est chronologique. Sinon c'est un site, wiki, cms, tout ce que vous voulez...
Merci pour le link, je vais de ce pas éditer mon billet ajouter un link vers celui-ci.
Merci pour le lien vers le blog d'Olympe que je ne connaissais pas, je vais y faire un tour.
Il est effectivement très bien d’affiner le classement de mois en mois. Cela dit on va peut-être finir par s’y perdre un peu d’un mois sur l’autre. Une méthode de classement est dans sa définition quelque chose sujet à beaucoup d’interprétation, en fonction des choix fait par ceux qui la conçoivent et de la nature des éléments que l’on y classe. A mon sens, et là j’adresse un message plus général sur les évolutions possibles des fonctionnalités de Wikio, le classement des blogs n’intéresse probablement qu’une poignée de bloggeurs, disons les 100 premiers des classements général et thématiques (sans comptez qu’une partie de ceux là ne vont qu’une fois par mois sur Wikio, uniquement pour vérifier leur nouvelle position dans le classement). Pour moi, 90% de l’intérêt de Wikio est dans sa vitrine des billets la blogosphère et 9% dans ses fonctionnalités utiles pour la veille. Je mets gentiment 1% d’intérêt sur le classement des blogs mais c’est en fait bien moins que cela. Peut-être sera-t-il donc intéressant de commencer discuter ici des évolutions possibles sur les nombreuses autres fonctionnalités proposées par Wikio qui produisent moins de buzz (je reste dans l’idée que le classement des blogs de Wikio n’est qu’un outil marketing plus utile pour Wikio que pour ce qu’il y a à y apprendre sur la blogosphère et je m’incline devant cette grande réussite ;-) mais dont l’intérêt touche un bien plus grand nombre d’utilisateurs de Wikio.
il y a vraiment un souci avec les migrations de noms de domaine
les onglets dans mon compte wikio qui indexaient habituellement mes notes (parmi d'autres sujets) ne le font plus
wikio ne s'emmèle t'il pas les pinceaux dans les flux RSS pour les ratacher correctement dans les thématiques ?
D'ailleurs mes notes récentes n'apparaissent même plus dans la page wikio idoine...
http://www.wikio.fr/high-tech/internet/blogosphere/blogueurs/daniel_broche
et je ne suis pas le seul à rencontrer ce souci
Toutes ces informations sont intéressantes non seulement pour qui s'intéresse aux blogs (ou à wikio) mais aussi au plan épistémologique - si si si !
Une bonne série des problèmes de méthode en sciences sociales appliquées sont représentés dans cette suite de billets. La transparence de la recherche de l'auteur est d'autant plus louable. Même si ... elle impacte son propre classement wikio !
Plus concrètement : à partir du moment où la construction des indicateurs est transparente, cela incite (peu ou prou) à changer de comportement pour influencer les indicateurs. Ce qui conduirait en retour wikio à faire évoluer ceux-ci pour qu'ils rendent mieux compte de la réalité (modifiée). Donc à casser les séries chronologiques.
Pour le 2ème mois consécutif, les évolutions dans le classement wikio ne seront pas dues à des évolutions dans la réalité, mais à des changements de méthode de mesure. Normalement, un baromètre cherche à mesurer les évolutions de la réalité - non les évolutions du baromètre.
Réflexions générales (et banales certes) car ce chantier "classement wikio" me renvoie à une vieille expérience professionnelle comme directeur scientifique de Médiamétrie ("audimat") où nous rencontrions cette famille de problèmes...
@Jean Veronis
ce nouveau classement va encore faire grincer des dents.
PS : à ceux qui viennent jouer les redresseurs d'égo... avant de jouer les psychanalystes de bazar... il faut d'abord connaitre le patient :)
Et bien, des perturbations sont encore à prévoir ce mois-ci... Je sens que ma 33° place ne va pas faire long feu ;-)Plus de variété est une bonne chose, cela amènera probablement plus de découvertes (non, la blogosphère n'est pas uniquement high-tech !)Quand à ton entrée dans le top 10, oui cela fera sans doute grincer des dents. Mais bon, c'est un peu logique : un blog qui sort des exclus sur le classement Wikio est forcément repris par ceux qui s'y intéressent, c'est-à-dire ceux qui sont bien classés ^_^
Petit question, les liens vers les homes sont pris en compte, cela inclus les blogrolls ?
Bravo pour le travail accomplis en tout cas, rester à l'écoute des blogueurs est une excellente chose. En espérant qu'un jour le nombre de liens reçus par chacun soit précisé ;-)
Demande au père Noël : euh, moi m'sieur, ce que je voudrais c'est qu'il y ait juste une rubrique éducation/formation car j'suis vraiment pas à l'aise dans la rubrique tech
J'ai du mal à saisir comment vous (je n'ose pas tutoyer, ô grand manitou du wikio) pouvez connaitre la date de mise en ligne d'un lien. J'aimerai avoir des éclaircissements techniques là dessus.
Merci :)
iChristophe> Je n'ai pas beaucoup de goût personnel pour les podiums moi non plus, mais ce travail sur le classement était nécessaire : s'il y en a un, autant qu'il soit fait du mieux possible... Ce n'est pas tout à fait déconnecté du reste, car la mise au point d'un "Wikio Rank" à peu près fiable est pour moi la base de tout système de recherche et de lecture de blogs (comme Google avec son Page Rank). Donc c'est important pour la suite...
Nouvelles fonctionnalités : ok ! Je suis toutes ouïes -- sachant qu'ensuite il y a du développement derrière et que Wikio est une toute petite équipe : il faudra parfois être patients. Rome ne s'est pas faite en un jour...
Qui commence ?
PS : J'ai déjà un petit chantier en tête : une meilleure catégorisation automatique des blogs. Les documentalistes ne peuvent vérifier à la main que le top, et il y a pas mal d'erreurs de classification dans le reste. Et le fourre-tout "Divers" n'est pas très satisfaisant...
Daniel Broche> il y a vraiment un souci avec les migrations de noms de domaine -- Oui. Ce n'est pas toujours évident. Il y a des ratés (sans compter les cas où le blogueur met juste un mot sur sa page en disant ça continue ailleurs...). Les développeurs y travaillent...
wikio ne s'emmèle t'il pas les pinceaux dans les flux RSS pour les ratacher correctement dans les thématiques ? -- Si, parfois. Je n'ai pas encore ouvert ce dossier, mais il est certain que ce n'est pas optimal. Ca viendra : comme je disais à l'instant, Rome (ni même Google) ne s'est faite en un jour.
Daniel Broche> D'ailleurs mes notes récentes n'apparaissent même plus dans la page wikio idoine... http://www.wikio.fr/high-tech/internet/blogosphere/blogueurs/daniel_broche -- Il faut que je voie si c'est à cause des dysfonctionnements ci-dessus, ou si c'est une décision éditoriale. Je crois qu'à un certain moment Wikio a décidé de ne pas mettre le flux du blog dans les pages blogueurs, mais seulement les cas où ils sont cités. Par exemple, sur ma page wikio, mon propre flux n'apparaît pas. La raison en était, me semble-t-il que cela pourrait poser un problème diplomatique : certains blogueurs n'apprécieraient peut-être pas que leurs flux (ou du moins les résumés puisque c'est la seule chose que publie Wikio) soient lisible dans leur totalité ailleurs que chez eux.
Qu'en pensez-vous, d'ailleurs, amis blogueurs ? Il me semble qu'il y a du pour et du contre...
ps: Daniel : j'ai transmis tes pbs à l'équipe technique (il y a d'ailleurs une adresse pour ça pour tous ceux qui rencontrent des difficultés : info@wikio.fr).
@Jean Veronis
J'aurai aimé que vous répondiez aux commentaires de ichristophe et fredericin qui me semblent faire progresser le débat.
JB> J'ai commencé (ci-dessus pour iChristophe), nos commentaires se sont croisés. j'ai pris un peu de retard, désolé... Le commentaire de Frédéric est superbement intéressant, mais demande un peu de réflexion (et comme il est dimanche et que j'ai quelques petites obligations de famille, j'essaierai de répondre ce soir ;-).
"Le commentaire de Frédéric est superbement intéressant"
-> trop aimable, mais tout de même pas vrai !
C'est juste un souvenir du clivage entre "scientifique" au sens de "chercheur de connaissance" (qui remet en question les approches existantes pour trouver mieux) et scientifique au sens de "faiseur de connaissance" (qui gère un atelier, produit de l'information pour des utilisateurs selon des normes qualité). Clivage que j'avais vécu professionnellement il y a une douzaine d'années.
Merci Jean
Pour l'automatisation de la catégorisation des blogs hors top j'imagine que les moteurs semantiques peuvent aider.
Sur Drupal on a des plug-in genre open-calais ou simplement de tagging utilisant les services de yahoo.
Merci pour la réponse
J'avais en effet envoyé un message au support technique qui a été très réactif
Sur l'indexation, vu que Wikio est maintenant comptabilisé comme un aggrégateur chez Feedburner, je pense que ça ne pose aucun souci de réplication
En revanche toujours pour Feedburner, Henri de 2803 m'a signalé un ecueil: comment diableWikio peut il correctement indexer les liens dans les billets si on active le tracking feedburner qui réecrit les url et fait des redirections
Du coup j'ai désactiver l'oeil de Google et je suis bien content de remonter dans le classement meme si je n'ai pas de certitude que ce soit corellé...
je trouve pas terrible qu'un site du podium (en divers) ne soit pas tant un blog qu'une structure de blog ne lient que du porno et du commercial.
Au moins, sur le blog d'Agnès, on est sur un blog...
oui, c'est une bonne nouvelle que les blogs de femmes se mèlent un peu à la blogo en France. Enfin des femmes ! Et avec des blogs très intéressants... Merci Jean...
FrédéricLN> Merci d'avoir noté qu'il y avait un intérêt épistémologique dans ce travail... C'est ce qui me motive. Nous sommes avec les blogs (et on pourrait étendre aux réseaux sociaux) face à un objet socio-technologique mal défini, mouvant, complexe et finalement peu étudié. Ces objets finissent par disparaître, ou se transformer, avant même qu'on ait eu le temps d'en faire un objet d'étude. Je suis vraiment reconnaissant à Pierre Chappaz de m'avoir laissé transformer Wikio en terrain d'expérimentation et d'analyse. C'est une chance rare pour un chercheur.
Evidemment, la question du thermomètre qui change la température se pose en plein ! Mais c'est finalement assez classique en sciences sociales : la présence de l'enquêteur sur le terrain change le comportement des gens qu'il observe. C'est aussi le cas des sondages... Je crois qu'il faut être modeste vis-à-vis de ces indicateurs : ils sont très imparfaits, et on peut essayer de les régler, mais on n'a pas le recul qu'on a dans d'autres domaines. Je pense à nouveau à celui des sondages, dans lequel il y a maintenant un demi-siècle d'expérience. Et encore n'y est on pas à l'abri d'approximations et de dysfonctionnements (voire de manips) : remember 2002 ! Sur les blogs il n'y a quasiment pas de recul. Lorsqu'il y en aura un peu, les blogs auront disparu, ou se seront transformé en autre chose...
Ce qui m'intéresse derrière tout ça, ce ne sont pas tant les indicateurs eux-mêmes (et encore moins le classement en tant que podium), que tout le travail d'analyse et de compréhension qu'ils suscitent...
Flav> les liens vers les homes sont pris en compte, cela inclus les blogrolls -- Non, seul les liens partant du corps du billet (flux RSS) sont pris en compte.
L'affichage de nombre de backlinks et même leur liste complète est dans les tuyaux. Mais il y a encore quelques problèmes de développement (performances, font-end, etc.) pour la mettre à disposition. Très bientôt j'espère...
Jadlat> Oui, il faut une rubrique éducation. Elle est souvent demandée, comme économie, informatique, etc. Ca viendra, peut-être pas pour Noël (c'est un travail lourd).
Ninfosman> comment vous (je n'ose pas tutoyer, ô grand manitou du wikio) pouvez connaitre la date de mise en ligne d'un lien -- On tutoie bien Dieu de nos jours... ;-)
C'est simple : c'est la date du publication du billet qui émet le lien, et elle est dans le flux RSS. Et si elle n'y est pas ou est incohérente, c'est la date de capture, ce qui, à quelques heures près revient au même.
@Jean Véronis : oui, j'imagine que c'est du boulot ! Merci pour la réponse en tout cas. Allez une dernière petite question si çà ne te dérange pas ;-) Si les liens sont repris à partir du flux RSS, les liens provenant de blogs proposant des flux tronqués (partiels) ne sont donc pas pris en compte ?
Proposition.
Votre approche est intéressante pour un lien "mort", j'entends par là un lien qui a été posé dans une page, et puisque la page perdure, le lien perdure aussi. Dans ce cas, ca semble naturel qu'au fur et à mesure du temps qui passe, le "poids" du lien diminue jusqu'à ne plus rien peser.
Reste le cas du lien qui réapparait. Supposons que tous les jours que Dieu fait (si Dieu existe), je parle de l'apotre Jean Veronis et que je replace un nouveau lien vers la home de "aixtal" (http://aixtal.blogspot.com/). Théoriquement, chaque jour, mon lien devrait retrouver sa virginité et la fougue de son premier jour.
Pourquoi ?
Parce que si un site comme Slashdot par de Jean Veronis aujourd'hui et dans un mois, l'impact de l'article "de dans un mois" sera masqué par la décrépitude de l'article d'aujourd'hui.
Proposition ?
Enrégistrer, en plus du lien, son contexte (des mots, une imbrication de div et de tags, que sais-je ?). Quand le ("UN"!) contexte change, la virginité est retrouvée.
-- G.A. aka Off Topic ailleurs.
Flav> Non, mais que faire ? Il y a eu quelques essais de capture par crawl, mais l'identification des bons morceaux de la page (prendre le corps du billet et ignorer les commentaires, les blogrolls et les reste) est très difficile. Ca ramène pour l'instant plus de bruit que de bon...
Il serait intéressant de comparer le classement Wikio à la sélection des 176 meilleurs blogs mondiaux sélectionnés en finale pour le concours BOBs 2008 de la Deutsche Welle, le plus prestigieux des concours de blogs :
http://www.thebobs.com/index.php?l=fr&s=1154893154682279QQCXSYUE-NONE
On aurait ainsi en rapport entre les blogs les plus liés, et les blogs jugés les meilleurs qualitativement selon un jury international.
"contrairement à ce qu'on croît..."
Mais si on ne croît pas, on risque de rétrécir ! Malgré ces temps incertains de croissance négative, je crois obstinément en l'avenir ;-)
Signé : la brigade circonflexe
Enregistrer un commentaire