Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, octobre 29, 2008

Blogs: Trop de liens tue le lien

Dans un billet récent, je mentionnais la grande pauvreté en liens de la blogosphère : un lien pour 12 billets en France, un pour six aux États-Unis. Et encore, ces chiffres sont-ils des moyennes. Les liens sont très inégalement distribués, aussi bien du côté de ceux qui les émettent que de ceux qui les reçoivent. Dans les deux cas, ils suivent une de ces lois fascinantes dont l'univers social abonde, qu'on appelle "loi de puissance". C'est en gros le principe bien connu des 80-20, mais en pire : 3 à 4% des blogs raflent 80% des liens. La chose est connue depuis longtemps (voir par exemple ici [traduction] ; voir également dans l'article Blogosphère sur Wikipedia).

Distribution des liens entrants pour les blogs de Wikio.fr en septembre

Elle signifie que la plupart des blogs sont dans une (très) longue "traîne", et ne reçoivent presque aucun lien, ou sont même purement et simplement orphelins. Il en va ainsi également des liens sortants. La plupart des billets n'en contiennent aucun, mais certains en contiennent des quantités : ce sont souvent des listes de blogs (ne serait-ce que celles du classement Wikio, reproduites un peu partout...) Si rien n'est fait, cette toute petite quantité de billets déséquilibre tous les calculs de score.

C'est d'ailleurs la même chose sur le Web en général. Brin et Page avaient bien compris le problème, et ont imaginé une contre-mesure pour le calcul du Page Rank (voir leur papier original pdf). Le poids de chaque lien sortant d'une page est divisé par le nombre de liens sur la page : si la page contient N liens, le poids de chacun est 1/N (dans la pratique il y a un facteur d'amortissement, qui fait que c'est plutôt 0.85/N, mais cela n'a pas d'incidence sur mon raisonnement). Ce type de décroissance est dit "hyperbolique" à cause de la jolie forme d'hyperbole que prennent les valeurs quand on les reporte sur un graphique :


Poids sortant des liens dans le page Rank de Google

Jusqu'ici le Wikio Rank, sur lequel est basé le classement, mais aussi l'affichage des billets, n'utilisait aucune limitation de ce type. L'impact était modéré tant que le calcul ne faisait intervenir que les liens de billet à billet, mais le prochain classement tiendra compte aussi des liens vers les pages d'accueil (vous l'avez souhaité dans vos commentaires, et les calculs que j'ai montrés ici indiquent que c'est nécessaire : il y a autant de liens vers les pages d'accueil que vers des billets pour le français). L'impact des listes serait alors important et tout à fait indésirable.

La formule du Page Rank ne m'a pas parue adaptée. En effet, la décroissance du poids en fonction du nombre de liens est extrêmement violente : les liens n'ont plus qu'un poids de 0,5 si la page en contient deux, 0,33 si elle en contient 3 et 0,1 si elle en contient dix. Étant donné la pénurie de lien que j'ai décrite ici, la formule me semble beaucoup trop pénalisante. Elle n'incite guère à lier les autres ! Je me demande d'ailleurs pourquoi Google n'en a pas changé, car la pénurie de liens qui affecte les blogs affecte le Web dans son ensemble. L'immense majorité des pages ne sont purement et simplement pas liées et le calcul du Page Rank y est impossible.

J'ai opté pour une autre formule très simple à comprendre, même si les termes sont un peu savants, et qui correspond à ce qu'on appelle une décroissance exponentielle :

poids = exp(-α(N-1))

On peut choisir des valeurs diverses pour α entre 0 et 1 et on a alors des décroissances plus ou moins prononcées. J'ai choisi α = 0,1 pour des raisons que j'expliquerai plus loin. Le résultat apparaît sur le diagramme ci-dessous. Si une page contient deux liens, chacun pèse environ 0,9 (et non 0,5 comme dans le page Rank), avec trois liens chacun pèse environ 0,81 (au lieu de 0,33), etc.


On voit que la courbe exponentielle s'infléchit beaucoup moins vite que la courbe hyperbolique pour des nombres de liens faibles, alors qu'elle est beaucoup plus pénalisante pour des nombres de liens importants. Il faudrait agrandir la queue du graphique pour y voir clair, mais pour 100 liens sortants, le poids envoyé par la formule du Page Rank est 218 fois supérieur à celui de la formule que je propose. Ce sont exactement les propriétés souhaitées : être généreux sur les nombres de liens faibles, et très pénalisant sur les longues listes. Je ne sais pas pourquoi Google n'a pas adopté quelque chose de ce type. Je suis convaincu que ça améliorerait le ranking sur le Web également.

Le poids total qu'émet une page n'a pas la même allure dans les deux cas. Il est assez simple de comprendre que si une page a N liens, le poids total qu'elle émet avec la formule Google est N * 1/N, c'est-à-dire 1. Le poids sortant est constant quel que soit le nombre de liens de la page (c'est sans doute la propriété qui a séduit Brin et Page). Avec la formule que je propose, le poids total dépend du nombre de liens, puisqu'il correspond à

N * exp(-α(N-1))

Cette courbe a une propriété intéressante. Elle part de 1, puis atteint rapidement un maximum, et diminue ensuite progressivement pour tendre vers 0 : les pages qui ont énormément de liens ont une contribution globale à l'ensemble du système proche de 0.


Pourquoi cette valeur magique α = 0,1 vous direz-vous peut-être ? Si vous en êtes arrivé ici dans ce billet, c'est que vous n'êtes pas totalement réfractaire aux maths. Continuons donc, si vous le voulez bien. Je vous promets que je ne dépasserai pas le niveau Terminale. J'ai choisi la valeur α qui maximise le poids total sortant de la page exactement pour N = 10. j'aurais pu choisir 9, ou 11, ou 12... Mais il m'a semblé de façon empirique que 10 était un bon compromis. Au-delà, on commence à trouver de plus en plus de listes (les fameuses "chaînes"), d'extraits de classements, ou de spam pur et simple... Donc, ceci étant posé, comment trouve-t-on α quand on a fixé N ? C'est là qu'il faut se souvenir que lorsqu'une fonction atteint son maximum, sa dérivée s'annule... Hou là là, mal au crâne. Je vous passe donc la formule de Leibnitz et tout le tuttim, mais vous pourrez aisément vérifier que la dérivée de x exp(-α(x-1)) est

(1 - α x) exp(-α(x-1))

Et tout bêtement, quand on remplace x par 10, on obtient (1-10 α) exp(-9 α) = 0. Et bingo, comme exp(-9 α) n'est pas nul, 1-10 α doit l'être. Donc α = 1/10 = 0,1. Voilà.

Les résultats sont très intéressants sur le prochain classement...

Libellés : ,


54 Commentaires:

Anonymous ChrisJ a écrit...

Dans la formule de la dérivée il manque des parenthèses autour de (1 - α x) non ?

29 octobre, 2008 12:56  
Blogger Jean Véronis a écrit...

Bien sûr ! merci
(je me suis pris la tête avec Blogger : vraiment pas fait pour des billets compliqués...)

29 octobre, 2008 13:02  
Anonymous authueil a écrit...

Pourquoi wikio n'a-t-il pas mis en place tout cela avant ?

Ce n'était pourtant pas faute de constater qu'il y avait des soucis...

29 octobre, 2008 13:36  
Blogger Luc Dussart a écrit...

Il me semble qu'un "bon" billet comporte en moyenne moins de 10 liens. Le tien en comporte six par ex.
Il serait intéressant de compter le nombre moyen des 10 blogs au sommet du hot parade pour confirmer.
Mais vu la forme de la courbe, je proposerais plus volontiers un maximum à 5 ou 6 seulement, quitte à défavoriser les articles de type encyclopédique.

29 octobre, 2008 13:40  
Blogger Jean Véronis a écrit...

Authueil> Je ne sais pas... Rome ne s'est pas fait en un jour. En tout cas, on a fait appel à mes modestes compétences, j'essaie de faire au mieux.

Et à dire vrai, je m'amuse. Quel terrain de jeu génial pour un chercheur !

29 octobre, 2008 13:46  
Anonymous Christophe D. a écrit...

Très intéressant et assez conforme avec ce que je m'imaginais ;-) Les liens dépendent tout autant de l'usage que l'on en fait (des communautés et/ou des blogueurs qui lient plus que d'autres) que de l'intérêt du contenu.

Mais du coup, je me pose une question : ne serait-ce pas utile d'appliquer le même raisonnement également aux liens récurant d'un mois sur l'autre d'un blog vers un autre blog ?
Je m'explique : avec la formule que tu décris, un blog qui publie beaucoup de liens sur un même billet apporte moins de valeur à chaque blog lié dans ce billet pour éviter les effets de liste et un peu moins désavantager une communauté qui lie beaucoup par rapport à une autre qui lie moins, ok.
Mais l'on pourrait, en plus, imaginer qu'un blog qui publie chaque mois 10 liens (sur 10 billets différents) vers un même autre blog lui apporte moins de valeur. Cela pourrait limiter les effets de liens « stratégiques » (je linke souvent un autre blog pour le faire monter artificiellement dans le classement par intérêt de buzz, de politique ou autre ; ou simplement parce que c'est mon pote) et du coup, de se passer de la relation « poids des liens = position de celui qui fait le lien dans le classement », qui est parfois critiquée (cf. un commentaire de Narvic
.)

Peut être que cela n'a pas de sens ou que c'est impossible à réaliser mais c'est ce qui me vient à l'esprit à l'instant.

29 octobre, 2008 13:47  
Blogger Jean Véronis a écrit...

Luc> Oui, il faudrait faire des essais plus systématiques. Peut-être faudra-t-il pénaliser plus... Mais nous venons de loin : Wikio ne pénalisait rien du tout et donc le poids total sortant croissait indéfiniment. Je ne voulais pas non plus tout chambouler -- et avoir un concert de casseroles parce que le classement était d'un coup sens dessus dessous ;-) Il va déjà y avoir une belle amélioration, on va regarder tout ça (ensemble) et on va affiner...

29 octobre, 2008 13:49  
Blogger Jean Véronis a écrit...

Christophe> L'on pourrait, en plus, imaginer qu'un blog qui publie chaque mois 10 liens (sur 10 billets différents) vers un même autre blog lui apporte moins de valeur -- oui, ça m'a traversé la cervelle. Il y a quelque chose à faire de ce côté, de façon que la diversité paie plus. Je vais y réfléchir !

En ce qui concerne la position "égalitaire" de narvic, je la respecte, mais je pense que c'est une vision trop simple de l'égalité, comme je l'explique dans ma réponse à son commentaire. J'ai d'ailleurs fait des essais, ça ne marche strictement pas. Le problème vient justement de la structure en loi de puissance de la blogosphère et du Web en général. Le problème est fort bien décrit ici.

29 octobre, 2008 13:59  
Anonymous Anonyme a écrit...

à propos de la citation du jour j'ai ai une autre : Ne t'inquiète pas si tu as des difficultés financières, je peux t'assurer que les miennes sont bien plus importantes ! (La Caisse d'Epargne)
Emmanuel

29 octobre, 2008 14:06  
Blogger Jean Véronis a écrit...

Bien vu !

29 octobre, 2008 14:12  
Blogger Jérôme Charron a écrit...

Très intéressant Jean, et j'ai hâte de voir les implications sur le classement Wikio => à mon avis, ça devrait pas mal remuer, non?

29 octobre, 2008 14:13  
Anonymous Christian Fauré a écrit...

Tout cela est très intéressant et fort judicieux. Merci Jean de partager ces réflexions.

Cela dit, par rapport à wikio, ce n'est pas la pertinence qui les intéresse. Car l'intérêt d'un classement (d'un Hit Parade) réside toujours dans ses variations : plus çà rentre, plus çà sort, et plus il y a de variation dans le classement, meilleur c'est.
Imaginons un classement qui soit parfait en terme de pertinence, il y a de fortes chance qu'il soit très figé et donc que son intérêt diminue très rapidement.
Ton intérêt Jean, est d'affiner la modélisation du calcul de la pertinence, l'intérêt de Wikio est que chacune de tes nouvelles formules changent le classement car cela augmente mécaniquement l'audience de Wikio.
Et si tu trouvais la formule ultime, Wikio chercherait un nouveau gourou avec de nouvelles formules pour maintenir en mouvement, en vie, le classement.
Cela dit, je n'ai rien contre Wikio : je rappelle juste qu'entre vous il y a une forte instrumentalisation : toi tu as ton terrain de jeu grandeur nature et eux ont une variation importante de leur classement qui génère de l'audience.
Jusqu'ici, a priori, tout le monde est content.
Mais si j'étais wikio, la formule qui m'intéressait le plus ne serait pas celle de la pertinence mais celle qui m'indique qu'elle est le niveau de variation dans le classement qui rende optimal l'audience de wikio ? Et je ne pense pas que wikio puisse éluder bien longtemps cette question.
Ne soit donc pas surpris si on te demande de faire des jeux d'essais impliquant des variations plus ou moins importante dans le classement pour évaluer cet optimal qui te fournira un nouveau coefficiant à intégrer dans ta forumle. Coefficiant que tu appelera peut être coefficant d'audience.
Tout cela pour dire, en toute modestie, que la pertinence d'un moteur de recherche n'a pas grand chose à voir avec la pertinence d'un classement, d'un hit parade, comme tu semble le suggérer en comparant ta démarche avec les mécanismes de Google.
Qu'en penses-tu ?

29 octobre, 2008 14:15  
Blogger Jean Véronis a écrit...

Jérôme> Ca ne bouge pas trop dans le top. Mais ça bouge pas mal dans le milieu et les profondeurs du classement, car la prise en compte des liens vers les home permet à certains blogs d'être à une meilleure place.

29 octobre, 2008 14:19  
Blogger Jean Véronis a écrit...

Christian> Je crois que tu fais un peu un procès d'intention quand tu dis "ce n'est pas la pertinence qui les intéresse"...

Je ne peux apporter que mon humble témoignage : j'ai carte blanche totale, et je n'ai référé à personne parmi les patrons et actionnaires de Wikio pour mettre en place ces nouvelles formules. J'ai travaillé en direct avec le développeur qui les implémente. Ce n'est donc pas une opération marketing.

Je crois profondément qu'il faut du renouvellement. Il y a des buzz qui se forment, des blogs qui s'essouflent, d'autres qui émergent. Je suis justement à la recherche de ça.

Si ça permet à Wikio de faire de l'argent (?) et si tout le monde est content, tant mieux !

Tu as raison : c'est un beau terrain de jeu. Et le jour où l'on me demandera de faire des conneries pur marketing, je tirerai ma révérence. J'ai passé l'âge où l'on est affamé ;-)

29 octobre, 2008 14:25  
Blogger Jean Véronis a écrit...

Christian Fauré> J'ai oublié le dernier point. Tu dis : "la pertinence d'un moteur de recherche n'a pas grand chose à voir avec la pertinence d'un classement".

Si, justement. Je m'en étais expliqué dans un billet précédent. C'est justement le score de chaque blog qui donne sa pertinence pour le ranking des résultats (exactement comme Google). C'est pour ça que je m'y intéresse autant (parce que franchement l'aspect hit parade ce n'est guère mon truc non plus).

29 octobre, 2008 14:29  
Blogger Factran a écrit...

Donc dans un blog, les liens dans un post et les liens permanents de la page (blogroll, à propos de, billets récents) sont compté de la même manière ??

29 octobre, 2008 14:41  
Anonymous Christian Fauré a écrit...

Non Jean, tu me réponds à côté :-)

Je ne fais aucun procès d'intention et je ne pense pas que tu sois "manipulé". Comme je le dis : c'est très bien si tout le monde est content.

Ma remarque était la suivante : tu travailles sur la pertinence de ranking qui se calque sur le modèle des moteurs de recherche or le classement de wikio ne répond pas aux mêmes enjeux. Tu ne questionnes pas, à ma connaissance, la différence entre trouver une information (moteur de recherche) et constituer un hit parade (je pense que cela t'arrange de ne pas te poser la question).

Aussi, si tu travaillais au plus prêt des motivations de wikio et non d'un moteur de recherche, la première formule qui m'intéresserait de ta part serait celle qui attribuer un blog à une catégorie (voire qui suggèrerait de nouvelles catégories) car en bon statisticien tu sais bien que comparer des choux et des carottes ...

29 octobre, 2008 14:44  
Blogger Q a écrit...

Je trouve l'idée de l'exponentielle excellente, elle permet de pondérer les billets en fonction du nombre de liens à l'envie de manière assez fine. Cependant j'ai quelques remarques.

La première : si j'étais spammeur je publierai donc des billets de 10 liens pour maximiser mon poids sortant, et environ une centaine par jour... Comment éviter ceci ?

La seconde, sur la valeur de 0,1 : puisqu'au dela de 10 lien on considère qu'on a affaire à des billets de mauvaise qualité, est-ce que le poids sortant d'un billet de 10 lien ne devrait pas être plutôt identique à celui d'un billet de 1 seul lien, c'est à dire égal à 1 ? Au delà de 10 lien le poids sortant deviendrai inférieur à 1.

D'après la courbe je comprend qu'un billet de 40 liens a le même poid sortant qu'un billet de 1 lien... Le chiffre 40 me parait un petit peu élevé.

29 octobre, 2008 14:47  
Anonymous Pierre Chappaz a écrit...

Jean je suis fasciné par les progrés continus que tu impulses, qui se répercutent sur le classement et aussi sur le pertinence des résultats du moteur de recherche d'infos. Je me fais l'interpréte de toute l'équipe de Wikio pour te dire notre admiration pour ton travail, et notre profonde gratitude.

29 octobre, 2008 15:09  
Anonymous narvic a écrit...

Bonjour, quelques questions en vrac sur la relation blogs liants/blogs liés :

- comment le classement se comporte-t-il vis à vis des pages/sites/blogs très liants, avec fort renouvellement des liens ?

Je pense à la logique d'agrégation de liens, sur une page comme celle de Medialinks par exemple (http://medialinks.wordpress.com/)

Ou encore mon propre blog (plus de 30 liens en page d'accueil aujourd'hui, par exemple, dont la moitié vient de mon flux delicious, avec un renouvellement sur l'ensemble de la page de l'ordre d'un quart d'un jour sur l'autre, selon les jours).

- des réflexions de Scott Karp (Publishing 2.0, Publish2) tendraient à montrer qu'être très liant, avec un renouvellement rapide des liens, est fortement générateur d'audience (il prend l'exemple de Drudge Report).

- Je rapproche ça d'une réflexion de quelques blogueurs il y a quelques temps sur "l'influence" d'un blogs ou site comme prescripteur de lecture : constate-t-on une relation entre les blogs très liés (donc bien classé dans Google et Wikio) et ceux dont les liens sortants sont très cliqués ?

Quand j'observe mes referers, en croisant le classement des blogs dont les liens apportent le plus de trafic sur mon blog, et leur place respective dans un classement tel que Wikio, je ne vois pas de corrélation sauter aux yeux.

Je constate d'ailleurs dans mes stats le très fort impact des sites d'agrégation de liens : rezo.net, embruns - qui est un quasi agrégateur ;-)

- Plus généralement, comme la destination des liens semble répondre à une loi de puissance (j'ai bien lu le passionnant article que vous me recommandiez un peu plus haut ;-), je m'attends à la même chose quant à leur provenance. C'est le cas ?

Comment interfère cette distribution de la provenance des liens sur le calcul des Page Rank ? Je veux dire par là : est-ce que le poids d'un tout petit nombre de sites est déterminant ?

J'ai en tête une remarque de Scott Karp à propos des sites de presse américains (avec de très forts PR), mais qui sont très peu liants (même si ça s'arrange avec le développement du linkjournalism). Il se demande quel serai l'impact dans "l'économie des liens" et donc dans les résultats de recherche de Google, si ces gros sites se mettaient à lier massivement, en redistribuant sur le web des liens à très fort PR aujourd'hui "thésaurisés". Il estime que le bouleversement dans le classement des résultats de recherche de Google serait considérable. Partagez-vous son avis ?

J'espère que ces questions ne vous détournent pas trop du fil de votre propre réflexion. ;-) Elles sembles tout de même "liées" au thème de ce billet...

29 octobre, 2008 16:33  
Blogger Vicnent a écrit...

dans la formule finale : comme exp(-9 α) n'est pas nul, 1-10 α doit l'être. Donc α = 1 - 1/10 = 0,1. Voilà.

il faut écrire :

Donc 1-10 α = 0 donc -10α = -1 donc α = 1/10.

ce que tu as écrit est faux (1 - 1/10 = 0.9 <>0.1, et en plus c'est un qutient, et non une différence)

29 octobre, 2008 17:31  
Blogger Jean Véronis a écrit...

Vicnent> Ouh là... ca va mal aujourd'hui. Et en plus je vois que j'ai oublié le =0 dans l'équation, donc ça ne veut rien dire.

je me suis pris la tête à 100% dans Blogger pour écrire ce billet. On a l'impression de taper dans un timbre poste. Quand à mettre des alpha, des parenthèses et tout, c'est un sac de noeuds. Et je n'ai même pas essayé les exposants...

merci!

29 octobre, 2008 17:50  
Blogger Jean Véronis a écrit...

Factran> dans un blog, les liens dans un post et les liens permanents de la page (blogroll, à propos de, billets récents) sont compté de la même manière -- non, seuls les liens provenant du billet lui-même sont comptés. Le reste pourrait être intéressant mais c'est extrêmement difficile. L'info n'est pas dans les flux RSS, et elle apparaît dans tellement de formats variables que les expériences actuelles montrent plus de bruit que de bon contenu.

29 octobre, 2008 17:53  
Blogger Jean Véronis a écrit...

Christian> Je ne suis pas sûr qu'on se comprenne. Wikio EST un moteur de recherche, et ce que j'essaie de faire c'est justement faire converger classement et pertinence. Je suis prêt à accepter que les deux scores doivent être différents, mais pour l'instant je ne vois pas pourquoi. Après tout Google pourrait aussi publier un classement des sites Web sur la base du vrai Page Rank (pas celui qui s'affiche dans la toolbar est qui est tellemnt discrétisé qu'il y aurait des millions d'ex aequo). La Nasa serit probablement dans les tout premiers, etc. Mais bon, il y a peut-être un truc qui m'échappe.

Sur la catégorisation, ok à 100%. C'est sans doute mon prochain chantier. Mais ce n'est pas simple. Je vois déjà se profiler des montagnes de problèmes (dont les blogs multithèmes ou sans thème précis...). Ce sera aussi un chantier passionnant. Et qui fera intervenir l'analyse de contenu (le lexique utilisé).

29 octobre, 2008 17:59  
Blogger Jean Véronis a écrit...

Q> si j'étais spammeur je publierai donc des billets de 10 liens pour maximiser mon poids sortant, et environ une centaine par jour... -- Il y a déjà une chose qui dissuade, c'est qu'un seul lien de A vers B est pris en compte par mois dans le classement... Donc le spammeur pourra maximiser le poids sortant de son blog, mais mais le poids entrant d'un blog particulier. Je ne pense pas que ça l'intéresse. D'autre part, j'ai fait réaliser par Wikio des outils qui permettent de monitorer les volumes anormaux, soit en nombre de billets soit en rapport moyen lien/billet. Donc le spammeur serait vite repéré et désindexé...

sur la valeur de 0,1 [...] un billet de 40 liens a le même poids sortant qu'un billet de 1 lien. -- oui c'est une très bonne remarque. Peut-être faut-il être plus sévère et régler alpha différemment. On va voir à l'usage. Mais comme je disais plus haut, je ne veux pas tout chambouler d'un coup : à l'heure actuelle il n'y a pas de limitation, donc un billet de 40 liens a un poids sortant de 40...

29 octobre, 2008 18:05  
Blogger Jean Véronis a écrit...

Pierre> Merci de ton mot. Il me touche. Mais je n'aurais rien pu faire sans la réactivité de l'équipe Wikio, et en l'occurrence sur ce pb précis de Thomas, qui a fait tout le boulot d'implémentation de test, sans lequel mes petites formules n'auraient été que du vent. Je ne veux pas citer son nom de famille pour ne pas l'embarrasser, mais qu'il soit remercié aussi. Thomas : c'est un plaisir de bosser avec toi (et avec Jérôme sur le buzz et avec tous les autres, belle équipe).

29 octobre, 2008 18:08  
Blogger Jean Véronis a écrit...

Narvic> Merci de ton long commentaire. Malgré notre divergence de vue (mais elle est légitime n'est-ce pas?) sur la question du "poids des voix", j'apprécie énormément tes remarques (et tes billets !).

Sur ton premier point : les agrégateurs ne font normalement pas partie de l'index Wikio. J'ai passé tout le mois d'août à construire des indicateurs et des outils (avec Thomas dont je parlais à l'instant) pour faire le ménage. Et le ménage a été fait par les documentalistes en septembre. Je ne suis pas sûr que ce soit propre à 100%, le job n'est d'ailleurs probablement jamais terminé. Tu vire un agrégateur par la porte il en rentre deux par la fenêtre. Mais bon, la situation me paraît largement correcte...

Scott Karp ... être très liant, avec un renouvellement rapide des liens, est fortement générateur d'audience -- Oui, j'en suis convaincu aussi. J'essaie donc de trouver des indices et des formules qui ne pénalisent pas trop le liage (contrairement à la formule du Page Rank de Google, qui est très sévère), tout en pénalisant le spam. Pas facile. Je susi sûr qu'il y a encore énormément de progrès à faire.

relation entre les blogs très liés (donc bien classé dans Google et Wikio) et ceux dont les liens sortants sont très cliqués -- bonne question. Honnêtement je ne sais pas. Je n'ai d'ailleurs pas les moyens de mesure : je ne sais pas pour un blog donné quels liens ont été cliqués. Mais ce serait passionnant à analyser !

Je te rejoins sur Rezo (que j'admire beaucoup, ne serait-ce que par sa techno). C'est (à part Le Monde ou de grands médias), le site qui m'apporte le plus de traffic quand un billet est repris. Mais c'est un agrégateur...

Comme la destination des liens semble répondre à une loi de puissance [...] je m'attends à la même chose quant à leur provenance. -- Bien sûr. La loi de puissance semble régir tout le Web...

est-ce que le poids d'un tout petit nombre de sites est déterminant -- plus compliqué : il me faudrait analyser avant de dire une bétise. A priori le bonus de poids accordé à un site du top 100 n'est pas très élevé (1,3 fois le poids d'un blog du top 1000), donc être cité par deux blogs du top 1000 est mieux que d'être cité par un blog du top 100. Donc l'effet "blogeoisie" que tu crains est tout de même relativement limité. Mais à étudier plus en détail !

scott karp -- oui, il a levé un lièvre. Ceci étant reste à savoir comment faire sans tout péter (imaginons Google un beau matin qui se prend une Google Dans de Saint-Guy où plus personne ne retrouve ses repères...). A travers les modifs que je fais faire sur Wikio je vais dans ce sens : plus de rotation, de mouvement, de redistribution. Mais j'y vais mollo : je ne veux pas jouer l'apprenti sorcier. Il faut continuer à discuter, à réfléchir. Les pistes nous apparaîtront au fur et à mesure.

J'espère que ces questions ne vous détournent pas trop du fil de votre propre réflexion. -- non, elles sont en plein dans le mille.

Au fait, je m'aperçois que je t'ai tutoyé tout le long de ce commentaire. C'est ok?

29 octobre, 2008 18:28  
Blogger Vicnent a écrit...

Sinon, j'ai quand même un problème avec le postulat : la décroissance exponentielle est la bonne modélisation de la valeur du poids des liens d'un billet.

la décroissance exponentielle est la modélisation d'une décroissance d'une quantité qui décroitrait proportionnellement à sa valeur dans le temps. (Se souvenir de la radioactivité).

Concrétement, On a d.q(t)/dt = - a.q(t) et dont la solution est q(t) = q_o . exp(-q.t).

Or, là, par exemple, je ne vois pas ce que le temps modélise.

D'autre part, vis à vis de la décroissance de Google, le poids des liens est donc en de plus en plus violemment faible. Et surtout pas proportionnellement. Comme tu le montres, on donne un poids très conséquent aux liens quand ils sont faits par petit paquet, et surtout, infiniment plus gros que ceux dans le cadre d'un billet très fourni.

La conséquence, c'est qu'un très bon billet, avec beaucoup de liens, ne remercie pas à leur juste valeur les blogs linkés puisque plus le billet est travaillé, et moins les blogs linkés prennent de la valeur. Ainsi, il vaudra par exemple mieux faire un billet en partie I, partie II etc, qu'un long billet de 100 lignes.

Quelque part, ça en devient paradoxal : plus le billet est bon, et linkant, plus les blogs linkés sont pénalisés.

Pour ma part, je verrais bien faire le travail à l'envers. Dire que de 1 à 5 liens, dire que le poids est faible, faiblement croissant, puis de 6 à 15, le poids est supérieur, grandement croissant, puis de 11 à plus l'infini, le poids est encore supérieur, mais très faiblement croissant, un peu comme dans une sigmoïde.

Puis, de là, trouver la loi de décroissance (qui n'est pas dur).

Par la suite, je ne vois pas à quoi sert de calcul le poids des liens d'une page. Peux tu m'expliquer ? (Mais il m'apparait paradoxal que cette somme puisse décroitre, alors que le nombre de liens croît : que la valeur des liens décroit avec le nombres de liens, ça ne me choque pas, mais à un point tel que passée une barre (chez toi : 10), la somme des poids des liens diminue, ça me trouble.)

29 octobre, 2008 19:11  
Blogger Jean Véronis a écrit...

Vicnent> Evidemment tu penses à la radioactivité (période de demi)vie, etc.)... Mais pourquoi une décroissance exponentielle serait-elle forcément liée au temps ? Il y a des tas d'exemples où ce n'est pas le cas. Je pense aux méthodes d'anti-aliasing en imagerie par exemple, où on utilise une décroissance exponentielle ou (bi-exponentielle) de la distance z entre le point de vue et le fragment traité pour générer des effets de "fog" (brouillard, fumée). Donc pourquoi pas le nb de liens ? La formule dit seulement que la décroissance de la quantité considérée se fait à un taux proportionnel à sa valeur.

Note que j'ai pris un petit raccourci. Je me suis demandé si j'allais expliquer les "gory details" et puis je me suis dit que j'allais perdre tous mes lecteurs. En fait, ce que j'avais en tête comme modèle c'est une progression géométrique : 1, 0,9, 0,81 etc. Mais tu connais le rapport entre les deux... C'est la version discrète de la loi exponentielle (k petit etc.).

Quant au reste de ton commentaire, il reposte sur un postulat : "plus le billet est bon, et linkant"... Mouais. je ne veux pas faire un sophisme, mais généralement c'est "plus un billet est linkant, plus c'est du spam ! Donc je réponds à l'urgence.

Pour les quelques cas que tu soulèves (bon billet avec plein de lien, genre Vicnent ou Aixtal ;-) j'ai une autre carte dans la manche...

29 octobre, 2008 19:29  
Blogger Vicnent a écrit...

ok Jean, vu.

à mettre dans la todo list : développer une api wikio qui prend en entrée une loi de décroissance et qui donne en sortie un classement :-)

Je trouve quand même cette loi sévère...

Juste une autre question :

si je fais 3 billets A B et C et que :
- dans le billet A je te linke 2 fois (même url : L1 L1)
- dans le billet B, je te linke 2 fois (2 url différentes, différentes du billet A : L2 L3 )
- dans le billet C, je te linke 3 fois (mais 2 urls identiques sur les 3 et la troisième est la même que les deux url du billet A : L4 L4 L1),
combien cela fait-il de liens ?

moi, j'en vois 1 pour le A, 2 pour le B, 2 pour le C. Soient 5 liens.

Si wikio compte les links par blogs, on perd le fait qu'un blog, ce sont des billets qui linkent d'autres billets, non ? (1 link = 1 ''point'' d'indicateur de ''référence'')

29 octobre, 2008 19:51  
Anonymous narvic a écrit...

Merci de tes longues réponses ;-) Pas de souci pour les divergences, je préfère quand il y a du relief plutôt que le plat, sauf à vélo ;-)

Sur Scott Karp et l'impact du linkjournalism sur Google, il me semblait bien qu'il y avait une perspective passionnante là-derrière.

On va pouvoir vérifier rapidement son hypothèse, puisque les gros sites de presse américains révisent les uns après les autres leur politique vis à vis des liens externes et vont devenir de gros pourvoyeurs...

29 octobre, 2008 19:53  
Blogger Jean Véronis a écrit...

Vicnent> Pour l'instant mon API c'est Thomas... Mais bon, ce n'est pas totalement infaisable ce que tu dis là (tous pbs de perf mis à part !)

Pour ton puzzle : un seul lien compté si A, B et C sont dans le même mois... Et on prend celui qui a le meilleur poids.

C'est un peu sévère, et il faudra trouver de meilleurs mesures antispam, mais en attendant ça fait office.

29 octobre, 2008 20:06  
Blogger Jean Véronis a écrit...

Narvic> Oui, ça bouge en ce moment. Et on a eu les API du NY Times et du Guardian, le passage de ce dernier en full-text... Passionnant ! et à suivre !

29 octobre, 2008 20:08  
Anonymous Vonric a écrit...

"Je me demande d'ailleurs pourquoi Google n'en a pas changé">Il faudrait envoyer ça a Google, histoire d'améliorer le PR (qui n'est d'ailleurs - selon la rumeur - plus utilisé) ;-)

29 octobre, 2008 22:26  
Anonymous Mathias a écrit...

Rapidement, une solution possible au commentaire de vicnent ("Quelque part, ça en devient paradoxal : plus le billet est bon, et linkant, plus les blogs linkés sont pénalisés.") : considerer la proportion de liens relativement au texte complet du billet -- selon le meme principe qu'un article scientifique de trois pages avec 30 references bibliographiques se f*** de la g*** du monde.

Evidemment les spammeurs sont aussi tres forts pour generer du texte semi-aleatoire...

30 octobre, 2008 06:57  
Anonymous Christophe D. a écrit...

En fait, ça devient compliqué car les nouvelles mesures interagissent entre elles et je pense qu'il est assez difficile pour nous, les observateurs, de se faire une idée de ce qu'elles peuvent produire au final. Du coup, histoire de suivre plus facilement, je tente une petite synthèse des lois en cours :

• une période de prise en compte des liens publiés sur 9 mois, avec prime aux liens les plus récents (plus de mouvements mais les mouvements sont plus lents) ;
• le poids d'un lien dépend de la position de classement de celui qui le publie — avec pondération modérée : +0,3 points pour un lien provenant du top 100 par rapport à un liens provenant du top 1000 (anti spam) ;
• si plusieurs liens dans le mois d'un blog vers un même autre blog : seul 1 lien est compté (anti spam) ;
• plus un billet comporte de liens vers des blogs différents dans un même billet, moins les liens de ce billet ont de valeur — au delà d'un palier de 10 liens, avec pondération progressive (anti listes & anti spam).

J’ai bon ?

30 octobre, 2008 10:25  
Blogger Jean Véronis a écrit...

Mathias> Bien vu. Quand je disais à Vicnent que je gardais une carte dans la manche, c'était exactement ça ;-)

Mes lecteurs sont trop forts !

30 octobre, 2008 10:31  
Blogger Jean Véronis a écrit...

Vonric> Il y a beaucoup de rumeurs concernant le PR, et personne le sait. Une chose est certaine : l'immense majorité des pages n'est quasiment pas lié. Il y a donc d'autres mécanismes qui entrent en jeu. Matt Cutts a mentionné un jour le nombre de 200 indices qui contribuaient au ranking. Je pense donc plutôt que le PR est toujours utilisé, mais en conjonction avec des tas d'autres indices.

30 octobre, 2008 10:33  
Blogger Jean Véronis a écrit...

Christphe D. > Il faudra que je fasse un récapitulatif :


une période de prise en compte des liens publiés sur 9 mois, avec prime aux liens les plus récents (plus de mouvements mais les mouvements sont plus lents) ;

Ce mois-ci il y aura une modif donc je parlerai dans un prochain billet. Tous les liens seront comptés depuis le 01/01/2008, mais avec une décroissance exponentielle (là-aussi ;-).


le poids d'un lien dépend de la position de classement de celui qui le publie — avec pondération modérée : +0,3 points pour un lien provenant du top 100 par rapport à un liens provenant du top 1000 (anti spam) ;


Oui.

si plusieurs liens dans le mois d'un blog vers un même autre blog : seul 1 lien est compté (anti spam) ;

Oui. Ca pourra être amélioré. Peut-être un peu sévère.

plus un billet comporte de liens vers des blogs différents dans un même billet, moins les liens de ce billet ont de valeur — au delà d'un palier de 10 liens, avec pondération progressive (anti listes & anti spam).

Non, pas de palier. La décroissance est progressive (cf. ma courbe exponentielle).

30 octobre, 2008 10:36  
Anonymous Christophe D. a écrit...

Ok, merci pour ces précisions !

« Tous les liens seront comptés depuis le 01/01/2008, mais avec une décroissance exponentielle »

C'est bien, ça ! Ça signifie plus d'importance donnée à l'actu (les billets récents) et donc un peu plus de mouvement, si j'ai bien compris ?

30 octobre, 2008 10:42  
Blogger Jean Véronis a écrit...

Christophe D.> Exactement. Tu as été écouté ;-)

30 octobre, 2008 10:44  
Blogger Vicnent a écrit...

@Mathias : oui, ça peut être une bonne façon de faire. => Jean, il faudrait étalonner sur les 'n' derniers billets des 'm' premiers blogueurs pour affiner.

Christophe D : excellent :-)

• une période de prise en compte
Jean dit oui mais avec une Déc. Expo, j'ai bien peur que au bout de quelques mois en arrière (Jean dit 9 mois), les calculs ne servent plus que pour le 8 huitième chiffre après la virgule => il doit y avoir moyen d'optimiser cela.

• le poids d'un lien dépend de la position de classement de celui qui le publie : Jean dit oui, mais là aussi, il faut plaquer un modèle cohérent.

• si plusieurs liens dans le mois d'un blog vers un même autre blog : seul 1 lien est compté (anti spam) ;
C'est hyper sévère. D'autre part, ça a un effet de bord immédiat : si un sujet est évoqué par pas mal de blogueurs dans plusieurs billet chacun, ça va complétement écraser cette discussion.

• plus un billet comporte de liens vers des blogs différents dans un même billet, moins les liens de ce billet ont de valeur — au delà d'un palier de 10 liens, avec pondération progressive (anti listes & anti spam).
Cf rem de Jean, mais je reste persuaddé qu'une décroissance exponentielle est trop sévère :
- Dans le cadre de l'étude sur 9 mois, ce qui risque d'arriver, c'est que le 9ième mois compte 25000 fois moins que le mois dernier : quel intérêt ?
- au delà de 10 liens (valeur prise par Jean), la somme des liens a de moins en moins de valeur (Jean, rappel, ça sert à quoi de calculer la somme des poids des liens sortants d'un billet ?)

@Jean : Oulala comment ça chauffe en ce moment... Quel pied.

30 octobre, 2008 11:39  
Anonymous Christophe D. a écrit...

À Vicnent :

Ce n'est sans doute pas le terme exact mais pour moi, la décroissance « exponentielle » marquerait une échelle de type :
- (liens du) 1er mois : points x 256
- 2e mois : points x 128
- 3e mois : points x 64
- 4e mois : points x 32
- 5e mois : points x 16
- 6e mois : points x 8
- 7e mois : points x 4
- 8e mois : points x 2
- 9e mois : points x 1

Après, je ne sais pas… selon les tests, peut être faudrait il que cela soit plus soft ? Mais en tout cas, le fait de donner plus d'importance aux liens du mois précédent me parait pertinent dans le cadre d'un classement mensuel. Ça ne tiendrait qu'à mois, je ne tiendrais même pas compte des 8 autres mois ;-)

30 octobre, 2008 12:18  
Anonymous Christophe D. a écrit...

(D'ailleurs, rien n'empêcherait de publier chaque année un classement prenant en compte les liens de toute l'année, sans tenir compte, du coup, ces histoires de pondération. Enfin, moi je dis ça… ;-)

30 octobre, 2008 12:24  
Anonymous henri a écrit...

Très bon toutes ces formules, j'ai l'impression de retourner en prépa ;)

30 octobre, 2008 13:09  
Anonymous Mr Xhark a écrit...

Si tous les bloggers activait le dofollow nous aurions (je pense) moins de soucis de ce coté là !

cf. http://xhark.fr.nf/internet/augmentez-la-popularite-de-votre-blog-dofollow-anti-nofollow-1264

30 octobre, 2008 17:13  
Blogger Jean Véronis a écrit...

Vicnent (et Christophe)> Une décroissance exponentielle n'est pas nécessairement sévère. Tout dépend du coeff α choisi dans exp(-α x)...

Mais de toute façon le fait qu'au bout de 9 ou 10 mois le poids d'un lien se réduise à pas grand chose est voulu. Je rappelle que quand j'ai pris les choses en main le poids était de 0 au-delà de 4 mois! Prendre en compte un petit chouia pour les vieux liens n'a pas d'incidence sur les blogs du top, mais cela aide à départager les blogs qui ont très peu de liens, voire un seul. Il ne faut pas oublier que ce qui compte ce sont les valeurs relatives et non pas absolues, puisque c'est un classement. Donc avoir 0,01 pour un très vieux lien permet d'être classé mieux que quelqu'un qui a seulement 0,005 pour un lien encore plus vieux. Mais dans les deux cas c'est de la vieillerie, et ça ne doit pas entrer en compétition avec des liens "frais".

Le poids total sortant d'un billet ou d'un blog permet d'évaluer l'apport (ou la perturbation) qu'il produit sur l'ensemble du système. Dans l'idéal, un blog spammant doit avoir une contrib globale proche de 0.

31 octobre, 2008 10:26  
Blogger Jean Véronis a écrit...

Mr Xhark> Je crois que certaines plateformes imposent hélas le no-follow (c'est le cas du Monde, je crois, vous me corrigerez si je dis une bêtise).

31 octobre, 2008 10:27  
Blogger Vicnent a écrit...

deux choses :

- en quoi le poids des liens a-t-il une importance ? (question induite : pourquoi paramétrer 'α' afin que la dérivée s'annule en 10 liens)

- pas nécessairement : Certes Jean ! Mais ce 'α', nous sommes bien d'accord, il sort de nulle part, tout comme la décroissance exponentielle. Et cela, ça me gène beaucoup : un modèle est fait pour modéliser l'existant. Ce n'est pas aux blogs de suivre ton modèle. (Ce qu'on cherche, c'est à caractériser le meilleurs blogs (ou le plus populaire), pas à rechercher quels blogs collent le mieux à un modèle prédéterminé)

03 novembre, 2008 12:23  
Anonymous Christophe D. a écrit...

À Vicnent :

Puisqu'on est passé à un autre billet, je me permets, en espérant ne pas trop raconter de bêtises !

« (Ce qu'on cherche, c'est à caractériser le meilleurs blogs (ou le plus populaire) »

Je crois que Wikio cherche simplement quels sont les blogs les plus cités par les autres blogs en les regroupant par thématiques, ce qui est déjà pas mal en terme d'observation du milieu ! Le critère des rétroliens a ses défaut et ses limites (comme tout autre critère) mais une de ses qualités est de pouvoir être à peu près significatif de l'actualité du milieu (« là ou sa se passe, à un instant T »). Concernant la popularité, on se fiera plutôt aux estimations du nombre de visiteurs (entre autres critères comme les temps de visite) et concernant « qui est le meilleur », chacun se fiera à sa barre de favoris, élaborée au fil du temps selon ses propres intérêts.

Concernant le critère des rétroliens, je pense que les formules anti « spam » élaborées par Jean et par l'équipe Wikio (je n'ai rien à voir là dedant ;-) sont justement là pour modérer les liens qui ne sont pas liés au contenu «« normal »» des blogs. Quelques exemples :
• les reprises de listes de liens (par exemple : copiés/collés du classement Wikio ; liste des blogueurs qui seront présents à tel ou tel événement, etc.) -> décroissance de la valeur selon le nombre de lien d'un billet ;
• liens régulièrement postés d'un blog vers un autre parce que c'est un ami, un camarade militant, ou une marque pour laquelle un blogueur travaille -> un seul lien compté par mois d'un blog vers un autre ;
• groupe de plusieurs blogs-champignons spécialement créés pour se lier mutuellement et ainsi monter très vite dans le classement -> poids du lien dépend du classement de celui qui le publie.

Je crois que le but de ces modérations est justement de ne pas faciliter la tâche à ceux qui voudraient profiter du système pour « tromper » les lecteurs (les guillemets car cela n'est pas toujours malveillant ou volontaire). Après, il y aura toujours des gens pour s'adapter quand même et pour donner, ou se donner, plus de visibilité : c'est ce qu'on appelle le référencement (ou la promotion, sur les autres médias) et ce n'est pas vraiment une nouveauté ;-)

03 novembre, 2008 23:13  
Blogger Vicnent a écrit...

@ Chrsitophe.D : oui et non (si je puis dire :-)

Loin de moi l'idée d'exprimer la pensée que Jean fait du mauvais boulot ou quoi ou qu'est-ce.

J'essaie juste de dire que :
1/ oui, Jean fait un très bon boulot, expliqué, qui fait sens.
2/ non, je ne pense pas que nous partons dans la bonne direction. Dire que l'on est en train de mettre des cataplasmes en Or sur une jambe de bois serait trop sévère : je pense juste que nous ne regardons pas dans la bonne direction : on ne dois pas construire un filtre et ensuite faire passer les blogs dedans ; Il faut modéliser la notion de popularité à travers des indicateurs pertinents, mesurables, ... et admettre que le classement qui en sortira sera le bon.

Pour une fois, je suis heureux de dire que j'ai critique facile (mais je la justifie), mais que j'ai proposé un modèle en échange. (Rappel : Billet I, II et III et le modèle)

D'ailleurs, à lire mon dernier billet, tu verras que je suis en train de l'adapter pour non pas classer mais "ranker" le niveau des pilotes en WRC : Le Loeb de 2005 est il oui ou non "plus fort" que le Loeb de 2008 ? J'en suis à finir de réaliser un parser pour aspirer l'intégralité des résultats de toutes les courses de WRC depuis 1973... Ensuite, une fois dans la BdD, je ferai mouliner mon algo...

Il est évident, quand on regarde les classements, que Loeb est plus fort que n'importe qui en 2005, et en 2008. Mais son niveau intrinséque, à lui, il a évolué comment ?

Remplace "Saison de WRC" par "blogosphère" et le tour est joué...

04 novembre, 2008 17:44  
Anonymous Christophe D. a écrit...

À Vicnent :

Ouep, je suis tes billets avec intérêt depuis quelques temps et je compte bien sur cette expérience WRC pour mieux comprendre ton point de vue sur le sujet (car je n'ai toujours pas compris le 3e billet de la série que tu as publié — le fait que je suis une bille en algèbre y est surement pour quelque chose ;-)

04 novembre, 2008 18:33  
Blogger Vicnent a écrit...

@ Christophe.D : je te fais le pitch de la partie IV que je ne suis pas sûr d'écrire, suis très pris en ce moment...

1/ J'associe, à un niveau, une performance attendue.
2/ Une fois la performance réalisée, je la compare à la performance attendue.
3/ en fonction de ce résultat, je modifie le niveau. (et c'est reparti pour un tour)

Initialement, afin de démarrer l'algo, on part du principe que
a) tout le monde a le même niveau.
b) la première performance réalisée est le nouveau niveau.

et tout repose Pf(Ba/Bc) = ... et les différents et surtout derniers commentaires de mon billet III montrent que j'ai mal dû m'exprimer... (Pourtant, utiliser une loi logistique pour ça, c'est "naturel" : lire sur la régression logistique - LOGIT, modèle continu)

04 novembre, 2008 19:15  
Anonymous blh a écrit...

Je pense que l'on pourrait trouver d'autres formules plus "précises" de façons telles qu'elles représentent encore mieux la réalité de la présence des blogs et sites de la blogosphère.
par contre, il me semble que le contenu des ces dits blogs soit n'entre pas en jeu dans les classements(la qualité est très difficile à juger), soit au contraire est primordial et là, autre découverte, quasiment tous ces blogs ont une même tendance socialo-politico- ...
ceci expliquant à mon avis, le bien fondé des liens de toute part. :o)

07 novembre, 2008 16:29  

Enregistrer un commentaire