Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

samedi, octobre 04, 2008

Blogs: Dans les entrailles du classement Wikio (2)

Bon, Professeur Aixtal, le pastis, les olives, c'est bien gentil tout ça, mais les lecteurs sont restés un peu sur leur faim à la lecture de notre premier entretien. Leurs commentaires montrent qu'ils aimeraient aller un peu plus dans les détails...

Que voulez-vous, après le pastis il y a eu la partie de boules, et puis la sieste... Et de façon plus prosaïque, la clôture finale du classement français. Il y a déjà eu quelques "fuites", par exemple le classement Science chez l'excellent Tom Roud (aïe aïe aïe... ça ne me plaît guère), le classement Marketing chez Olivier Mermet (il ne faisait pas encore partie de mes lectures, mais je lui fais un salut amical), ou le classement Musique chez Le Hiboo (qui fait une belle montée).

L'accueil semble plutôt positif pour l'instant...

Oui, je croise les doigts. Il y a à mon avis un beau renouvellement avec des blogs qui sortent des profondeurs du classement, par exemple Le Choix de Mlle Eddie en Musique, qui le mérite bien comme le souligne Le Hiboo. Dans le top 100 général je vois également une belle avancée des blogs littéraires (par exemple Chez Clarabel, Tiers Livre ou Lily et ses livres). Evidemment, la High-Tech se taille toujours la part du lion, mais même là ça se renouvelle. Les dés sont jetés. On verra lundi si j'ai droit à un concert de casseroles... Il y aura certainement quelques bugs (Le Hiboo, en signale déjà un : La Blogothèque est passée à la trappe...). On va corriger tout ça au fur et à mesure (n'hésitez pas à signaler les problèmes !). Il y a aura certainement des mises à jour successives du classement. C'est difficile, comme vous pouvez l'imaginer, mais j'ai essayé de faire un travail honnête, au mieux de la techno (et des forces humaines...) dont on dispose. J'espère que les blogueurs le comprendront !

Revenons au spam. A la fin de notre dernier entretien, je vous faisais remarquer que si Wikio s'appuie seulement sur le nombre de backlinks, le classement paraît bien facile à spammer ou du moins à manipuler...

Pas tant que ça. Le classement s'appuie seulement sur les backlinks, mais je n'ai jamais dit qu'on les comptait tous, ni qu'ils avaient tous la même valeur !

Ah ah ! Voilà qui devient intéressant. Nous vous écoutons...

Eh bien tout d'abord, seuls les backlinks de billet à billet sont pris en compte.

Vous voulez dire que les liens qui pointent vers la page d'accueil d'un blog ne sont pas comptabilisés ?

Non. A dire vrai ils sont pris en compte uniquement dans un cas très marginal : lorsque deux blogs sont ex aequo, le nombre de liens vers la page d'accueil sert à les départager.

Et s'ils sont encore ex aequo après ça ?

Alors c'est le plus ancien dans la base Wikio qui est classé devant l'autre. C'est un peu arbitraire, mais après tout on peut dire que celui qui a été repéré ou soumis le premier peut avoir une petite "prime" de notoriété. Il y a peut-être d'autres façons de faire, avec d'autres critères, mais c'est une réflexion à mener tranquillement. Ca n'affecte pas le haut du classement de toute manière, où c'est bien difficile d'être ex aequo. Ca concerne surtout les blogs qui ont très peu de rétroliens.

Ca ne semble pas très bon d'ignorer les liens vers la page d'accueil, car c'est une façon légitime de montrer son intérêt pour un autre blog...

Oui, c'est vrai. Mais je vous décris l'existant... C'est une règle qui a été mise en place bien avant mon arrivée, pour lutter contre les "chaînes". Le phénomène s'est un peu calmé ces derniers temps, mais vous vous souvenez certainement de ce jeu qui avait pris parfois de belles proportions... Je cite 12 potes, et ainsi de suite. Effectivement, si on ne fait rien contre ces chaînes, elles suffisent à faire voler le classement en éclats. J'ai trouvé d'autres façons de faire, donc dès que possible, peut-être dès le mois prochain, je proposerai à Wikio de mettre en place un autre système anti-chaînes et les liens vers les pages d'accueil pourront donc être normalement comptabilisés. Rome ne s'est pas fait en un jour...

Vous disiez qu'il y a d'autres types de liens qui sont ignorés ?

Pas tout à fait. Mais certains liens multiples ne sont comptés qu'une fois. Comme je l'expliquais dans un précédent billet, les liens sont comptabilisés sur une base mensuelle (avec un poids plus important pour les billets du dernier mois, et une valeur dégressive au fur et à mesure qu'on remonte dans le temps). Si dans le même mois le blog A envoie 50 liens vers le blog B, un seul est pris en compte. C'est peut-être un peu radical, mais ça limite énormément les "effets de clique", et le spam bien sûr. Il faudra peut-être là aussi expérimenter, trouver des réglages plus fins, mais pour l'instant cela ne marche pas si mal (et ça a aussi l'intérêt de ne pas favoriser trop les énormes "blogs industriels" genre Morandini, qui par leur simple volume attirent des quantités de liens en provenance des mêmes lecteurs).

Vous sembliez dire que tous les liens n'ont pas le même poids ?

Non. Le principe est analogue au PageRank de Google. Un lien qui vous arrive d'un blog classé très haut vaut plus qu'un lien qui vous arrive d'un blog classé 20000è. C'est un mécanisme qui est parfois controversé (voir par exemple le commentaire de Narvic sur notre précédent entretien, et ma réponse). Mais je ne vois pas pour l'instant de façon de procéder autrement. Donner le même poids à tous les liens revient à faire une bouillie pour chat générale (n'oubliez pas que le principal usage du classement est d'améliorer la lisibilité et la navigation) -- et c'est bien entendu la porte ouverte au spam massif. Si Google n'a jamais fondamentalement changé ce principe en 10 ans, ce n'est pas pour rien. Je ne suis pas sûr que ce soit si anti-démocratique, car, comme je le disais à Narvic, ceux qui sont à l'heure actuelle en haut du classement ont été... élus ! Ce sont vos "voix", c'est-à-dire vos liens qui les y ont portés. On peut donc voir dans ce mécanisme une sorte de démocratie représentative, ou de système de "grands électeurs"... On peut réfléchir à des alternatives (c'est d'ailleurs passionnant), mais il faudra de toute façon des régulations, comme dans toute démocratie. Le principe "un lien = ne voix" ne peut pas s'appliquer de façon directe.

Vous pouvez nous donner la formule magique qui donne la valeur des liens ?

Sans aucun problème. Comme je le disais dans un précédent billet, les blogs ont chez Wikio un "poids" qui résulte directement du classement, de façon très analogue au Page Rank de Google : 7 pour le top 100, 6 pour le top 1000, 5 pour le top 5000 et ainsi de suite. Ce poids est utilisé pour la présentation des actualités sur le site. Les sites de poids le plus fort passent avant ceux de poids le moins fort (à date égale, évidemment).

Et c'est également ce poids qui sert à calculer la valeur des rétroliens, selon une formule assez simple :

score = 1 + (0.45 * (poids - 5.0))

Cela veut simplement dire qu'un lien provenant d'un blog de poids 5 (top 5000) a une valeur de 1. Un lien provenant d'un blog du top 1000 a une valeur de 1,45, un lien provenant d'un blog du top 100 a une valeur de 1,9. Vous voyez que ce ne sont pas non plus des valeurs qui doivent faire crier à l'oligarchie !

On pose souvent à Wikio d'autres questions sur les liens pris en compte. Par exemple, est-ce que les liens Feedburner sont compabilisés ?

Oui, aucun problème.

Ceux en provenance des médias ?

Oui, bien sûr ! Cela fait certainement partie de la notoriété ou de l' "influence" (mauvais terme on est tous d'accord) que d'être cité par Le Monde ou Le Figaro. Sans compter que la ligne entre médias et blogs est de plus en plus difficile à établir (je pense à de "nouveaux médias" comme Rue89 par exemple).

Les liens en provenance de sites étrangers ?

Oui aussi. Avec deux petits bémols... Le premier est qu'il faut qu'il soit dans la base Wikio, cela paraît être un peu une lapalissade. Il y a eu quelques sites au Japon qui citaient mon blog, mais pour l'instant Wikio couvre le français, l'anglais, l'espagnol, l'italien et l'allemand. La base n'est évidemment pas exhaustive (travail de Titan, et je ne suis d'ailleurs pas sûr que ce soit désirable à l'arrivée : il vaut sans doute mieux privilégier la qualité que la quantité), mais la plupart les blogs importants devraient y être.

Le deuxième bémol, c'est qu'il y a une logique de site par pays sur Wikio : France, UK, US, Allemagne, Espagne, Italie. Il n'y a pas pour l'instant de site belge, suisse ou canadien par exemple. Ce n'est pas de la xénophobie, mais il ne serait pas très compréhensible que le n° 1 des blogs politiques français soit belge, suisse ou canadien [edit : soit un site consacré à la politique intérieure belge, suisse ou canadienne -- ma formulation était mauvaise, voir commentaires]... Idem avec les pays d'Amérique latine pour l'espagnol, et, ce qui est sans doute le plus difficile entre US et UK. Donc pour l'instant, les liens en provenance de sites étrangers sont pris en compte, mais avec un poids faible (0,1). Je sais : ce n'est pas satisfaisant. Il faut être plus fin que ça. Ca fait partie de choses qui sont sur mon agenda.

Merci pour toutes ces informations, qui vont certainement faire phosphorer pas mal de blogueurs ! Je crois que nous avons fait le tour de pas mal de choses...

Les internautes pourront toujours poser des questions en commentaire ! La discussion est ouverte...

Une dernière question tout de même. Il y a eu des suspicions de "bidouille", de "coup de pouce aux copains". Qu'en pensez-vous ?

Du pur fantasme. Bien entendu comme dans toute théorie du complot, ceux qui ne veulent pas le croire ne le croiront jamais... Je ne peux que vous donner ma parole. J'ai examiné le moteur sous toutes ses coutures, et aucune porte ne m'a été fermée par les équipes de Wikio. J'ai le trousseau avec toutes les clés. Je n'irais pas mettre en péril ma réputation d'expert et d'universitaire, qui est, je crois, jusqu'ici respectée, pour couvrir des "bidouilles", comme vous dites.

Il y a simplement 1) des réglages et mécanismes qui peuvent être discutés (c'est le cas) mais qui en tout cas sont transparents 2) des bugs (que celui qui n'a jamais buggué...) et 3) des limites dues à la compostion de la base de données. Si certaines sources ne sont pas encore dans la base, il est évident que leur liens sortants ne seront pas comptabilisés. Cela fait d'ailleurs partie des tout prochains chantiers que j'ai conseillés à Wikio : accroître le nombre de sources, sans dégrader la qualité... Pas simple.

Pas de petits réglages à la main, donc ?

Aucun. La seule intervention que les documentalistes peuvent faire c'est "dépondérer" une source, en lui affectant un poids de 2, 1 ou 0, dans le cas de spammeurs qui n'auraient pas été détectés par les filtres anti-spam. Dans ce cas, les rétroliens provenant d'une telle source ne sont pas comptabilisés (score = 0 pour toutes les sources de poids ≤ 2).

Merci encore, donc. Ca tombe bien, c'est bientôt l'heure du pastis, non ?

Vous allez me faire passer pour un alcolo. Non, il fait beau et aujourd'hui ce sera plutôt équitation. Tiens, voilà une catégorie qui n'existe pas dans le classement Wikio...

Libellés : ,


26 Commentaires:

Blogger Scheiro a écrit...

>Ce n'est pas de la xénophobie, mais il ne serait pas très compréhensible que le n° 1 des blogs politiques français soit belge, suisse ou canadien...

Ha, bon et pour quelle raison ? Est-ce qu'un blogger belge, luxembourgeois ou suisse ne pourrait pas produire une excellente analyse de la vie politique franco-française, et, de ce fait, grimper au sommet du classement Wikio ? Ou est-ce simplement le fait de ne pas picoler de pastis qui ferait qu'il ne peut pas faire partie du troupeau ?

04 octobre, 2008 12:49  
Anonymous Christophe Berge a écrit...

Il me semble croiser quelques blogs canadiens francophones sur Wikio et certains ne sont pas trop mal classés, Sont-ils donc pondéré à la baisse ? Un blog canadien tenu par un français expatrié bloguant sur la politique française ne pourrait-il pas prétendre à la première place du classement politique ? Encore faudrait-il connaître la nationalité et le pays d’où le blog est tenu, ce qui est rarement renseigné par les blogueurs.

Il est vrai qu’une partie des blogs ne sont plus des blogs à part entière. Il n’y a d’ailleurs pas vraiment de définition possible pour le mot/phénomène blog. Celui-ci doit-il être amateur (dans ce cas Presse-citron est-il encore un blog) ? Celui-ci doit-il être tenu par un tout petit nombre de rédacteurs ? Ne pas lié à une entreprise, simplement en tant qu’outil marketing de celle-ci ? La frontière est de plus en plus difficile à mettre entre un blog et un site de média. Par exemple le blog de Jean-Marc Morandini est-il vraiment un blog, ou le site web de ses émissions ? Et que dire aussi sur les billets publi-redactionnels rédigés par les blogueurs contre des deniers. Doivent-ils être quand même être pris en compte pour calcul du classement ? C’est en tout bien là-dessus que doivent un peu compter les agences qui les vendent. D’ailleurs celles-ci utilisent des outils comme le classement Wikio pour qualifier « l’influence » du blogueur (pour ce cas là le mot influence s’applique très bien, comme quoi …).

Sur Wikio, que ce soit sur les pages d’accueil des catégories et dans le cas d’une recherche, les résultats sont donc pondérés par le Wikio Rank. J’espère quand même que cette pondération n’agit que modestement sur le résultat obtenu. On pourrait prendre le cas d’un prix Nobel d’économie qui boguerait deux fois par an (de quoi avoir ses billets déclassés rapidement sur les 9 mois glissants), qui publie un billet courant septembre sur la crise financière (en admettant que cet article est d’une qualité à la mesure de la renommé de son auteur). Au même moment des billets sur la crise financière sont postés, avec des titres sémantiquement équivalents, par les 5 premiers du classement général et les 10 premiers du classement Economie. Aux niveaux des résultats, le blog de notre cher prix Nobel sera t-il classé en tête de gondole dans la liste ou simplement collé quasi anonymement dans la sous-liste des billets équivalents. Alors évidement son dernier billet, qui sera probablement bien linké, lui permettra de monté au classement d’octobre mais sa nouvelle pondération ne viendra pas beaucoup l’aider si son prochain arrive quelques mois plus tard (j’espère être bien clair ;-).

Il y a aussi une question qui me trotte dans la tête depuis quelque temps. Sur les 58275 blogs classés par Wikio, combiens d’entre eux ont-ils de backlink vers leurs billets ? Si par exemple seulement quelques milliers d’entre eux ont des blacklink comment donner un rank aux dizaines de milliers qui restent seuls au monde. Cela fait beaucoup ex-æquo à classer entre eux avec le nombre de liens vers les pages d’accueil des blogs. Et encore probablement des milliers d’entre eux n’ont peut-être aucun lien vers leurs pages principales.

04 octobre, 2008 12:50  
Blogger Philippe a écrit...

Bonjour Jean,

Une question de détail tout d'abord : combien valent les liens venant des sites de médias, ou bien de blogs qui ne figurent pas dans le classement Wikio ? Est-ce que Wikio garde pour ses calculs un Top de toutes les sources qu'il recense, et ne publie qu'une liste restreinte ?

Et je reste un peu sur ma faim à propos des classements thématiques : le thème du blog est-il déterminé automatiquement (si c'est le cas, je suis bien curieux de savoir ce qui est utilisé : méthodes de TAL ou bien analyse du réseau des backlinks) ? Est-ce que pour chaque classement thématique, les liens considérés sont uniquement ceux entre blogs de la thématique, ou bien tous les liens ? Mais peut-être que tout ceci est simplement l'objet du troisième billet de la série ;)... ou d'améliorations futures.

04 octobre, 2008 15:24  
Blogger Jean-no a écrit...

La transparence c'est bien, mais est-ce que donner le mode d'emploi précis ne risque pas de rendre le système facile à détourner, s'il ne l'est déjà ?

04 octobre, 2008 15:41  
Blogger Jean Véronis a écrit...

Scheiro> Est-ce qu'un blogger belge, luxembourgeois ou suisse ne pourrait pas produire une excellente analyse de la vie politique franco-française, et, de ce fait, grimper au sommet du classement Wikio ? -- Si, bien sûr. Il n'y a d'ailleurs aucune discrimination, ni aucune sous-pondération dans ce sens. Comme le fait remarquer Christophe juste au-dessous, il y a d'ailleurs des blogs belges ou canadiens dans le classement. C'est dans l'autre sens qu'une sous-pondération s'applique. Ma formulation n'est peut-être donc pas des plus heureuses. En première approximation, on peut supposer qu'un blog (éventuellement français d'ailleurs) n'est cité presque que par des blogs étrangers, il est probablement d'un intérêt principalement non hexagonal. c'est un peu rustique, je le reconnais et le dis moi-même dans le billet. C'est un des points à améliorer. Mais il faut trouver un mécanisme qui ne mette pas en haut du classement politique francophone des discussions liées principalement à la politique intérieure belge --et vice-versa : si Wikio ouvre un jour un site belge, le plus pertinent n'est peut-être pas faire ressortir en premier les soucis internes au PS français...

04 octobre, 2008 16:12  
Blogger Jean-no a écrit...

Un élément de réflexion : la justice française étend sa compétence à tous les sites Internet qui semblent ostensiblement destinés à un public français. C'est à dire que je ne peux pas porter plainte au tribunal de grande instance de Paris pour diffamation sur un blog québécois rédigé en français mais ayant pour sujet la vie politique dans la ville de Montréal (si j'ai compris l'esprit de la jurisprudence à ce sujet)

04 octobre, 2008 16:19  
Blogger Jean Véronis a écrit...

Jean-No> Donc ça va dans le sens de la pondération actuelle qui évalue (grossièrement) le public visé par la provenance des rétroliens...

04 octobre, 2008 16:33  
Blogger Jean Véronis a écrit...

Christophe Berge> "blogs canadiens francophones sur Wikio et certains ne sont pas trop mal classés" -- effectivement ! Ma formulation était malheureuse, j'ai corrigé dans le texte. Comme je l'ai dit en commentaire ci-dessus, il n'y a aucune sous-pondération sur blog lui-même, seulement de son "public" (par la provenance des rétroliens). Si un site québécois parle de high-tech par exemple, il y a toutes les chances qu'il soit cité par des pays francophones assez indifférenciés et donc sa localisation n'influera strictement pas. A l'inverse un blog sur la politique québécoise a toute les chances d'être cité surtout par les québécois et aura plus de mal à émerger dans le classement français (mais il sera bien sûr classé). Et Tu as tout à fait raison, la localisation n'est pas facile à connaître. Ce sont les documentalistes de Wikio qui ajoutent généralement cette information, dans la mesure où ils le peuvent.

"une partie des blogs ne sont plus des blogs à part entière" -- oui, ça mérite réflexion approfondie. je n'ai pas voulu tout chambouler, mais il est certain que Morandini ou Generation MP3 ne jouent pas dans la même catégorie que les blogueurs individuels. Leur simple volume écrase quelque peu les autres ! Que faire ? Où mettre la limite ? Pas facile -- j'entends déjà les concerts de klaxons ? Une autre optique serait de considérer qu'il n'y a plus à faire de différence entre types de sources... Audacieux, mais peut-être plus réaliste ? Dans ce cas il faudra peut-être pondérer le nombre de rétroliens par le volume de billets publiés ! On aurait des surprises. Morandini (ou Le Monde) n'ont peut-être pas plus de liens par billet que bien des blogs individuels... Ce type de pondération résoudrait peut-être en partie le cas de ton prix Nobel à volume de publication faible.

"Sur les 58275 blogs classés par Wikio, combiens d’entre eux ont-ils de backlink vers leurs billets ?" -- il faudrait faire le calcul, mais il y a des milliers de blogs orphelins c'est certain. Je ne sais pas comment les classer. A l'heure actuelle, c'est leur ancienneté qui les différencie... C'est un critère comme un autre. Mais sont-ils classables ?

04 octobre, 2008 16:46  
Blogger Jean-no a écrit...

Quoi, Morandini va avoir le prix Nobel ?
(ok, je sors)

04 octobre, 2008 16:48  
Blogger Jean Véronis a écrit...

Philippe> combien valent les liens venant des sites de médias ? -- Le système est le même avec les médias, qui ont aussi un poids 7, 6, 5 etc. La seule différence est que ces poids ont été affectés à la main par les documentalistes au fil des mois (Le Monde, Le Figaro = 7 etc.). Ce n'est pas idéal, et difficile à maintenir. A terme, j'aimerais qu'il y ait aussi un "classement médias" sur le même principe que pour les blogs, ce qui permettrait d'avoir une affectation des poids automatique en fonction des liens qu'ils reçoivent.

ou bien de blogs qui ne figurent pas dans le classement Wikio ? -- Tous les blogs qui sont dans l'index sont aussi dans le classement Wikio, à l'exception d'un ou deux cas comme Fred Cavazza qui ont demandé à ne pas figurer dans le classement. Mais ce n'est qu'un problème d'affichage, les calculs se font exactement pareil.

Est-ce que Wikio garde pour ses calculs un Top de toutes les sources qu'il recense, et ne publie qu'une liste restreinte ? -- je ne comprends pas bien la question...

Et je reste un peu sur ma faim à propos des classements thématiques : -- ah voilà ! ça m'étonnait que personne n'en parle. C'est une des plus grandes difficultés...

le thème du blog est-il déterminé automatiquement -- par défaut oui, mais les documentalistes peuvent aussi affecter des blogs à des catégories.

(si c'est le cas, je suis bien curieux de savoir ce qui est utilisé : méthodes de TAL ou bien analyse du réseau des backlinks) ? -- méthodes de TAL, mais c'est très imparfait, et c'est un des points sur lesquels il faut que je me penche (je n'ai pas encore eu le temps...!). Et effectivement, je crois qu'il faudrait aussi exploiter le réseau de backlinks. Si un blog est cité à 99% par des blogs Gastronomie, il y a peu de chances qu'il parle de Sport !

Est-ce que pour chaque classement thématique, les liens considérés sont uniquement ceux entre blogs de la thématique, ou bien tous les liens ? -- Le calcul de score se fait sans aucune prise en compte de la thématique. Ce n'est pas idéal. Mais savoir qui faire exactement (en gros quel poids donner aux lien intra-thématique par rapport aux liens inter-thématiques) est un sujet de recherche en soi !

Mais peut-être que tout ceci est simplement l'objet du troisième billet de la série ;)... ou d'améliorations futures. -- Il est clair que c'est tout un champ de recherches qui s'ouvre (vous comprenez pourquoi je suis passionné par Wikio ?) et que nous allons être amenés à en reparler !

04 octobre, 2008 17:46  
Blogger Jean Véronis a écrit...

Jean-No> "La transparence c'est bien, mais est-ce que donner le mode d'emploi précis ne risque pas de rendre le système facile à détourner, s'il ne l'est déjà ?" -- Je me suis évidemment posé la question... J'ai finalement conclu qu'il y avait plus d'inconvénients à avoir un système opaque, qui alimente les rumeurs, voir les rancoeurs. Il est certain que c'est l'histoire du glaive et du bouclier. Si le glaive devient plus tranchant, il faut que le bouclier se renforce, et ainsi de suite... Donc il va falloir surveiller de près les procédures anti-spam et anti-manipulations, et peut-être revoir les paramètres et réglage au fil des semaines. A suivre !

04 octobre, 2008 17:49  
Blogger Scheiro a écrit...

Oui, je comprends mieux maintenant, suite à vos précisions, Jean, car votre formulation était pour le moins assez ambiguë.
Une question au sujet des bloggers inscrits sur Wikio [inscrits dont je fait partie]: qu'est-ce qui pousse les bloggers, qui ne tirent aucun revenus de leur blog, à se livrer à de tels calculs, afin de se positionner au plus prêt du toprank [échelon le plus élevé, en fr.] de Wikio ou autre ? Mis à part la culture de son champ narcissique, le plaisir à labourer son ego boursouflé, je ne vois aucun intérêt à se situer au plus haut du classement. La plupart des bloggers "humanistes" français se plaignent de la société dans laquelle ils vivent, de cette compétition entre individus que le capitalisme exacerbe, et ce sont eux que l'on retrouve en train de se "tirer la bourre" sur Wikio, affichant, de manière faussement modeste, leurs stats, pageranks et classement sur Wikio. Enfin... il faut croire que ces bloggers "humanistes" ne sont pas à une contradictions près. A moins, qu'il y ait une meilleure explication à ce phénomène. Vous en savez certainement plus que moi.
Et merci, pour votre patience, Jean, c'est la dernière fois que je trolle ici.
Bonne soirée...

04 octobre, 2008 19:20  
Blogger Jean Véronis a écrit...

Scheiro> L'ego est le moteur de bien des comportements, y compris des "modestes" humanistes... Pour certains c'est aussi une question de gros sous (ceux qui monétisent leur blog, ou bien qui s'en servent comme carte de visite).

Rien de nouveau sous le soleil... Tout est vanité ;-)

04 octobre, 2008 19:23  
Blogger olivier a écrit...

Je n'ai pas eu le courage de lire l'intégralité des commentaires de ce billet, vu qu'il est minuit chez moi, mais en tant que Français expatrié au Canada, je me sentirai relativement offensé, si je devais quitter le classement Français pour cause d'immigration :D

Mon blog s'adresse aux deux publics, Québécois et Français, et je ne vois pas pourquoi je devrais "subir" ce fait, dans le classement... Et si la diversité de provenance des liens était un facteur de qualité ?

Sinon, Jean, je te retourne avec plaisir le salut amical !

05 octobre, 2008 05:51  
Anonymous JF a écrit...

Scheiro: "qu'est-ce qui pousse les bloggers, qui ne tirent aucun revenus de leur blog, à se livrer à de tels calculs, afin de se positionner au plus prêt du toprank"

Pour ma part, mon site doit être dans les profondeurs du classement, entre le 42042e et le 42043e, on ne m'accusera donc pas de prêcher pour ma chapelle. Mais pour donner une réponse très personelle : je nes erais pas contre avoir un peu plus d'audience, et être un peu plus lu. De ce point de vue, un classement quel qu'il soit peut sans doute contribuer à me donner un petit coup de pouce, un peu de visibilité, à m'attirer des lecteurs.

Et pourquoi donc? A cause de mon ego boursouflé? Possible, encore que je n'ai pas l'impression que ("je suis modeste, moi, monsieur, et je m'en vante !" :-) ). Je dirais, simplement parce que quand on écrit, c'est pas pour parler à son écran, c'est pour être lu.

Quand je passe deux heures à écrire un article sur mon site, en prenant le temps de chercher des photos et des documents, et que je vois un mois après qu'il a été lu par 12 personnes... Ben, ça me déprime un peu, c'était bien la peine de faire ces efforts (c'est un peu comme quand on se casse le *** à préparer un cours et que 28 des 35 étudiants le sèchent...).

D'autre part, quand j'ai écrit mon article, j'aimerais bien savoir ce que les gens en pensent, avoir des commentaires, des réponses, des qustions, peut-être des idées d'autres choses à écrire... Là aussi, quelques visites de plus, ce serait sympa.

Après, je me moue un peu d'être 101e ou 123e, et je ne pleurerais pas si je perds 5 places. Mais c'est clair que être dans le top 100 ou le top 1000, ça me permettrait sans doute de voir un peu plus de monde.

JF

(et du coup, paf, je colle un lien vers chez moi depuis le blog de Véronis : ça va me faire 300 visites en un coup, ça ! :-) )

06 octobre, 2008 09:22  
Blogger Daniel a écrit...

J'ai changé l'url de mon blog courant juillet

Est ce que l'algorithme prend en compte en meme temps de l'ancienne url pour les backlinks avant migration et de la nouvelle pour les plus récents ?

06 octobre, 2008 09:42  
Blogger Jean Véronis a écrit...

Daniel> C'est un gros problème... Par fois les algorithmes peuvent suivre (s'il y a redirection pr exemple), sinon évidemment ça foire... C'est pour ça que les documentalistes de Wikio passent du temps tous les mois à vérifier le classement.

Pour signaler ce genre de changement il faut écrire à info@wikio.fr.

06 octobre, 2008 10:35  
Anonymous F Bon a écrit...

je découvre via Affordance l'alchimie qui préside à ce classement très opaque pour nous, dans la mesure où les frontières des catégories sont très larges (par exemple, en littérature contemporaine, Lignes de Fuite et Libr-Critique ou Poezibao ou Liminaire sont des sites très prescripteurs dans milieu "pro" édition librairie etc, mais nous croisons peu les chemins de blogs proposant recensions de livres – de même, mon Tiers Livre a forte interférence avec blogs comme teXtes, Affordance, Actualité de la recherche en images etc..., sans que ces analogies décloisonnantes puissent être repérables dans Wikio...

j'avais une question très naïve : dans la mesure où mon site comporte plusieurs bases de données, je suppose que vous éliminez assez facilement les liens de l'une à l'autre, mais est-il possible d'enregistrer l'url globale du site, et non de la base de données spip du blog principal ?

en tout cas, commentaire "du bon du foie" comme dit Rabelais, l'esprit du web est ailleurs, et aucun enjeu de pub ou autre là-dessus, juste curiosité sur la machine web elle-même, et cet indicateur fait désormais partie du paysage!

06 octobre, 2008 16:24  
Anonymous L'hérétique a écrit...

Bon, j'ai lu tout votre billet. Il me semble très clair. Je trouve qu'il y a beaucoup de bon sens de votre part, notamment pour lutter contre les chaînes. Toutefois, elles demeurent contournables tant il est aisé de citer les billets des copains à défaut des sites stricto-sensu.

Considérez-vous, à ce sujet, les liens de google actualités ou tout autre banque de données d'actualités équivalente comme des liens médias ?

07 octobre, 2008 00:02  
Blogger Paul a écrit...

Bonsoir,

Pourquoi ne pas adopter quelque chose comme

score = (1 + (0.45 * (poids - 5.0)))/ ( Nombre de liens dans la page)

parce que si l'on cite 10000 pages, elles ont bien entendu moins d'intérêt individuellement.

08 octobre, 2008 18:18  
Blogger Jean Véronis a écrit...

Paul> Les grands esprits se rencontrent : c'est ce que j'ai prévu pour lutter contre les chaînes ;-)

08 octobre, 2008 18:19  
Anonymous ElGaub a écrit...

Il ya un point qui me tarabuste, -c'est au sujet des flux RSS qui tronquent les billets- et comme je ne parviens pas à trouver la réponse je me permet de poser la question ici.
Ce sont donc les liens à l'intérieur des billets qui impactent le classement. Mais comment wikio lit il ces billets ? A priori c'est par le flux RSS, mais si le flux d'un blog tronque ses billets (comme c'est souvent le cas) comment cela se passe t'il? Wikio vient-il lire le billet complet sur le blog ou bien ne comptabilise t'il aucun lien (sauf s'il ya un lien dans les trois premières phrases, évidemment) ?

15 octobre, 2008 21:22  
Blogger Jean Véronis a écrit...

Elgub> Wikio se base principalement sur les flux RSS, et il est vrai que ceux-ci sont parfois partiels, ce qui peut donc entraîner une perte de liens. Conscient de ce problème j'ai demandé aux développeurs de Wikio de faire une estimation du nombre de blogs qui publient le texte complet dans le flux par rapport à ceux qui publient uniquement un résumé. Il faudrait affiner ces statistiques, mais il semblerait que la majorité des blogs publient des flux complets (environ 80%). Il y a donc effectivement quelques liens qui se perdent, mais on peut sans doute considérer qu'ils sont répartis de façon assez aléatoire et donc n'impactent le classement que de façon marginale.

Pour récupérer la totalité des liens, Wikio a essayé de mettre en place un système de capture en crawlant la page Web complète du billet, mais pour l'instant ce système est expérimental. La difficulté de la tâche est immense, à cause du grand nombre de plateformes de blogs avec des formats différents et souvent de nombreux "templates" sur la même plateforme, sans parler des blogs au format unique et bricolé...

Technorati, par exemple, se base sur l'analyse complète de la page, mais ramène un peu n'importe quoi : blogrolls, liens de gadgets variés, etc. Le résultat est encore moins fiable qu'avec les seuls flux RSS...

16 octobre, 2008 08:47  
Anonymous ElGaub a écrit...

Merci pour cette explication !
Une autre chose me tarabuste (oui je sais j'abuse, mais je vous promet, c'est la dernière, après j'arrête). J'ai un petit blog peinard et non référencé par wikio. Lorsque dans un billet je linke des blogs qui eux sont référencés ; est-ce que j'influe sur le classement de ces blogs?
A priori la réponse semble être "non" (seuls les flux référéncés, donc analysés semblent pouvoir définir le classement).
Ma question sous-jacente est : faut-il obligatoirement faire partie des blogs référéncés par wikio pour influer sur le classement wikio ?
Autrement dit, si des lecteurs veulent soutenir un blog (féministe par exemple :o)) encore faudrait-il que les blogs du lectorat soient eux-même référéncés sur wikio... non?

16 octobre, 2008 11:10  
Blogger Jean Véronis a écrit...

ElGaub> Votre analyse est correcte : ne sont comptés que les liens partant de blogs (ou médias) référencés dans Wikio.

16 octobre, 2008 11:15  
OpenID xhark a écrit...

C'est très appréciable d'avoir de telles explications sur les rouages de Wikio. En effet, tout pourrait rester secret, comme chez Google (ou presque). Cette transparence permettra au mauvais joueurs de ne pas avoir de discours hypocrite :)

07 novembre, 2008 11:57  

Enregistrer un commentaire