Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

lundi, décembre 14, 2009

Wikio: 300 000 blogs francophones

Après l'Espagne, c'est Wikio.fr qui vient de dépasser les 300 000 sources (environ 302 000 blogs et 10 000 médias). L'opération était assez délicate sur le français, car cette langue est bien moins présente sur le Web que l'espagnol (et que l'anglais, bien évidemment). Le Web est comme un immense lac : ses eaux sont pures en surface, mais plus on descend, plus on ramène de la vase, et des bestioles bien peu ragoûtantes remplacent les jolis petits poissons argentés... Car il ne s'agit pas d'intégrer tout et n'importe quoi pour faire du chiffre (sinon, il suffirait d'absorber quelques millions de Skyblogs, et le tout serait joué...). J'ai donc encore dû affiner mes algos. On ne s'ennuie jamais sur le Web: en plus du porn et du spam habituels (médicaments, etc.), j'ai constaté cette fois-ci par l'émergence du spam sur les jeux en ligne, qui épargnait relativement le français jusqu'à présent (j'en avais trouvé assez peu au mois de mars). Mais il est évident que la fin annoncée du monopole de la Française des Jeux a déjà donné des idées aux spammeurs...

Au total, tous pays confondus, le million de blogs est largement dépassé. La base Wikio contient près de 1 200 000 sources, dont 30 000 médias. Le diagramme ci-dessous montre l'évolution au cours de l'année. Les sauts successifs correspondent à mes différentes campagnes de sourcing pour chacune des langues : le nombre de sources a été multiplié par plus de 6 depuis le début 2009.


La question que vous vous posez peut-être est : jusqu'où cela peut-il aller ? Il est assez difficile d'estimer la taille de la blogosphère... J'ai le sentiment, néanmoins, qu'en ce qui concerne les blogs francophones, elle est de l'ordre de 500 000 (toujours hors Skyblogs bien sûr).

Mais on va marquer une petite pause pendant les fêtes, histoire de laisser les machines digérer tout ça. Car vous imaginez bien que le changement d'échelle ne pose pas seulement des problèmes d'algorithmes de crawl et de filtrage, mais aussi des problèmes conséquents d'architecture et d'exploitation. Il ne s'agirait pas de tout faire péter entre Noël et le Jour de l'An !

Libellés : ,


16 Commentaires:

Anonymous Rod - Le HibOO a écrit...

Interessant ... ca va permettre vraiment d'avoir de bonnes surprises sur les 6 prochains mois.

En effet, un skyblog d'une nana de 18 ans qui raconte sa life fait, en terme de stats, 100 fois plus que les 100 premiers blogs du top 300 ... donc HEUREUSEMENT que les Skyblogs sont pas intégrés :)

il ne manque plus qu'une chose : que Wikio devienne une sorte de OJD des blogs, et donc, de maniere au depart optionnelle, puis ensuite obligatoire, demander à ceux qui veulent de récup' les stats réelles Google Analytics et ou Xiti ... et ainsi faire un truc sur plusieurs niveaux entre l'influence d'un support, et ses stats réelles. Car beaucoup d'agences utilisent le top 10 wikio de chaque categorie pour cibler, mais ca ne veut pas dire pour autant que ces top 10 sont finalement pertinents (un backlink copinage permet facilement d'etre le top 20)

14 décembre, 2009 14:34  
Blogger Jean Véronis a écrit...

Rod> Oui, je réfléchis à ces choses-là. En fait, on a déjà des stats pour une partie des blogs: tous ceux qui ont le bouton "wikio"... Mais ça ne résoud pas tout. Comment intégrer ces stats ? Ni on intègre des stats uniquement pour une partie des blogs, n'est-ce pas injuste pour les autres ? Et comment mixer audience/backlinks ? C'est un peu comme si on essayait de faire un mix entre TF1 et Arte... Pas simple. Je suis à l'écoute de toutes les bonnes idées !

14 décembre, 2009 14:40  
Anonymous Pierre-Yves a écrit...

Bien le bonjour,
En effet, le mix entre l'audience et l'influence n'est pas simple...
Et pourquoi, ne pas faire 2 classement différents ??
Je ne sais pas, c'est une idée comme ça ;)
Pour le problème de copinage, il me semble avoir lu ici que ça allait être réglé avec la notion de scoring sur les liens provenant de même source ?
Il est intéressant en tous cas de connaître ce volume globale...
Par contre, je pense qu'il serait peut-être encore plus intéressant de le connaitre par catégorie, ce qui donnerait plus de "valeurs" au classement de manière simple.
Ou, si ce n'est pas souhaité pour diverses raisons que je ne connais pas, le faire peut-être une fois par ans, comme cadeau de noël aux Wikiautes par exemple, ça pourrait être pas mal non ?
Merci pour l'info en tous cas et bonnes continuations ;)
CiaO ++

14 décembre, 2009 14:46  
Blogger Jean Véronis a écrit...

Pierre-Yves> Oui, c'est peut-être la solution. Avoir un classemnt par liens (backlinks et backtweets d'ailleurs), et un autre par audience de ceux qui ont le badge Wikio. Comme ça les choses seraient claires.

Ca peut se faire. Il y a juste un peu de dév (notamment pour blinder ça contre les robots, parce qu'évidemment les tricheurs vont cliquer comme des malades)...

14 décembre, 2009 14:50  
Anonymous Alexis a écrit...

Une question d'un profane des blogs : pourquoi est-ce "mal" de comptabiliser les Skyblogs?
Il me semble que c'est assez injuste pour cette "nana de 18 ans qui raconte sa life" qui souffre maintenant d'un ostracisme encore plus aigu.
Qui plus est, Skyblog compterait environ 10 millions de blogs, ce qui n'est pas rien. Alors pourquoi faire cette différence de traitement entre Skyblog et, par exemple, Blogspot ?

14 décembre, 2009 15:56  
Anonymous Ferocias a écrit...

300.000 blogs et toujours un seul qui chronique les fictions mettant en scène des peuples précolombiens! La concurrence ne naît donc pas de l'abondance :)
Sinon pour l'audience, entre celle mesurée par la plate-forme de blog, celle de Google Analytics, celle de Xiti, celle des compteurs divers et variés,... Comment s'y retrouver? (mes stats sont publiées chaque mois, je reçois sans doute moins de visiteurs que d'autres plus mal classés mais la modif. de l'algo a conduit à un gain de deux places dans le classement littérature (allez comprendre!).
De même, tout le monde n'invite pas à cliquer sur le bouton Wikio placé (ou pas d'ailleurs) en bas (ou en haut, ou à droite, ou à gauche, avec toutes les combinaisons possibles). Avec plusieurs adresses IP on doit aussi pouvoir tricher sur le clic de bouton Wikio d'ailleurs... A propos de ce bouton, pourquoi n'est-il livré dans certaines versions que pour des plate-formes précises?
Pas simple tout cela.

14 décembre, 2009 16:03  
Blogger Jean Véronis a écrit...

Je ne suis pas tout à fait sûr qu'il faille faire cet ostracisme moi non plus à dire vrai, mais il faudrait trouver des moyens d'organiser les choses de façon que le résultat reste lisible, ce qui n'est pas évident.

N'exagérons riens sur les 10 millions de blogs: la plupart sont inactifs. Les ados en créent à la pelle puis les laissent tomber pour en créer d'autres. Y en a-t-il seulement 100 000 d'actifs simultanément ?

14 décembre, 2009 16:07  
Blogger Jean Véronis a écrit...

Ferocias> Plus la mare est petite, plus la grenouille paraît grosse (c'est pour ça que je suis bien dans la catégorie Science ;-)

On n'a pas besoin de cliquer pour comptabiliser les visites: l'affichage de la page suffit. Evidemment on peut toujours tricher, mais il faut rendre la chose suffisamment difficile pour que ce n'en vaille guère la peine...

14 décembre, 2009 16:09  
Anonymous lp a écrit...

Brésil: 147 millions d'abonnés au téléphone mobile pour 190 m. d'habitants; Maroc 21 m.d'ab. pour 38 m. d'hab.; Inde : 250 m. d'ab. en hausse de 30 % par an,; Chine 550 m.d'ab. en hausse de 20% par an.
Certes, le total des abonnés dans le monde ( 3,5 milliards ) ne représente que 50 % de la population mondiale, mais sachant qu'on est parti de zéro il y a dix ans, que les 2/3 des abonnés ne sont pas des Occidentaux et que la croissance en pays émergents est phénoménale, je trouve la citation misérabilo-tiers-mondiste de Carter un peu datée...A ce compte là, la France du début des années 70 archi-sous-équipée en téléphone fixe, sans internet, sans ordinateurs personnels, était un pays sous-développé...

14 décembre, 2009 20:23  
Blogger Jean Véronis a écrit...

LP> Vous avez des amis dans des pays africains ?

14 décembre, 2009 20:26  
Anonymous lp a écrit...

Avez - vous des amis dans les bidonvilles de Cassis ?

14 décembre, 2009 21:41  
Blogger Jean Véronis a écrit...

J'ai quelque peu côtoyé ATD Quart-Monde, donc je peux qu'être d'accord avec vous : la misère n'est pas qu'hors de nos frontières. Mais une misère n'en excuse pas une autre, non? Les pays "émergents" n'ont pas grand-chose à voir avec les pays laissés pour compte de la planète...

14 décembre, 2009 21:56  
Blogger Epamine a écrit...

Je suis admirative devant tant de savoir-faire, d'ingéniosité et de techniques maîtrisées...
Bravo!

14 décembre, 2009 22:14  
Blogger Jean Véronis a écrit...

C'est gentil, Epamin'... Dans quelques années, les jeunes riront de tout ce bricolage, comme on rit maintenant des cartes perforées...

14 décembre, 2009 22:47  
Anonymous Ferocias a écrit...

http://www.commentcamarche.net/news/3491786-la-toile-et-ses-100-millions-de-blogs

Parle de 4 millions de blogueurs.
Il y aurait près de 30.000.000 de skyblogs.
300.000 blogs chez Wikio.
Comment connaître le nombre de blogs en France?
Je n'arrive pas à trouver un chiffre fiable :/

17 décembre, 2009 22:50  
Blogger Noncovidiste a écrit...

En tout cas pour ce qui est de Skyblogs, je peux vous dire de source sure que lorsque j'ai passé un entretien pour travailler chez eux (il y a déjà 3 ans), sur 10 millions de blog il y en avait environ 2 millions d'actifs (ajout sur les 30 derniers jours). Je ne sais pas si ce ratio de l'ordre de 20% a bougé depuis

20 janvier, 2010 13:51  

Enregistrer un commentaire