Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter

mardi, mars 09, 2010

Study: Twitter and the blogosphere

Everyone has noticed that amongst its many uses, Twitter serves as a means of promoting blog posts, taking up the slack of the role played by backlinks, which has been on the wane. No one, however, has managed to ascertain the rate and scale of Twitter's penetration into the blogosphere. Put in other words, how many bloggers have a Twitter account? And does the proportion of such bloggers vary from country to country?


During the last few weeks, I have conducted a study aimed at finding the answers to these questions, or at least the beginnings of them. I thus selected the top 25,000 blogs from each of the rankings for the six Wikio sites - UK, US, Germany, Spain, Italy and France - giving 150,000 blogs in total. All of these were "active" blogs, meaning they had all published a blog post in the preceding two months.

The blogs and Twitter accounts were compared using various algorithms, taking into account the fact that certain blogs can have several Twitter accounts (especially in the cases of multiple authors), and that a single blog can be linked to several Twitter accounts. A methodological limit was placed on the exercise: I looked only for associations or pairings stated explicitly with the mention of a blog on a user's Twitter page or a mention of a Twitter account on blog home page (or both). We can probably assume that some bloggers who have a Twitter account that is not mentioned or listed anywhere escaped our gaze.

Also, a multitude of variations can interfere with the formulation of a URL for a given blog and even though several measures were put in place to account for this, unquestionably some associations between a blog and a Twitter account will have been missed. A manual test was carried out for each language that showed the associations missed was probably of the order of 1%. The figures given by the study thus seem reasonably trustworthy.

The proportion of blogs with an associated Twitter account varies significantly according to the country in question. Unsurprisingly we see that the US boasts the highest proportion (32.1%), versus 20.7% for the greatest proportion found amongst the European countries in Spain. France comes in second last with 13.5%.




Proportion of blogs with an associated Twitter account in the Top 25,000 Wikio blogs for each country

The proportion also varies in relation to a blog's position in the ranking. Remember that the Wikio rankings are based on the number of backlinks that each blog receives. We can thus suppose that the blogs at the top are more "active" members of the blogosphere and social networks than those found further down in the rankings. It is thus unsurprising, as we see in the graph below, that the blogs in the top 1000 are much more likely to be on Twitter than the others found in the top 25,000. Take for example the United States, where over half (57%) of blogs in Wikio's top 1000 have an associated Twitter account compared to 32% for the top 25,000.




Proportion of blogs with an associated Twitter account in the Top 1000 Wikio blogs for each country

The difference relative to the European nations is reduced as we see a proportion of 52% for Spain, not far off the 57% seen amongst the US' top 1000 blogs. As for France, they drop into last place with only 26%. These differences can undoubtedly be explained by the sociological composition of the blogospheres of these countries, or at least how Wikio is seen in said nations. We know for example that the bloggers covering leisure pursuits such as knitting and craft work make up a high proportion of the blogs in the French Top 1000, which might imply a collection of bloggers less implicated (or interested) in the Twitter phenomenon than those for example of the High-Tech blogging world.

In total, these figures show a somewhat moderate level of Twitter penetration in the blogosphere particularly in European countries, including the UK, where bloggers do not appear to behave in the same way as their American counterparts: the UK has half as many blogs associated with a Twitter account (compare the UK's 16% with the US' 32% across the top 25,000 blogs in each nation). For all countries, the pairing rate seems to be greater for the blogs that already have a significant, existing social network (assuming the presence of many backlinks indicates such a network) and in the Tech domains. It will be interesting to observe how the situation evolves as and when we see a slowing in Twitter's progress, in particular across the Atlantic.

4 Commentaires:

Blogger n.pawar a écrit...

Excelent study into the penetration of twitter. I found that most hits on my own blog are coming from the USA rather than the UK quite surprised. Take a look at http://bit.ly/aZdf0b

10 mars, 2010 16:44  
Blogger Matthieu a écrit...

Bloggers here in the old continent aren't I think as well aware of what Twitter offers and generally, Twitter - to me - isn't so much implanted in our culture as it is overseas.

Personnaly I use twits and facebook updates to promote my posts on my blog and all my friends do but, hey, as you wrote, Tech blogs are what they are and litterary or personnal diary blogs are not really the kind of blogs you would find a twitter accound attached to...

12 mars, 2010 17:50  
Anonymous chiendent a écrit...

Pas de sigle pour twitter diectement cette très bonne étude!

15 mars, 2010 13:43  
Blogger Ramy Ghaly a écrit...

Ce commentaire a été supprimé par l'auteur.

26 juillet, 2010 18:11  

Enregistrer un commentaire

lundi, mars 08, 2010

Lexique: La culotte de casimir

Si ce titre évoque pour vous un gros dinosaure orange à pois rouges et jaunes, cela révèle cruellement votre âge... ou celui de vos enfants ! Et cela trahit aussi doublement votre manque d'attention : pas plus que son cousin Hippolyte, il n'a à ma connaissance jamais porté culotte ou pantalon, et vous n'avez apparemment pas remarqué non plus que mon titre facétieux ne portait pas de capitale sur le mot casimir, qui n'a ainsi rien à voir avec le prénom homonyme... Quoique.


Je suis tombé à deux reprises ces derniers jours sur cette expression qui m'était sortie de l'esprit, à la fois chez Dumas et chez Balzac, auteurs magnifiques mais que je n'avais pas relus depuis quelques lustres. N'ayant plus l'impatience de mes quinze ans, j'ai tendu la main vers mes étagères pleins de dictionnaires : j'y apprends que le casimir désignait une étoffe de laine légère fort à la mode à la fin du XVIIIe siècle et au début du XIXe, et qu'appréciait sans doute particulièrement Napoléon Ier, puisqu'on le voit dans la plupart des portraits poser en culotte et gilet de casimir blancs, la main droite bien entendu glissée dans ledit gilet au niveau de l'estomac. C'est d'ailleurs dans cette tenue, surmontée de la veste verte à parements rouges des chasseurs de la Garde, que l'Empereur repose pour l'éternité dans son tombeau des Invalides.


Pourquoi casimir ? Se peut-il que le prénom ait été victime d'antonomase, et soit devenu nom commun, perdant ainsi sa majuscule au passage ? Après tout, c'est bien arrivé au contrôleur général des finances Etienne de Silhouette et au préfet Eugène Poubelle... Casimir est un prénom slave, porté notamment par les rois de Pologne, qui contient l'élément "mir", comme de nombreux autres prénoms de même origine : Dragomir,  Jaromir, Miroslav, Vladimir, etc. De façon plus inattendue, ce "mir" est aussi celui de la station spatiale : le mot signifie "paix" en russe, et bien que plusieurs variantes circulent, Casimir signifie sans doute "celui qui prêche la paix". Reste à savoir quel Casimir aurait pu donner son nom à notre étoffe. Les sources sont muettes...


Casimir semble bien plutôt être la déformation du mot anglais cashmere, qui désigne comme chacun sait un type de laine de chèvre soyeuse provenant de la province du même nom (Cachemire en français), que se disputent de nos jours l'Inde et le Pakistan. Le mot a été sans doute contaminé par le prénom Casimir qui était lui aussi à la mode en France à la même époque, comme l'attestent le poète Casimir Delavigne, auteur des Vêpres siciliennes, Casimir Périer, président du Conseil sous Louis-Philippe, et quelques autres. La sympathie de l'opinion française pour la Pologne qui avait perdu son indépendance en 1772 et avait fait preuve de quelques beaux élans révolutionnaires avant d'être écartelée entre la Russie, la Prusse et l'Autriche, est probablement à l'origine de cette multiplication des Casimir, avec ou sans majuscule !

14 Commentaires:

Anonymous skagangamanikoye a écrit...

Très chouette billet, sur un thème qui me plaît davantage que les comptages wikio que vous semblez tellement affectionner depuis quelques mois, cher professeur !

09 mars, 2010 08:22  
Blogger Jean Véronis a écrit...

Ah, merci, mais il en faut pour tout le monde: il y a aussi des amateurs de comptages ;-)

09 mars, 2010 08:24  
Blogger C B a écrit...

Мир (mir) signifie bien la paix, mais veux aussi dire le monde (ainsi que la société), la distinction se faisait jadis entre міръ et миръ (avec une certaine dose de confusion), et le prénom Vladimir peut être interprété tant comme "maître de la paix" que comme "maître du monde"... Casimir est lui plutôt le pacificateur (qui montre la paix) mais pourrait être celui qui montre le monde.

09 mars, 2010 08:45  
Blogger Jean Véronis a écrit...

Oui, voilà, c'est pour cela que je disais qu'il y a plusieurs versions qui circulent. Merci pour cette précision !

09 mars, 2010 08:47  
Blogger Nicolas a écrit...

Kazimierz, en polonais, est le nom du quartier juif de Cracovie qui a été fondé par un roi polonais du nom de Casimir. Ce quartier, inscrit au Patrimoine Mondial de l'UNESCO, accueil un festival de culture juive unique en son genre au début de l'été. Venez jeter un coup d'œil, ça vaut le détour !

09 mars, 2010 08:55  
Anonymous Anonyme a écrit...

la saint Casimir se fête le 4 mars d'ailleurs :)

09 mars, 2010 13:21  
Blogger Jean Véronis a écrit...

Anonyme> J'ai été un poil en retard ;-)

09 mars, 2010 20:04  
Blogger Denis a écrit...

J'imagine bien Napoleon déguisé en Casimir dans la station mir ! Et si Casimir était en fait une chèvre qui se cache des Pakistanais ?
Quoiqu'il en soit, merci pour tous tes billets, j'ai découvert ce blog il y a une semaine et il ne m'a pas fallu une minute avant de le mettre en favoris !

10 mars, 2010 12:35  
Blogger pièce détachée a écrit...

Ah... Voici enfin venue l'occasion de me la péter sans me ridiculiser sur ce blog stratosphérique ! Chouette !

En anglais aussi, les déformations de cashmere ont donné des résultats du plus haut intérêt.

L'anglais connaissait déjà la forme cassimere (attestée en 1676), qui vint se télescoper avec le terme kersey désignant alors une sorte de tissu de laine purement anglais — peut-être, mais sans certitude, un tissu de laine croisée, mot alors prononcé kersey en anglais. Les étymologistes trouvèrent plus séduisant de dénicher dans le Suffolk un vrai village qui s'appelle Kersey, dont les filatures supposées étaient installées au bord d'une rivière (mere, "cours d'eau" en supposé patois suffolkien). Et...

...hop ! voici le kerseymere, décrit par le Draper's Dictionary (vers 1880) comme une sorte de twill extra-fin.

(Certains tentèrent même le jerseymere, sans grand succès).

Ces informations sont tirées de l'exquis Hobson-Jobson, A glossary of colloquial Anglo-Indian words and phrases, and of kindred terms, etymological, historical, geographical and discursive, by Col. Henry Yule, R.E, C.B., and A.C.Burnell, PhD., C.I.E., new Edition edited by William Crooke, B.A. (John Murray, Londres, 1903) (réimpression utilisée : Munshiram Manoharlal, New Delhi, 1984).

10 mars, 2010 19:22  
Blogger Jean Véronis a écrit...

Denis> C'est vraiment gentil. Si je peux offrir quelques moments de rêve dans la jungle 2.0 je suis le plus heureux des hommes...

10 mars, 2010 19:43  
Blogger Jean Véronis a écrit...

Pièce détachée> Mais c'est magnifique ça. Tiens je m'en vais ouvrir l'OED (dont j'ai toujours affirmé qu'il est le meilleur dictionnaire étymologique français !)

10 mars, 2010 19:45  
Anonymous Cochonfucius a écrit...

Le verbe "Kazit'" veut aussi dire "juger".

Casimir est "celui qui jugera le monde", le fils du charpentier redescendant du ciel au dernier jour.

16 mars, 2010 12:57  
Blogger Jean Véronis a écrit...

Cochonfucius> Dingue les fils qu'on peut tirer à partir d'une simple expression. J'adore. Merci de ta contribution à cette recherche ô combien futile (mais "il n'y a d'indispensable que les choses inutiles", pas vrai ?).

16 mars, 2010 13:12  
Blogger pièce détachée a écrit...

@ Jean V. :

Oui, les mots, c'est dingue. Drôle d'invention, qui peut créer des bouquets trop gentils et des massacres trop atroces.

Ah oui, au fait : vous n'y êtes pour rien, mais la culotte de Napoléon est parfaitement hideuse. Un remède à l'amour (des mots).

17 mars, 2010 02:22  

Enregistrer un commentaire

vendredi, mars 05, 2010

Twitter: Blogs et retweets, projet Twittio

Ca a filtré en réponse à un commentaire de See Mee sur mon dernier billet : oui, je suis en train de travailler à l'intégration de Twitter dans Wikio (je vous invite par ailleurs à aller lire l'interview qu'elle a eu la gentillesse de me demander récemment). Je vous ai promis la transparence la plus totale sur les activités du Wikio Labs, donc voici quelques détails sur ce projet dont le nom de code interne est Twittio ( = Twitter + Wikio). Et comme toujours, je suis à l'écoute attentive de vos réactions !


Cela fait plusieurs semaines que j'étudie l'écosystème que forment Twitter et les blogs. C'est devenu une évidence, les backlinks fondent comme neige au soleil... Comme je le dis à See Mee dans l'interview mentionnée plus haut, il faut reconnaître que les backlinks sont un mécanisme fastidieux. Il faut copier-coller une URL dans une interface plus ou moins ergonomique : il faut probablement jongler entre deux fenêtres, on se trompe facilement (qui n'a jamais fait un mauvais lien par inadvertance ?), c'est lent... et surtout il faut déjà soi-même avoir écrit un billet ! Twitter a apporté à cette lourdeur une réponse nouvelle (et inattendue je pense, comme beaucoup d'innovations, ce qui devrait nous rendre modestes...). Un clic et je "retweete" ce que j'ai lu. C'est simple, c'est rapide, c'est instantané. C'est du "temps réel". L'expression est devenue le nouveau buzzword à la mode, mais c'est vrai (vous avez remarqué qu'on ne parle plus de Web 3.0 ?). Si on me demandait (en fait on me l'a demandé récemment), quelle est la différence entre le Web 2.0 et le Web "temps réel", je dirais que l'aspect le plus flagrant c'est justement le passage d'un système de recommandation basé sur les backlinks à un système de recommandation basé sur les réseaux sociaux. Ce qui n'est pas sans poser de problème aux moteurs de recherche, dont toute la logique (le fameux Page Rank en particulier) depuis qu'ils existent est basée sur la topologie des "liens en dur". Ce n'est pas pour rien si Google et Microsoft ont passé des accords avec Twitter...

J'ai deux objectifs avec le projet Twittio. Je me doute que beaucoup d'entre vous ont le fameux classement en tête, et se demandent s'il va falloir qu'ils retweetent maintenant comme des bêtes après avoir linké comme des forcenés. Oui, l'intégration des retweets dans le calcul du classement est bien sûr une des pistes que je poursuis. Elle n'est pas simple. L'univers du retweetage est certainement aussi rempli de chausse-trapes que celui des backlinks... La première étape est donc l'observation de l'écosystème : mettre en place des outils, extraire des statistiques, comprendre les usages et la topologie du réseau. Voilà ce que je suis en train de faire.

Mais il y a une deuxième cible, plus importante pour moi dans un premier temps. Remplacer le service Blogs qui apparaît en home de Wikio et sur la page dédiée par un système plus performant. Le système actuel date de bien avant ma collaboration avec Wikio. En 2006-2007, il était raisonnable de baser un "memetracker" de ce type sur les seuls rétroliens entre billets. Etant donné l'évolution des usages, ce n'est plus possible en 2010. Ce service devrait être une fenêtre de l'actualité à travers les blogs. Twitter est certainement un élément important pour sa mise au point.

Encore faut-il comprendre comme Twitter est utilisé. Comme c'était le cas il y a quelques années pour les backlinks, le "retweetage" est très fortement "geek". On sait que pour les backlinks, les comportements ont changé. Les blogs techno s'en sont détournés (au profit de twitter en particulier), tandis que les blogs de loisirs se les sont appropriés au point de faire pâlir de honte les meilleurs experts SEO (vous vous souvenez de la "révolution des tricoteuses").

Je vous livre quelques résultats qui permettent de comprendre un peu mieux l'usage de Twitter dans les différentes communautés (du moins en France - il est probable comme j'y faisais allusion hier que les usages différent selon les pays, en particulier par rapport aux Etats-Unis.

J'ai suivi le taux de retweets de tous les billets du top 10000 FR depuis trois semaines. Cela fait une base de 107718 billets et 72334 retweets, soit un taux moyen de 0,67 RT par billet.

Mais cette moyenne cache de très grandes disparités entre communautés, comme le fait apparaître le tableau suivant (la première colonne correspond à la catégorie du classement Wikio, la deuxième au nombre moyen de retweets par billet dans cette catégorie) :



Categoriem
SEO9,83
Marketing4,25
High-Tech3,85
Science3,74
Logiciels Libres3,59
Emploi2,27
Entrepreneurs1,72
Environnement1,39
Jeux Vidéo1,37
Musique1,28
Cinéma1,15
BD1,06
Politique0,86
Auto0,85
Droit0,48
Economie0,45
Sport0,38
Divers0,36
Jeux d’argent0,25
Loisirs0,23
Chine0,21
Gastronomie0,16
Santé0,16
Littérature0,14
Animaux0,05
Scrapbooking0,01


On constate la très grande disproportion, d'un facteur 1000 entre les champions du RT (les blogs SEO) et les blogs scrapbooking qui figurent au bas de la liste. Les blogs politiques se situent à peine un peu au-dessus de la moyenne.

Il est intéressant de constater que les blogs SEO et Marketing ont été les premiers à comprendre l'intérêt du retweetage, qu'ils pratiquent encore plus que les blogs techno.

La conclusion à laquelle m'amènent ces résultats, c'est que bien entendu, on ne peut intégrer Twitter directement, ni dans le classement (où les blogs SEO, marketing et High-tech viendraient truster toutes les premières places), ni dans le nouveau service Blogs, dont la page d'accueil serait phacogytée de la même manière.

Vous imaginez donc la difficulté de la tâche. Mais vous doutez aussi sans doute que j'ai quelques pistes ;-)

Libellés : , ,


16 Commentaires:

Blogger gill d'elia a écrit...

merci pour ces précieuses informations, dommage que tu ne nous donnes pas tes "quelques pistes" :).
à suivre de près donc.

05 mars, 2010 14:25  
Blogger Jean Véronis a écrit...

Ca viendra mais pas tout de suite, pas trop vite...

Sachez me convoiter, me désirer -eh -eh ;-)

05 mars, 2010 14:29  
Blogger JF a écrit...

Une question un peu naïve, quel est l'intérêt de se baser sur une moyenne pour discuter des "taux de RT par article" ? Si on regarde votre tableau de données, il me semble évident que la distribution n'est pas du tout gaussienne (ou vaguement telle), mais plutôt log-normale ou en loi de puissance. Dans ce cas, il me semble qu'une moyenne n'a aucun sens... ou en tout cas, qu'elle ne donne aucune information intéressante sur la population étudiée.

05 mars, 2010 15:09  
Anonymous [Enikao] a écrit...

Pas facile de mesurer et pondérer l'infosphère... Surtout qu'il faudrait y inclure aussi, pour bien faire, les statuts Facebook, en dédoublonnant les comptes qui ont jumelé Facebook et Twitter...

05 mars, 2010 15:11  
Blogger Jean Véronis a écrit...

La moyenne st quand même l'indicateur de tendance centrale le plus commun. J'en fais moi-même la critique dans mes cours sur les données fortement asymétriques, lui préférant souvent la médiane. Mais de là à dire que cela n'a aucun sens c'est un peu rapide...

05 mars, 2010 15:13  
Blogger Jean Véronis a écrit...

Enikao> Quand je parle de chausse-trapes... C'est bien pour ça qu'il faut étudier, prendre son temps, et faire les choses proprement (ou aussi proprement que possible !).

05 mars, 2010 15:14  
Anonymous skagangamanikoye a écrit...

surtout qu'il vous faudra peut-être intégrer dans vos comptages Google Buzz dans quelques mois... :-)

05 mars, 2010 15:38  
Blogger Jean Véronis a écrit...

Ce n'est pas impossible ! Mais pas certain non plus. L'accueil initial a été un peu mitigé et ce n'est pas la première fois où Google ferait marche arrière sur un projet (exemple, le SearchWiki qui devait être la panacée du search et qu'ils viennent de saquer). Nous verrons bien !

La leçon qu'on peut tirer des RT c'est que ce qui émerge, finalement, c'est ce que personne n'a prévu...

05 mars, 2010 15:49  
Anonymous seoman a écrit...

En fait les SEO ne se sont pas appropriés le RT mais c'est la nature même du thème qui fait que tout le monde s'y intéresse et retweet les analyses ou autres news du monde SEO au même titre que le marketing (web) alors que le tricot reste confiné aux seul(e)s personnes intéressées par ce domaine.


@+

05 mars, 2010 16:42  
Blogger Jean Véronis a écrit...

Seoman> Il y a sans doute un peu de vrai. En même temps, le SEO n'intéresse probablement pas les tricoteuses (qui sont pourtant nombreuses)...

05 mars, 2010 18:32  
Anonymous Asse42 a écrit...

Franchement ça m'intéresse personnellement puisque je pense que le seul système du comptage des liens entraîne un comportement spécifique des blogueurs qui n'est pas forcément sain.
Si tu ne te fais pas une place dans le microcosme on t'ignore, on ne te linke pas et donc tu croupis dans les profondeurs de Wikio. C'est mon cas. Cela ne m'empêche pas de faire tourner mon blog mais je suis persuadé que cela ne reflète pas la vérité du classement notamment en politique.

Il ne faut pas hésiter à intégrer d'autres nouveautés plus réalistes sur l'intérêt porté à un blog que le seul linkage.
Donc peut-être que twittos apportera une vraie révolution mais devra pour cela bousculer l'ordre établi. En aura-t-il le courage? C'est aussi la question...

06 mars, 2010 10:07  
Anonymous Annie a écrit...

les backlinks sont une aberration pour plusieurs raisons :
1- cela suppose que tous les amateurs/lecteurs/apréciateurs des blogs ont des blogs et lient leurs préférés sur leur blog : c'est une abération, tous les lecteurs de blogs n'ont pas de blog eux-mêmes, et quand ils en ont ils ne disposent pas forcément de temps pour lier tous les bons moment qu'ils ont passé à lire des blogs, parce qu'ils parlent d'autres choses, et parce qu'ils n'ont que qq hres par jour
2- gg l'a résolu depuis longtemps en tenant compte de ses propres liens dans ses recherches par mots clés et/ou images, ou sur les autres moteurs c'est une bonne chose, c'est la meilleure
3- wikio je reste inscrite mais n'en tient aucun compte car il est comme tous les référenceurs français : à la masse, il ne prend en compte que l'instant, pas la capitalisation d'information sur un blog, avec souvent des infos non obsolètes sur une longue période qui redeviennent ou reste chaud
4- ça donne pour mon blog une montée en flèche (vers le haut) de ma fréquentation et une descente en flèche dans ma réf wikio

06 mars, 2010 15:54  
Anonymous DF a écrit...

Exercice complexe, je vois! De mon côté, faudra-t-il que je m'inscrive sur Twitter, alors que je n'ai pas encore compris l'utilité de cette machine à gazouiller?... En tout cas, merci d'annoncer ces tendances.

06 mars, 2010 19:45  
Anonymous Quitwitte.fr a écrit...

Etude très intéressante. Hâte de voir la suite et de voir se construire votre projet.

L'équipe Quitwitte.fr

07 mars, 2010 23:39  
Anonymous Ferocias a écrit...

Vu le taux de RT dans la catégorie Littérature et ma pratique régulière de Twitter, je vais être le maître du monde niark niark niark!

Comment valider la pertinence des RT?
Il suffit d'écrire un tweet annonçant la disparition d'un people (que ce soit rai ou pas d'ailleurs) ou bien d'annoncer une nouvelle révolution dans le domaine du référencement tout en pointant vers un billet de scrapbooking pour être RTwitté (certains retweeters ne lisent pas les billets).

09 mars, 2010 08:55  
Blogger Jean Véronis a écrit...

Férocias> Effectivmeent, évaluer la pertinence des tweets est impossible (d'ailleurs, peut-être pas seulement pour les algos !). Mais c'est déjà unpeu vrai pour les backlinks...

Le raisonnement ne peut donc qu'être statistique. Si beaucoup de gens retwittent une information au même moment, c'est que d'une manière ou d'une autre elle se dégage du bruit ambiant.

09 mars, 2010 09:12  

Enregistrer un commentaire

jeudi, mars 04, 2010

Ontologies: Perl is a planet in the solar system


Lately, I've been working on Wikipedia, both an unprecedented human adventure (I wouldn't have bet two cents on its survival a few years ago) and a reservoir of fantastic resources for natural language processing. In particular, it is a huge ontology, i.e. a structured knowledge tree, people have dreamed of building for centuries . I alluded to this in my last slide here [fr]: since the Sumerians via Raymond Lulle, Leibnitz and the Encyclopaedists we have been searching — and the semantic Web is the latest invention that aims to organize Everything.


Wikipedia's knowledge tree is navigable online:
These are interesting URLs to know (I'm thinking of secondary school teachers: what a great source for practical work!).

Maybe you know the Perl programming language — I'm a big fan, but let's leave that to another post. I used the corresponding page in Wikipedia as a test to determine if I could correctly find its place in the Wikipedian knowledge tree using my little homemade programmes.


Let's follow the category links going up through the tree. The links are at the bottom of the page: the Perl page belongs to all these categories:




Ah... so apparently it's not a tree. Or maybe one of those Indian banyans I frequently refer to, whose branches connect and merge... Anyway, as long as there is no loop (I don't wish to be pedantic, but if there is a Directed Acyclic Graph), it is possible to build an ontology. It's common enough:



But it nevertheless requires some care in building the links, and you quickly get lost.

So let's follow the links on our Perl page. It's an American invention. Ok. Back up. To be brief, here is the path I followed at random among all the possibilities:
Perl is a therefore a planet in the solar system. QED.

Don't think that this is an isolated example. It is by far the rule, given the immense complexity of the graph. What a shame... That means that there is a huge amount of work to be done to be able to exploit Wikipedia. At least using automatic means, it is difficult. The whole effort (unprecedented in the history of Humanity, I repeat), should be praised, but to be able to properly exploit the knowledge in it, a little structure will be required...

Libellés : ,


2 Commentaires:

Anonymous Karadimas Harry a écrit...

Bonjour,

J'apprécie (comme toujours) beaucoup vos articles; et ici un autre exemple (il y en a plein) qui va de "Organisation des premiers secours", et qui aboutit à "Président du Mouvement des jeunes socialistes" ...

Je mets cela dans les erreurs de jeunesse, nul doute que cet outil s'affinera, il constitue déjà une mine formidable à la fois pour l'utilisation, mais aussi pour fournir des sujets de recherche !

Harry Karadimas



Catégorie:Organisation des premiers secours
Une page de Wikipédia, l'encyclopédie libre.
Aller à : Navigation, rechercherSous-catégories
Cette catégorie comprend les 2 sous-catégories suivantes.

P
[+] Plan d'urgence – 17 P
S
[−] Service de secours – 7 P • 7 C
[+] Association d'anonymes – 9 P
[+] Association familiale – 1 P • 1 C
[+] Service de secours en France – 12 P • 1 C
[−] Association ou organisme lié à la jeunesse – 30 P • 1 F • 1 C
[−] Mouvement de jeunesse – 25 P • 4 C
[+] Cadets des Forces armées canadiennes – 10 P
[−] Mouvement de jeunesse de parti politique – 83 P • 2 C
[+] Logo de mouvement de jeunesse de parti politique – 17 F
[−] Mouvement des jeunes socialistes (France) – 2 P • 1 C
[−] Président du Mouvement des jeunes socialistes (France) – 8 P

12 mars, 2010 15:19  
Blogger Jean Véronis a écrit...

Ah oui, bel exemple ! merci, je le ressortirai ;-)

12 mars, 2010 15:26  

Enregistrer un commentaire

Etude: Twitter et la blogosphère

Tout le monde a remarqué que parmi ses multiples usages, Twitter sert à faire la promotion des billets qui paraissent sur les blogs, remplissant ainsi en partie la fonction de recommandation qui était dévolue auparavant aux rétroliens. Nul ne connaît cependant jusqu'ici le taux de pénétration de Twitter dans la blogosphère. En d'autres termes, combien de blogueurs ont-ils un compte Twitter ? Cette proportion dépend-elle des pays ?




Au cours des dernières semaines, j'ai mené une étude visant à apporter quelques éléments de réponse à ces questions. J'ai donc sélectionné les 25000 premiers blogs du classement des six sites Wikio anglais (UK), anglais (US), allemand, espagnol, français et italien, soit 150000 blogs au total. Tous ces blogs sont des blogs actifs, c'est-à-dire ayant publié au cours des deux derniers mois.

Les blogs et les comptes Twitter ont été rapprochés par divers algorithmes, en tenant compte du fait que certains blogs peuvent avoir plusieurs comptes Twitter associés (notamment dans le cas d'auteurs multiples), qu'inversement un même blog peut être associé à différents comptes Twitter. Une limite méthodologique a été posée à l'exercice : je n'ai cherché que les associations qui étaient explicitement listées par la mention du blog sur la page de l'utilisateur Twitter ou par la mention du compte Twitter sur la page d'accueil du blog (ou les deux). Il est donc certain que quelques blogueurs ayant un compte Twitter listé nulle part ont échappé au rapprochement.

De plus, diverses variantes peuvent intervenir dans la formulation des URL pour un même blog, et bien que des heuristiques variées aient été mises en place pour rapprocher le plus possible ces formulations, il est certain là aussi que des rapprochements ont été ignorés. Un contrôle manuel par sondage a donc été effectué pour chacune des langues, qui montre que les rapprochements oubliés sont probablement de l'ordre de 1%. Les chiffres qui résultent de l'étude semblent donc raisonnablement fiables.

La proportion de blogs ayant un compte Twitter associé varie de façon importante selon les pays. Sans grande surprise, on constate que les Etats-Unis se distinguent par une proportion beaucoup plus élevée que les autres pays (32,1% contre 20,7% pour le premier des pays européens, l'Espagne). La France arrive en avant-dernière position avec 13,5% d'associations.

Proportion de blogs ayant un compte Twitter associé dans le top 25000 Wikio pour chaque pays

La proportion varie également en fonction de la position dans le classement. Rappelons que les classements Wikio sont établis sur la base du nombre de rétroliens que reçoit chaque blog. On peut donc supposer que les blogs du sommet du classement sont plus "actifs" dans la blogophère et les réseaux sociaux en général que les blogs positionnés plus loin dans le classement. Il est alors logique, comme on le constate sur le diagramme ci-dessous, que les blogs des top 1000 soient plus fortement liés à Twitter que les blogs du top 25000. On constate par exemple que ce sont plus de la moitié (57%) des blogs US qui sont associés à un compte Twitter, contre 32% pour le top 25000.


 Proportion de blogs ayant un compte Twitter associé dans le top 1000 Wikio pour chaque pays

La différence avec les pays européens s'atténue toutefois, puisque l'Espagne est à 52%, donc assez près des Etats-Unis. La France est en dernière position derrière l'Italie avec seulement 26% d'associations. Ces différences s'expliquent sans doute par la composition sociologique des blogosphères des différents pays, ou du moins, de l'image qu'en a Wikio à travers les différents classements. On sait par exemple que les blogs de loisirs dit "féminins" (tricot, créations, etc.) sont très nombreux dans le top 1000 du classement français, ce qui peut représenter un public moins touché par le phénomène Twitter que d'autres communautés (par exemple High-Tech).

Au total, ces chiffres montrent donc une pénétration assez modérée de Twitter dans la blogosphère, en particulier dans les pays européens, y compris le Royaume-Uni qui se comporte de façon très différente des Etats-Unis, avec moitié moins de blogs associés à un compte Twitter (16% contre 32% sur les top 25000). Tous pays confondus, l'association blog-Twitter semble surtout forte pour les blogs ayant déjà un réseau social important (du moins tel qu'il est reflété par les rétroliens) et dans les domaines plus technologiques. Il sera intéressant d'observer comment la situation évoluera, au moment où l'on observe un net ralentissement de la progression de Twitter, en particulier outre-Atlantique.

Libellés : , ,


20 Commentaires:

Blogger marc vasseur a écrit...

Salut Jean.
tiens une info sur lien twitter blog.
sur les deux mois qui viennent de s'écouler d'après Google Analytics sur les 25.000 Visiteurs de mon blog je comptabilise plus de 3.000 en provenance de twitter (sachant que j'ai plus de 1200 personne qui me suivent)

amicalement

04 mars, 2010 08:57  
Blogger Jean Véronis a écrit...

Oui, c'est clair, Marc: Twitter est devenu la caisse de résonance des blogs, en remplaçant peu à peu les backlinks, trop lents, trop malcommodes (et puis il faut commencer par écrire un billet pour y mettre des backlinks !).

04 mars, 2010 09:01  
Blogger Nicolas a écrit...

J'ai battu mon record de RT, hier, et mon record de visites pour Partageons l'addiction, avec le Twit qui annonçait ce billet, ce qui est grotesque.

Cela dit, je n'utilise pas mon compte twitter pour faire la promotion de mes blogs, contrairement à d'autres, mais uniquement pour déconner et échanger des infos.

D'ailleurs, je ne sais même pas s'il est accessible à partir de mon blog et si ta moulinette l'a trouvé...

04 mars, 2010 09:20  
Anonymous See Mee a écrit...

Cette étude serait-elle un préalable à la prise en compte des liens diffusés via Twitter ?

04 mars, 2010 09:22  
Blogger Jean Véronis a écrit...

Nicolas> Oui, j'ai remarqué l'explosion de RT sur ton billet. Dingue.

Quant à ton compte twitter, je l'ai bien détecté. Ton profil Twitter pointe sur http://jegpol.blogspot.com/

04 mars, 2010 09:26  
Blogger Jean Véronis a écrit...

See Mee> Oui, tout à fait. Bien deviné ;-)

04 mars, 2010 09:27  
Blogger Nicolas a écrit...

Jean,

Il y a bien un lien de mon compte twitter vers un de mes blogs mais pas de lien de un de mes blogs vers mon compte twitter, je crois !

Tiens ! Ca va changer...

04 mars, 2010 09:30  
Blogger Jean Véronis a écrit...

Exact, mais ça suffit a établir l'association avec certitude. Enfin, du moins avec http://jegpol.blogspot.com. Pour l'association avec les 2 autres blogs, la détection ne peut pas se faire, et donc tu tombes dans le petit pourcentage de silence dont je parlais. Mais tu es un cas très particulier, fort heureusement ;-)

04 mars, 2010 09:33  
Blogger Nicolas a écrit...

Ca y est ! J'ai mis le lien sur les trois blogs !

04 mars, 2010 09:44  
Anonymous Cathy Nivez a écrit...

Hello Jean, moi je trouve Twitter fascinant. J'ai créé un compte Twitter pour voir. J'ai mis un lien sur mon blog. Je ne twitte quasiment rien et sans rien faire j'ai 80 abonnés. Twitter, ça tourne même à vide ! Magique ! Je trouve Twitter très Geek oriented et ultra communautaire. Pas très intéressant for me (mon blog est 2343ème au classement général FR donc mon Compte Twitter est sans doute dans tes stats pour FR)

04 mars, 2010 09:50  
Blogger Jean Véronis a écrit...

Bonjour Cathy ! Oui, c'est vrai, Twitter c'est très geek ! On voit bien sur les essais que je suis en train de faire pour le Wikio Labs que les billets de Loisirs ne sont quasiment pas retwittés... Les blogs politiques s'y mettent un peu, mais ils sont encore très loin des blogs high-tech qui en ont fait une industrie !

04 mars, 2010 10:53  
Anonymous [Enikao] a écrit...

@Jean : les liens depuis Twitter intégrés dans l'algorithme, c'est intéressant. Voilà qui ne fera plus dire que les gazouillis mangent les billets et les commentaires. Du moins cela nuancera.
Mais il sera difficile d'intégrer les liens depuis des comptes Twitter privés, je suppose. Est-ce que cela se fait à partir des plateformes de raccourcis URL (is.gd, tinyurl et autres bit.ly ?).
@Cathy Pas nécessairement geek, disons que c'est sans doute trusté par les news junkies et technophiles pour le moment, mais on voit aussi des contenus politiques et... lifestyle / girly. Sans compter ceux qui font du lifecasting (raconter sa vie) plutôt que du mindsharing (partager une idée ou une trouvaille).

04 mars, 2010 11:03  
Blogger Jean Véronis a écrit...

Enikao> Les RT privés ne pourront pas pêtre pris en compte, évidemment... Mais les raccourcis le seront, oui.

04 mars, 2010 11:08  
Blogger jean julien Guyot a écrit...

Jean je suis dans la liste wikio mais mon blog est au Canada français. Je suis curieux de savoir si tu peux faire la mm analyse en incluant les blogues/twitter canadiens ?

09 mars, 2010 23:15  
Anonymous Luciel a écrit...

L'éventuelle prise en compte des liens diffusés via Twitter tombe-t-elle à l'eau du fait de la plus grande concentration de billets retwittés dans la catégorie High-tech?

08 avril, 2010 14:49  
Blogger Jean Véronis a écrit...

Luciel> Non pas du tout, bien au contraire. Simplement, c'est un peu compliqué, il va falloir tenir compte à la fois des backlinks et des retweets, pondérer tout ça, etc. Mais j'espère bien que le nouvel algo sortira avant l'été !

08 avril, 2010 14:51  
Anonymous Luciel a écrit...

J'ai hâte de voir ça, bonne continuation !

08 avril, 2010 21:56  
Anonymous Pmartin@linterweb.fr a écrit...

Je ne sais pas où vous en êtes mais nous avons commencé à indexé les liens externes de twitter. Nous les classons à l'heure actuelle par ordre chronologique et pertinence.
http://wikiwix.com/index.php?lang=fr&art=true&disp=article&action=photographie

C'est dans la partie :
"Activité récente sur le web pour photographie"

Cordialement
Pascal Martin

04 octobre, 2010 21:03  
Blogger Jean Véronis a écrit...

Merci du lien. Comme cela marche-t-il ? ce sont les billets les plus retwittés sur le thème ? quelque chose dans ce genre ?

04 octobre, 2010 21:22  
Anonymous Pascal Martin a écrit...

Oui tout à fait, c'est un compromis entre les liens les plus liés, et la recense des résultats.

Cordialement
Pascal

05 octobre, 2010 10:30  

Enregistrer un commentaire