Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter

vendredi, juin 26, 2009

Wikio: Over 100,000 UK blogs



I've been quiet recently. I've been working flat out on a project that has required all of my attention: increasing the number of UK blogs for Wikio UK (www.wikio.co.uk). The UK site was the last one to appear after wikio.fr, wikio.it, wikio.es, wikio.de and wikio.com, and has to some extent always suffered a little in terms of increasing the number of sites in the database. I thus put in place some adapted algorithms several weeks ago and I'm happy to announce that the UK site has now passed 100,000 blogs. Exactly 113,000 at the time of writing, and this number is set to increase further in the coming hours: there are nearly 30,000 more blogs in the pipeline.



If you go to the site you will see "Live breaking news from 156920 blogs", but this is simply the number of anglophone blogs, and not only those from the UK. The same number is indeed shown on wikio.com. Both sites draw from the same database but do not display the same results: it's all a question of weighting. The UK site prioritises UK news and the US site prioritises US news (hence the need to geolocate sources). You will see for example the differing reactions to international events, be it the situation in Iran, or the death of Michael Jackson - all rather interesting.

It is alas very complicated in practice. It is extremely difficult for our machines to determine whether a site is American or British (or Canadian or Australian etc.). Obviously if the URL ends in .co.uk, there is little ambiguity. But this is in fact rarely the case. Most British blogs for example are on blogspot.com, wordpress.com, etc.

The algorithms are rather sensitive, and as far as I'm aware, no other service goes as far to distinguish between UK/US in the way that we do at Wikio. If you try Google Blogs Search or Technorati, you will see for example that it is a mish-mash without any real attempt to sort by country except a (probable) bias towards .co.uk. domains.

The difficulty comes from the fact that no one criterion suffices unto itself. We can, for example, check the spelling. We know that in Britain they write colour or neighbour and not color and neighbor as in America. This can be useful, but it does not in fact concern that many words, and we are not guaranteed to find them on your average blog. To further complicate matters, Canadians, Australians and other blogs of the Commonwealth use the British spelling style. So we can also turn to the blogger's profile: if it cites "London, UK", there you have it. But there is very often not a profile on the page, and it must be found and correctly parsed by the machines. Web 2.0 it appears lacks certain standards! So in practice this requires a fair bit of work...

We can also look at the topology of the blogosphere (I hope soon to be able to show you some maps of the US/UK à la Wikiopole FR). UK blogs tend principally to reference UK blogs, and the US blogs US blogs. The web is simply a sum of communities... However, in pratice it's a little trickier than that: UK blogs also reference US blogs (yet this tends not to happen in the opposite direction, which does help a little).

So, in order to end up with a reliable sourcing technique, one must combine all these criteria, and let me assure you it has not been simple. But I am rather pleased with the results, both in terms of coverage and reliability. The UK site is now the second biggest in terms of the number of blogs. I hope it will be useful for you if you are interested in British culture, and wish to discover blogs from across the channel. I would have loved that when I was learning English at school (we had only the BBC on short wave radio...). The themed rankings are still somewhat light, but I am currently working furiously on this with a team of Masters students whom Wikio kindly granted internships, and we are already seeing some great categories emerging. I don't know whether some (perhaps Wine & Beer) will see the light of day for the next ranking, but if not, it will be at the end of July.

That is also a real challenge: as reliably as possible categorising hundreds of thousands of blogs. It's not simple: a nice example of intermingled semantics and topology. That, however, will be the subject of another post. I don't wish to wear you all out!

Libellés :


0 Commentaires:

Enregistrer un commentaire

Wikio: Plus de 100 000 blogs UK



J'ai été discret ces derniers temps. J'étais à fond sur un projet qui a requis toute mon attention : l'augmentation du nombre de blogs UK pour Wikio (www.wikio.co.uk). Le site UK est le dernier né de la série des sites Wikio (après wikio.fr, wikio.it, wikio.es, wikio.de et wikio.com), et il a toujours été un peu le parent pauvre en ce qui concerne l'étendue de ses sources. J'ai donc mis en place depuis quelques semaines des algos adaptés, et je suis heureux de vous annoncer que le site UK a dépassé 100 000 blogs cette nuit. Exactement 113 000 à l'heure où j'écris, et ce chiffre va encore augmenter dans les heures qui viennent : il y a encore pas loin de 30 000 blogs dans les tuyaux.



Si vous allez sur le site vous verrez "Live breaking news from 156920 blogs", mais c'est le nombre des blogs anglophones, et pas seulement celui des blogs UK. Le même nombre est d'ailleurs affiché sur wikio.com. Les deux sites puisent dans la même base, mais n'affichent pas les mêmes infos : c'est une question de pondérations. Le site UK affiche en priorité les news UK, et le site US affiche en priorité les news US (d'où la nécessité de localiser la source). Vous pourrez par exemple voir les différences de réactions sur des événements internationaux, que ce soit la situation en Iran, ou la mort de Michael Jackson : ce n'est pas inintéressant !

C'est hélas très compliqué à faire dans la pratique ! Il est extrêmement difficile pour des machines de déterminer si une source est britannique ou américaine (ou canadienne, australienne, etc.). Evidemment, dans le cas où l'url se termine par .co.uk, il n'y a guère de doute. Mais c'est rarement le cas. La plupart des blogs britanniques sont des blogspot.com, wordpress.com, etc.

Les algorithmes sont donc très délicats, et à ma connaissance, aucun service ne propose une discrimination correcte US/UK. Si vous essayez Google Blogs Search ou Technorati, vous verrez par exemple que c'est un gros méli-mélo sans tri véritable autre que (peut-être) sur le domaine .co.uk.

La difficulté provient du fait qu'aucun critère n'est fiable à lui tout seul. On peut par exemple s'appuyer sur l'orthographe. On sait que les Britanniques écrivent colour ou neighbour et non color, neighbor comme les Américains. Utilisable, mais il n'y a que très peu de mots concernés, et on n'est pas certain de les trouver sur un blog lambda. Pour tout compliquer, Canadiens, Australiens et autres pays du Commonwealth utilisent eux aussi l'orthographe britannique. On peut également s'appuyer sur le profil du bloggueur : s'il mentionne "London, UK", c'est gagné. Mais il n'y a pas toujours un profil (loin de là), et encore faut-il le trouver et savoir l'analyser. Le Web 2.0 manque un peu de standards ! C'est plutôt un gros bricolage...

On peut également s'appuyer sur la topologie de la blogosphère (j'espère qu'on pourra bientôt vous montrer de belles cartes US/UK sur le modèle de la Wikiopole FR). Les blogs UK citent principalement les blogs UK, et les blogs US les blogs US. Le Web n'est qu'une somme de communautés... Dans la pratique c'est un peu plus piégeux : les blogs UK citent aussi des blogs US (mais, l'inverse est rare, ce qui facilite un peu les choses).

Bref, pour arriver à un "sourcing" fiable, il faut mixer tous ces critères entre eux, et je vous garantis que ça n'a pas été simple. Mais je suis plus que content du résultat, à la fois en terme de couverture et de fiabilité. Le site UK est maintenant le deuxième site Wikio en nombre de blogs. J'espère qu'il vous sera utile si vous vous intéressez à la culture britannique, et si vous voulez découvrir les blogs d'Outre-Manche. J'aurais adoré ça quand j'apprenais l'anglais au lycée (il n'y avait que la BBC en ondes courtes, c'est vous dire...). Les classements par catégories sont encore bien légers, mais je suis en train d'y travailler d'arrache-pied avec une équipe d'étudiants de master que Wikio a eu la gentillesse de prendre en stage, et nous voyons déjà émerger de très belles catégories. Je ne sais pas si certaines (peut-être Wine & Beer) verront le jour dès le prochain classement, mais sinon, en tout cas, fin juillet.

Ca aussi c'est un sacré challenge : catégoriser de la façon la plus fiable possible les thématiques de centaines de milliers de blogs... Pas simple : bel exemple de sémantique et de topologie entremêlées. Mais ce sera l'objet d'un autre post, je ne veux pas vous lasser !

Libellés :


8 Commentaires:

Anonymous Siegfried Aka CaptainWeb a écrit...

Ca commence à en faire des blogs tout ça, mais doit y'en avoir pas mal qui sont inactifs dans le tas non?

Sinon, en trainant sur la backlink factory il y'a quelques jours je me suis fait une réflexion (que l'équipe de wikio a surement déjà eu, mais bon...). En analysant les liens sortants d'un blog, il n'y aurait pas moyen de réussir à en déduire automatiquement dans quel catégorie il se trouve? Grossierement X backlinks sortant vers X sites du top high-tech pourrait surement indiquer que le blog tourne lui même autour du thème high tech par exemple.

Aller, bon courage pour a suite en tout cas :)

26 juin, 2009 17:33  
Blogger Jean Véronis a écrit...

Si, bien sûr. La plupart des blogs ont une durée de vie courte. Les gens les ouvrent, et puis se lassent... C'est pour ça qu'il faut faire cet effort de sourcing permanent.

Les grands esprits se rencontrent : c'est exactement comme ça que je procède désormais pour la catégorisation. En fait un mélange de topologie (liens) et de sémantique (mots-clés). Petite exclu : on va avoir un nouveau classement Santé sur wikio.fr ce mois-ci et il a été obtenu exactement comme ça. Il y aura plusieurs nouveaux tops sur les autres sites aussi (Wine & Beer etc.)

Merci d'être passé !

26 juin, 2009 17:40  
Blogger 1001portails.com a écrit...

-Il faut demander à celui qui vous livré cette liste de 100 000 urls.
-Lui doit savoir de quel pays sont ces blogs ? (si 1 à 1 les blogueurs ont posté leur site dans un annuaire) ...
Ma question idiote et interressé : D'ou vient votre stock d'url ?

Bravo à Wikio , énorme travail de pro !

26 juin, 2009 19:50  
Blogger Jean Véronis a écrit...

Personne n'a une telle liste. Je l'ai constituée en crawlant le web, comme fait tout bonnement Google, avec des stratégies topologiques (les blogs UK ont plutôt tendance à se citer entre eux) et sémantiques (mots clefs, orthographe, etc.).

Merci du compliment ;-)

26 juin, 2009 20:11  
Anonymous Alexis a écrit...

@Siegfried Aka CaptainWeb

c'est justement ce que l'on peut voir sur la wikiopole (http://labs.wikio.net/wikiopole/)

les couleurs indiquent les thématiques des blogs dans Wikio. la spatialisation se fait par contre à l'aide d'un algo optimisant les placements en fonction du nombre des liens entrants/sortants des blogs.

Au final, on se rend compte que la catégorisation sémantique (et éditoriale) faite par wikio semble correspondre assez bien aux différents "continents" formés par l'algo de spatialisation. Mais on voit par contre des nodes bleus au milieu de nodes colorés : ce sont donc probablement des blogs aux thématiques assez proches qui pourraient (probablement) être catégorisés en conséquence.

On peut également découvrir des continents "émergents" qui sont toujours en bleus : probablement des catégorisations qu'il faudrait identifier !

En tout cas, l'approche topologique+sémantique semble être une combinaison gagnante pour ce type de qualification :)

26 juin, 2009 21:18  
Anonymous Alexis a écrit...

A noter également, concernant la localisation d'une source : impossible de trouver une solution miracle, puisque même humainement il est parfois impossible de bien qualifier une source !

Que dire par exemple d'un bloggeur d'origine française, publiant sur un blogspot, installé en amérique du sud, et qui écrit ses billets en anglais ?

Ya des jours, c'est un vrai casse- tête, même pour des documentalistes ;)

On avait également fait des tests en utilisant les données des registrars (whois), mais pour que cela marche il faut que le blog dispose d'un nom de domaine, enregistré qui plus est avec une vraie adresse, et pas anonymisé (GoDaddy permet par exemple d'anonymiser ses informations : http://en.wikipedia.org/wiki/Domains_by_Proxy)
C'est d'ailleurs une des raisons qui fait que Google est devenu officiellement un Registrar il y a quelques années. Ils n'enregistrent pas de noms de domaines, mais c'est une mine d'information gigantesque pour mieux gérer son index !

Autre possibilité, utiliser la geolocalisation à partir des adresses IP, mais cela ne fonctionne que si le blog est sur un serveur dédié clairement localisable, ce qui ne représente qu'un très petite quantité de blogs au final..

Bref, un vrai casse-tête. Chapeau Jean ! :)

26 juin, 2009 21:27  
Anonymous Ferocias a écrit...

"En analysant les liens sortants d'un blog, il n'y aurait pas moyen de réussir à en déduire automatiquement dans quel catégorie il se trouve?"
En faisant cela, mon blog ne serait pas dans la bonne catégorie.
Les liens entre les blogs peuvent aussi être le fruit d'affinités (électives ou non), pas forcément de proximité thématique.

25 juillet, 2009 23:30  
Blogger Jean Véronis a écrit...

Il y a toujours des exceptions, mais du point de vue statistique cela reste vrai : les affinités se font globalement autour de thématiques. Mais il est certain qu'il faut compléter l'analyse des liens par celle du contenu (mot-clés fréquents par exemple). C'est la stratégie que j'essaie de développer (ce n'est pas forcément simple...)

25 juillet, 2009 23:42  

Enregistrer un commentaire