Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, avril 28, 2009

Web: De quoi parlent les blogs ?

De quoi parle ce nouveau "continent" des blogs de loisirs créatifs qui semble littéralement exploser la blogosphère ces derniers temps ? Pour le savoir, j'ai mouliné avec l'aide de Thomas (développeur chez Wikio, avec qui c'est un grand plaisir de travailler !) les 100 premiers blogs de la catégorie Loisirs, et j'ai injecté tous les mots dans la superbe application Wordle, que vous connaissez certainement. Voilà le résultat :


Je l'offre en hommage à nos fières tricoteuses ! Le mot le plus utilisé est printemps. Joli, non? Maman, bébé, enfants, créations, que du bonheur. Est-ce que vous vous y retrouvez, les filles ?

Et quel contraste avec la blogosphère high-tech. Là, les mecs (le plus souvent) parlent de Google, d'iPhone, de Twitter... Bon, la différenciation culturelle des sexes, ce n'est pas encore fini ! Papa bricole (sur Internet, désormais), maman tricote (sur Internet aussi : finalement, c'est ce qui les rapproche !).


Et pour vous faire patienter pendant que vous vous rongez les ongles en attendant le prochain classement (non ?), voici le monde lexical de chacune des 15 catégories de blogs sur Wikio (cliquez sur l'image).


N'hésitez pas à copier et utiliser les images à votre guise (un p'tit lien de reconnaissance serait sympa). Et si vous voulez vous même jouer avec Wordle, et créer vos propres nuages, vous pouvez télécharger les données ici (chaque fichier contient deux colonnes, mot:fréquence — attention il faut utiliser http://www.wordle.net/advanced).

Bonnes créations et bonne promenade dans les nuages !

Libellés : ,


21 Commentaires:

Anonymous MBt a écrit...

Bonjour,
"Le mot le plus utilisé est printemps."
Il perdrait peut-être sa place de leader au profit du "tissu" si on ajoutait à la fréquence de "tissu" celle de "tissus".

MBt

28 avril, 2009 09:40  
Blogger Jean Véronis a écrit...

MBt> Oui, c'est vrai. Hélas c'est très difficile à faire automatiquement avec une bonne fiabilité (portes = porter/porte, etc.)...

28 avril, 2009 09:47  
Anonymous GG a écrit...

Mais ça me donne des idées votre truc... Encore que pour ça, j'aurais besoin d'extraire les mots signifiants (pas les articles, les conjonctions de coordination etc, je suis sûr que vous avez un terme technique pour désigner ce dont je veux parler !)
Connaîtriez-vous un moyen simple de procéder à cette extraction ?
Merci d'avance.

28 avril, 2009 11:13  
Anonymous Flav a écrit...

Excellente idée ! Pas de doute, Wordle est vraiment un outil sympa... Intéressant de voir en un coup d'oeil ce qui fait parler les blogueurs. Certains sujets sont plus que récurrents... Et Google et Twitter toujours au sommet !

28 avril, 2009 11:38  
Blogger Jean Véronis a écrit...

Flav> Et Sarko :-(

28 avril, 2009 12:02  
Anonymous Secteur Sud a écrit...

Enfin la promotion des thématiques et des cibles qui vont intéresser des annonceurs ayant une notoriété ou une puissance marketing plus réduite que les grands groupes. Et plus généralement enfin l'entrée des blogs dans la logique de supports spécialisés. Si Wikio a autant de visibilité auprès des annonceurs que ce qu'on lui prête, Wordle est effectivement un outil pertinent de promotion des blogs comme support.

28 avril, 2009 13:20  
Anonymous Anonyme a écrit...

Bonjour Monsieur,

Comme d'habitude, votre blogue et vos idées sont accrocheuses et pertinentes. Reprenant en partie les commentaires précédents, j'aurais quatre questions concernant votre dernier article :

- Utilisez-vous un anti-dictionnaire pour supprimer les mots-outils ?

- Pourquoi les caractères accentués sont-ils absents ? Wordle ne les supporte-t-il pas ?

- Quid des mots composés ? Sont-ils séparés en deux formes distinctes ?

- Pensez-vous qu'une lemmatisation préalable serait susceptible de révéler une répartition différente (voir gastronomie.txt : recette:1294 / recettes:596 ; étoile:21 / étoiles:21) ou renforcerait-telle les grandes tendances sachant que cette opération introduirait d'autres distorsions (pouvoir : subst. vs verbe) ?

En vous remerciant
V. Arnaud

28 avril, 2009 14:13  
Blogger Jean Véronis a écrit...

V.Arnaud> Merci du compliment. Et j'ajouterais : comme toujours les commentaires sont aussi intéressants que le billet !

1. Antidico : oui, absolument (articles, etc.). Il y a également un deuxième filtrage, de nature statistique : les mots qui apparaissent de façon équivalente dans chacun des corpus sont considérés comme non pertinents.

2. Les caractères accentués sont absents par paresse de ma part... La prochaine fois ils y seront !

3. Il est très difficile de traiter les mots composés... On ne sait d'ailleurs pas très bien où s'arrêter ("roman policier" soit-il être séparé ?). En essayant de le faire on introduit généralement plus d'erreur que de bénéfice. Mais je suis d'accord : ce serait une amélioration notable.

4. La lemmatisation change très légèrement les choses. De petites modifs dans l'ordre, mais rien sur les grandes tendances. De plus, comme précédemment, on introduit tellement de bruit, que le bénéfice est annulé par les erreurs...

Le TAL c'est difficile !

28 avril, 2009 14:32  
Blogger Godefroy a écrit...

Bravo pour l'expérience, ces nuages sont en effet bien révélateurs sur les sujets abordés dans la blogosphères (les blogueurs qui ne parlent que de Twitter et d'Iphone par exemple ^^).

Je réalise actuellement avec mon associé un filtre pour classer automatiquement les articles postés sur les blogs de la plateforme EklaBlog. Ce filtre est adaptatif (sur la base du théorème de Bayes), et nous avons besoin d'une base classée pour l'entrainer. Je vais donc le tester avec la base de mots que vous proposez. Merci !

28 avril, 2009 19:34  
Blogger Jean Véronis a écrit...

Skreo> N'hésitez pas à me contacter (jean at veronis.fr). On peut peut-être faire des choses plus pointues ;-)

28 avril, 2009 19:40  
Anonymous MBt a écrit...

Bonjour,
Est-ce que ce nuage sait faire la différence entre le contenu du blog (de quoi parle le blog) et les commentaires (de quoi parlent les lecteurs du blog).

Normalement ça doit être assez proche en terme de vocabulaire mais ça peut fortement augmenter le poids des mots s'ils sont régulièrement répétés (sujet débatu dans les comms par exemple).

MBt

29 avril, 2009 17:51  
Blogger Jean Véronis a écrit...

Mbt> Wikio n'accède pas aux comentaires (seule capture du flux RSS). Mais vous avez raison, ce serait intéressant de comparer !

29 avril, 2009 17:54  
Blogger Dr Chewbacca a écrit...

Très bonne idée d'utilisation de Wordle (moi même je trouve l'outil génial, mais je n'arrive pas à trouver de vraies idées pour l'utiliser ; en voici une !).

Une remarque sur les fichiers de données proposés en annexe : dans certains thèmes, il y a beaucoup de mots composés. Par exemple dans la catégorie cinéma, "Brad Pitt" est compté comme "Brad" et "Pitt". Du coup à l'affichage du résultat, on ne voit pas Brad Pitt. On voit Brad à un endroit de l'image, et Pitt. Pour peu qu'il y ait un autre Brad qui fait l'actu, le mot Brad sera d'ailleurs plus gros que Pitt.

Idem dans le thème jeux vidéo : "Guitar Hero" devient "Guitar" et "Hero".

Bref, tout ça pour dire : vivement que les logiciels soient capables de comprendre quand 2 mots sont associés, et nous évitent d'avoir à bidouiller pour que Brad et Pitt restent collés.

30 avril, 2009 18:16  
Blogger Jean Véronis a écrit...

Dr Chebacca> Entièrement d'accord. En fait sur Brad Pitt et Guitar Hero ce ne serait pas très compliqué, mais sur le cas général c'est la galère... Il faut être très modeste face à notre langage : c'est la chose la plus complexe que nous ayons et nous n'avons pas encore "cassé le code" (certains disent même que c'est la seule chose qui nous distingue vraiment des animaux ;-)

30 avril, 2009 20:08  
Anonymous Barco Marie Paule a écrit...

Je lis avec intérêt toutes vos chroniques et j'y apprends beaucoup de choses. Au sujet des "blogs", je tiens le mien régulièrement à jour. J'écris des nouvelles policières pour le magazine "Nous Deux" depuis onze ans et je suis peintre depuis toujours. Ce média me permet d'informer en douceur mon public sans les importuner. Va sur mon blog qui veut ! Je vous mets en "lien"...
http://barcomariepaule.blogspot.com

06 mai, 2009 08:52  
Blogger Marie Laure a écrit...

Bravo ! C'est une bonne idée d'avoir fait ça ! ça fait aussi beaucoup réfléchir sur les blogs politiques.. et l'absence relative de toute autre chose que sarkozy et l'UMP !

08 mai, 2009 11:14  
Blogger Jean Véronis a écrit...

Hypos> Sarko c'est la Caulerpa Taxifolia de la politique... Plus rien d'autre ne peut pousser dans l'écosystème.

08 mai, 2009 11:17  
Anonymous L'ours a écrit...

Bonjour,
Certes, c'est joli et intéressant. Mais on peut arriver à des résultats surprenants... avec un peu de perversion. A voir chez moi. ;-)

http://carnetsdelours.over-blog.com/article-31294326.html

11 mai, 2009 20:18  
Anonymous Almaterra a écrit...

Et en plus, c'est joli !

31 mai, 2009 10:39  
Anonymous Christian Hivert a écrit...

et oui, c'est pas plus mal.

http://www;mouvementautonome.com

24 août, 2009 02:49  
Anonymous Jef a écrit...

MBT, Jean, Dr Chewbacca>
Pour la lemmatisation, j'ignore quels sont les technos que tu utilises, mais il existe un algorithme dispo pour la langue française sur le projet Snowball.
http://snowball.tartarus.org/algorithms/french/stemmer.html
C'est du C.

Il existe également un stemmer pour Lucene (Java), peut être plus simple à adapter / porter.

http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/fr/FrenchStemmer.html

J'ignore à ce stade si ces implémentations permettrons de distinguer Brad Pitt de Brad Meldhau (et encore moins nous des animaux).

25 août, 2009 16:15  

Enregistrer un commentaire