Web: De quoi parlent les blogs ?
De quoi parle ce nouveau "continent" des blogs de loisirs créatifs qui semble littéralement exploser la blogosphère ces derniers temps ? Pour le savoir, j'ai mouliné avec l'aide de Thomas (développeur chez Wikio, avec qui c'est un grand plaisir de travailler !) les 100 premiers blogs de la catégorie Loisirs, et j'ai injecté tous les mots dans la superbe application Wordle, que vous connaissez certainement. Voilà le résultat :
Je l'offre en hommage à nos fières tricoteuses ! Le mot le plus utilisé est printemps. Joli, non? Maman, bébé, enfants, créations, que du bonheur. Est-ce que vous vous y retrouvez, les filles ?
Et quel contraste avec la blogosphère high-tech. Là, les mecs (le plus souvent) parlent de Google, d'iPhone, de Twitter... Bon, la différenciation culturelle des sexes, ce n'est pas encore fini ! Papa bricole (sur Internet, désormais), maman tricote (sur Internet aussi : finalement, c'est ce qui les rapproche !).
Et pour vous faire patienter pendant que vous vous rongez les ongles en attendant le prochain classement (non ?), voici le monde lexical de chacune des 15 catégories de blogs sur Wikio (cliquez sur l'image).
N'hésitez pas à copier et utiliser les images à votre guise (un p'tit lien de reconnaissance serait sympa). Et si vous voulez vous même jouer avec Wordle, et créer vos propres nuages, vous pouvez télécharger les données ici (chaque fichier contient deux colonnes, mot:fréquence — attention il faut utiliser http://www.wordle.net/advanced).
Bonnes créations et bonne promenade dans les nuages !
Je l'offre en hommage à nos fières tricoteuses ! Le mot le plus utilisé est printemps. Joli, non? Maman, bébé, enfants, créations, que du bonheur. Est-ce que vous vous y retrouvez, les filles ?
Et quel contraste avec la blogosphère high-tech. Là, les mecs (le plus souvent) parlent de Google, d'iPhone, de Twitter... Bon, la différenciation culturelle des sexes, ce n'est pas encore fini ! Papa bricole (sur Internet, désormais), maman tricote (sur Internet aussi : finalement, c'est ce qui les rapproche !).
Et pour vous faire patienter pendant que vous vous rongez les ongles en attendant le prochain classement (non ?), voici le monde lexical de chacune des 15 catégories de blogs sur Wikio (cliquez sur l'image).
N'hésitez pas à copier et utiliser les images à votre guise (un p'tit lien de reconnaissance serait sympa). Et si vous voulez vous même jouer avec Wordle, et créer vos propres nuages, vous pouvez télécharger les données ici (chaque fichier contient deux colonnes, mot:fréquence — attention il faut utiliser http://www.wordle.net/advanced).
Bonnes créations et bonne promenade dans les nuages !
Libellés : Blogs, Wikio labs
21 Commentaires:
Bonjour,
"Le mot le plus utilisé est printemps."
Il perdrait peut-être sa place de leader au profit du "tissu" si on ajoutait à la fréquence de "tissu" celle de "tissus".
MBt
MBt> Oui, c'est vrai. Hélas c'est très difficile à faire automatiquement avec une bonne fiabilité (portes = porter/porte, etc.)...
Mais ça me donne des idées votre truc... Encore que pour ça, j'aurais besoin d'extraire les mots signifiants (pas les articles, les conjonctions de coordination etc, je suis sûr que vous avez un terme technique pour désigner ce dont je veux parler !)
Connaîtriez-vous un moyen simple de procéder à cette extraction ?
Merci d'avance.
Excellente idée ! Pas de doute, Wordle est vraiment un outil sympa... Intéressant de voir en un coup d'oeil ce qui fait parler les blogueurs. Certains sujets sont plus que récurrents... Et Google et Twitter toujours au sommet !
Flav> Et Sarko :-(
Enfin la promotion des thématiques et des cibles qui vont intéresser des annonceurs ayant une notoriété ou une puissance marketing plus réduite que les grands groupes. Et plus généralement enfin l'entrée des blogs dans la logique de supports spécialisés. Si Wikio a autant de visibilité auprès des annonceurs que ce qu'on lui prête, Wordle est effectivement un outil pertinent de promotion des blogs comme support.
Bonjour Monsieur,
Comme d'habitude, votre blogue et vos idées sont accrocheuses et pertinentes. Reprenant en partie les commentaires précédents, j'aurais quatre questions concernant votre dernier article :
- Utilisez-vous un anti-dictionnaire pour supprimer les mots-outils ?
- Pourquoi les caractères accentués sont-ils absents ? Wordle ne les supporte-t-il pas ?
- Quid des mots composés ? Sont-ils séparés en deux formes distinctes ?
- Pensez-vous qu'une lemmatisation préalable serait susceptible de révéler une répartition différente (voir gastronomie.txt : recette:1294 / recettes:596 ; étoile:21 / étoiles:21) ou renforcerait-telle les grandes tendances sachant que cette opération introduirait d'autres distorsions (pouvoir : subst. vs verbe) ?
En vous remerciant
V. Arnaud
V.Arnaud> Merci du compliment. Et j'ajouterais : comme toujours les commentaires sont aussi intéressants que le billet !
1. Antidico : oui, absolument (articles, etc.). Il y a également un deuxième filtrage, de nature statistique : les mots qui apparaissent de façon équivalente dans chacun des corpus sont considérés comme non pertinents.
2. Les caractères accentués sont absents par paresse de ma part... La prochaine fois ils y seront !
3. Il est très difficile de traiter les mots composés... On ne sait d'ailleurs pas très bien où s'arrêter ("roman policier" soit-il être séparé ?). En essayant de le faire on introduit généralement plus d'erreur que de bénéfice. Mais je suis d'accord : ce serait une amélioration notable.
4. La lemmatisation change très légèrement les choses. De petites modifs dans l'ordre, mais rien sur les grandes tendances. De plus, comme précédemment, on introduit tellement de bruit, que le bénéfice est annulé par les erreurs...
Le TAL c'est difficile !
Bravo pour l'expérience, ces nuages sont en effet bien révélateurs sur les sujets abordés dans la blogosphères (les blogueurs qui ne parlent que de Twitter et d'Iphone par exemple ^^).
Je réalise actuellement avec mon associé un filtre pour classer automatiquement les articles postés sur les blogs de la plateforme EklaBlog. Ce filtre est adaptatif (sur la base du théorème de Bayes), et nous avons besoin d'une base classée pour l'entrainer. Je vais donc le tester avec la base de mots que vous proposez. Merci !
Skreo> N'hésitez pas à me contacter (jean at veronis.fr). On peut peut-être faire des choses plus pointues ;-)
Bonjour,
Est-ce que ce nuage sait faire la différence entre le contenu du blog (de quoi parle le blog) et les commentaires (de quoi parlent les lecteurs du blog).
Normalement ça doit être assez proche en terme de vocabulaire mais ça peut fortement augmenter le poids des mots s'ils sont régulièrement répétés (sujet débatu dans les comms par exemple).
MBt
Mbt> Wikio n'accède pas aux comentaires (seule capture du flux RSS). Mais vous avez raison, ce serait intéressant de comparer !
Très bonne idée d'utilisation de Wordle (moi même je trouve l'outil génial, mais je n'arrive pas à trouver de vraies idées pour l'utiliser ; en voici une !).
Une remarque sur les fichiers de données proposés en annexe : dans certains thèmes, il y a beaucoup de mots composés. Par exemple dans la catégorie cinéma, "Brad Pitt" est compté comme "Brad" et "Pitt". Du coup à l'affichage du résultat, on ne voit pas Brad Pitt. On voit Brad à un endroit de l'image, et Pitt. Pour peu qu'il y ait un autre Brad qui fait l'actu, le mot Brad sera d'ailleurs plus gros que Pitt.
Idem dans le thème jeux vidéo : "Guitar Hero" devient "Guitar" et "Hero".
Bref, tout ça pour dire : vivement que les logiciels soient capables de comprendre quand 2 mots sont associés, et nous évitent d'avoir à bidouiller pour que Brad et Pitt restent collés.
Dr Chebacca> Entièrement d'accord. En fait sur Brad Pitt et Guitar Hero ce ne serait pas très compliqué, mais sur le cas général c'est la galère... Il faut être très modeste face à notre langage : c'est la chose la plus complexe que nous ayons et nous n'avons pas encore "cassé le code" (certains disent même que c'est la seule chose qui nous distingue vraiment des animaux ;-)
Je lis avec intérêt toutes vos chroniques et j'y apprends beaucoup de choses. Au sujet des "blogs", je tiens le mien régulièrement à jour. J'écris des nouvelles policières pour le magazine "Nous Deux" depuis onze ans et je suis peintre depuis toujours. Ce média me permet d'informer en douceur mon public sans les importuner. Va sur mon blog qui veut ! Je vous mets en "lien"...
http://barcomariepaule.blogspot.com
Bravo ! C'est une bonne idée d'avoir fait ça ! ça fait aussi beaucoup réfléchir sur les blogs politiques.. et l'absence relative de toute autre chose que sarkozy et l'UMP !
Hypos> Sarko c'est la Caulerpa Taxifolia de la politique... Plus rien d'autre ne peut pousser dans l'écosystème.
Bonjour,
Certes, c'est joli et intéressant. Mais on peut arriver à des résultats surprenants... avec un peu de perversion. A voir chez moi. ;-)
http://carnetsdelours.over-blog.com/article-31294326.html
Et en plus, c'est joli !
et oui, c'est pas plus mal.
http://www;mouvementautonome.com
MBT, Jean, Dr Chewbacca>
Pour la lemmatisation, j'ignore quels sont les technos que tu utilises, mais il existe un algorithme dispo pour la langue française sur le projet Snowball.
http://snowball.tartarus.org/algorithms/french/stemmer.html
C'est du C.
Il existe également un stemmer pour Lucene (Java), peut être plus simple à adapter / porter.
http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/fr/FrenchStemmer.html
J'ignore à ce stade si ces implémentations permettrons de distinguer Brad Pitt de Brad Meldhau (et encore moins nous des animaux).
Enregistrer un commentaire