On croyait le
tricot passé de mode. Funeste erreur. Le dernier
classement Wikio a créé une petite tempête en propulsant
Froufrou et Capucine en 2e place, devant Techcrunch ! Nombre de geeks frustrés ont dû admettre avec plus ou moins de fair-play que c’était un passe-temps en pleine expansion (excellent résumé chez
Thierry Roget et bonnes analyses chez
Hypos,
Fredzone,
Narvic, etc.).

De fait, les blogs sur les loisirs créatifs sont littéralement en train d'exploser.
Martine Silber a émis une hypothèse intéressante : ils remplacent peut-être bien une
presse spécialisée disparue. Il fut un temps où cette image de femme tricoteuse exaspérait les féministes, mais si je lis bien
Olympe, il me semble que ça s’apaise.
Il est vrai qu’au départ, le
triquot n’était guère un instrument pour les faibles femmes, puisqu’il désignait familièrement un gourdin… C’était donc un proche parent de la
trique !
Tricoter n’avait pas du tout le sens pacifique que nous lui connaissons : c’était littéralement rosser quelqu’un à coups de bâton. Avoir
maille à partir avec quelqu’un pouvait vous valoir une
tricotée, comme on disait alors (la
maille n’était pas celle du tricot, c’était une monnaie valant un demi-denier, et
partir voulait dire partager). De fil en aiguille (si l’on peut dire),
tricoter s’est mis à vouloir dire sauter, danser en remuant beaucoup les jambes. Le
tricotage désignait d’ailleurs l’action de remuer les jambes dans une situation bien particulière et plutôt horizontale, vous me comprendrez à demi mots… C’est cette idée de mouvement rapide qui a fait appliquer le mot, vers le XVIè siècle, au va et vient des aiguilles de ces dames.
Quelques siècles plus tard, les geeks l’ont en travers, et Froufrou (ou est-ce Capucine ?) leur fait un clin d’oeil amical en dédiant l’un de ses billets à la «
révolution des tricoteuses »... Malicieuse Froufrou ! Les Tricoteuses ont eu leur moment de célébrité dans l’Histoire de France. Sous la Terreur, le Tribunal Révolutionnaire a besoin de faire légitimer son activité par les citoyens, et incite les femmes du peuple à s’installer dans les tribunes, où elles ont le droit de tricoter. Elles ne se privent cependant pas de perturber les débats, d’arroser les accusés d’insultes et de propos orduriers, y compris sur le trajet des charrettes jusqu’à l’échafaud. Elles se livraient même à de tels excès qu’on les a surnommées les « Furies de la guillotine ».
Les féministes peuvent se rassurer : les tricoteuses ne sont pas nécessairement des femmes soumises... Ca risque de chauffer dans la machosphère !
Bravo les filles. Je jubile (comme l’a deviné
Narvic).
Libellés : Wikio labs
21 Commentaires:
Bonjour,
"Le mot le plus utilisé est printemps."
Il perdrait peut-être sa place de leader au profit du "tissu" si on ajoutait à la fréquence de "tissu" celle de "tissus".
MBt
MBt> Oui, c'est vrai. Hélas c'est très difficile à faire automatiquement avec une bonne fiabilité (portes = porter/porte, etc.)...
Mais ça me donne des idées votre truc... Encore que pour ça, j'aurais besoin d'extraire les mots signifiants (pas les articles, les conjonctions de coordination etc, je suis sûr que vous avez un terme technique pour désigner ce dont je veux parler !)
Connaîtriez-vous un moyen simple de procéder à cette extraction ?
Merci d'avance.
Excellente idée ! Pas de doute, Wordle est vraiment un outil sympa... Intéressant de voir en un coup d'oeil ce qui fait parler les blogueurs. Certains sujets sont plus que récurrents... Et Google et Twitter toujours au sommet !
Flav> Et Sarko :-(
Enfin la promotion des thématiques et des cibles qui vont intéresser des annonceurs ayant une notoriété ou une puissance marketing plus réduite que les grands groupes. Et plus généralement enfin l'entrée des blogs dans la logique de supports spécialisés. Si Wikio a autant de visibilité auprès des annonceurs que ce qu'on lui prête, Wordle est effectivement un outil pertinent de promotion des blogs comme support.
Bonjour Monsieur,
Comme d'habitude, votre blogue et vos idées sont accrocheuses et pertinentes. Reprenant en partie les commentaires précédents, j'aurais quatre questions concernant votre dernier article :
- Utilisez-vous un anti-dictionnaire pour supprimer les mots-outils ?
- Pourquoi les caractères accentués sont-ils absents ? Wordle ne les supporte-t-il pas ?
- Quid des mots composés ? Sont-ils séparés en deux formes distinctes ?
- Pensez-vous qu'une lemmatisation préalable serait susceptible de révéler une répartition différente (voir gastronomie.txt : recette:1294 / recettes:596 ; étoile:21 / étoiles:21) ou renforcerait-telle les grandes tendances sachant que cette opération introduirait d'autres distorsions (pouvoir : subst. vs verbe) ?
En vous remerciant
V. Arnaud
V.Arnaud> Merci du compliment. Et j'ajouterais : comme toujours les commentaires sont aussi intéressants que le billet !
1. Antidico : oui, absolument (articles, etc.). Il y a également un deuxième filtrage, de nature statistique : les mots qui apparaissent de façon équivalente dans chacun des corpus sont considérés comme non pertinents.
2. Les caractères accentués sont absents par paresse de ma part... La prochaine fois ils y seront !
3. Il est très difficile de traiter les mots composés... On ne sait d'ailleurs pas très bien où s'arrêter ("roman policier" soit-il être séparé ?). En essayant de le faire on introduit généralement plus d'erreur que de bénéfice. Mais je suis d'accord : ce serait une amélioration notable.
4. La lemmatisation change très légèrement les choses. De petites modifs dans l'ordre, mais rien sur les grandes tendances. De plus, comme précédemment, on introduit tellement de bruit, que le bénéfice est annulé par les erreurs...
Le TAL c'est difficile !
Bravo pour l'expérience, ces nuages sont en effet bien révélateurs sur les sujets abordés dans la blogosphères (les blogueurs qui ne parlent que de Twitter et d'Iphone par exemple ^^).
Je réalise actuellement avec mon associé un filtre pour classer automatiquement les articles postés sur les blogs de la plateforme EklaBlog. Ce filtre est adaptatif (sur la base du théorème de Bayes), et nous avons besoin d'une base classée pour l'entrainer. Je vais donc le tester avec la base de mots que vous proposez. Merci !
Skreo> N'hésitez pas à me contacter (jean at veronis.fr). On peut peut-être faire des choses plus pointues ;-)
Bonjour,
Est-ce que ce nuage sait faire la différence entre le contenu du blog (de quoi parle le blog) et les commentaires (de quoi parlent les lecteurs du blog).
Normalement ça doit être assez proche en terme de vocabulaire mais ça peut fortement augmenter le poids des mots s'ils sont régulièrement répétés (sujet débatu dans les comms par exemple).
MBt
Mbt> Wikio n'accède pas aux comentaires (seule capture du flux RSS). Mais vous avez raison, ce serait intéressant de comparer !
Très bonne idée d'utilisation de Wordle (moi même je trouve l'outil génial, mais je n'arrive pas à trouver de vraies idées pour l'utiliser ; en voici une !).
Une remarque sur les fichiers de données proposés en annexe : dans certains thèmes, il y a beaucoup de mots composés. Par exemple dans la catégorie cinéma, "Brad Pitt" est compté comme "Brad" et "Pitt". Du coup à l'affichage du résultat, on ne voit pas Brad Pitt. On voit Brad à un endroit de l'image, et Pitt. Pour peu qu'il y ait un autre Brad qui fait l'actu, le mot Brad sera d'ailleurs plus gros que Pitt.
Idem dans le thème jeux vidéo : "Guitar Hero" devient "Guitar" et "Hero".
Bref, tout ça pour dire : vivement que les logiciels soient capables de comprendre quand 2 mots sont associés, et nous évitent d'avoir à bidouiller pour que Brad et Pitt restent collés.
Dr Chebacca> Entièrement d'accord. En fait sur Brad Pitt et Guitar Hero ce ne serait pas très compliqué, mais sur le cas général c'est la galère... Il faut être très modeste face à notre langage : c'est la chose la plus complexe que nous ayons et nous n'avons pas encore "cassé le code" (certains disent même que c'est la seule chose qui nous distingue vraiment des animaux ;-)
Je lis avec intérêt toutes vos chroniques et j'y apprends beaucoup de choses. Au sujet des "blogs", je tiens le mien régulièrement à jour. J'écris des nouvelles policières pour le magazine "Nous Deux" depuis onze ans et je suis peintre depuis toujours. Ce média me permet d'informer en douceur mon public sans les importuner. Va sur mon blog qui veut ! Je vous mets en "lien"...
http://barcomariepaule.blogspot.com
Bravo ! C'est une bonne idée d'avoir fait ça ! ça fait aussi beaucoup réfléchir sur les blogs politiques.. et l'absence relative de toute autre chose que sarkozy et l'UMP !
Hypos> Sarko c'est la Caulerpa Taxifolia de la politique... Plus rien d'autre ne peut pousser dans l'écosystème.
Bonjour,
Certes, c'est joli et intéressant. Mais on peut arriver à des résultats surprenants... avec un peu de perversion. A voir chez moi. ;-)
http://carnetsdelours.over-blog.com/article-31294326.html
Et en plus, c'est joli !
et oui, c'est pas plus mal.
http://www;mouvementautonome.com
MBT, Jean, Dr Chewbacca>
Pour la lemmatisation, j'ignore quels sont les technos que tu utilises, mais il existe un algorithme dispo pour la langue française sur le projet Snowball.
http://snowball.tartarus.org/algorithms/french/stemmer.html
C'est du C.
Il existe également un stemmer pour Lucene (Java), peut être plus simple à adapter / porter.
http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/fr/FrenchStemmer.html
J'ignore à ce stade si ces implémentations permettrons de distinguer Brad Pitt de Brad Meldhau (et encore moins nous des animaux).
Enregistrer un commentaire