Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter

mardi, avril 28, 2009

Web: De quoi parlent les blogs ?

De quoi parle ce nouveau "continent" des blogs de loisirs créatifs qui semble littéralement exploser la blogosphère ces derniers temps ? Pour le savoir, j'ai mouliné avec l'aide de Thomas (développeur chez Wikio, avec qui c'est un grand plaisir de travailler !) les 100 premiers blogs de la catégorie Loisirs, et j'ai injecté tous les mots dans la superbe application Wordle, que vous connaissez certainement. Voilà le résultat :


Je l'offre en hommage à nos fières tricoteuses ! Le mot le plus utilisé est printemps. Joli, non? Maman, bébé, enfants, créations, que du bonheur. Est-ce que vous vous y retrouvez, les filles ?

Et quel contraste avec la blogosphère high-tech. Là, les mecs (le plus souvent) parlent de Google, d'iPhone, de Twitter... Bon, la différenciation culturelle des sexes, ce n'est pas encore fini ! Papa bricole (sur Internet, désormais), maman tricote (sur Internet aussi : finalement, c'est ce qui les rapproche !).


Et pour vous faire patienter pendant que vous vous rongez les ongles en attendant le prochain classement (non ?), voici le monde lexical de chacune des 15 catégories de blogs sur Wikio (cliquez sur l'image).


N'hésitez pas à copier et utiliser les images à votre guise (un p'tit lien de reconnaissance serait sympa). Et si vous voulez vous même jouer avec Wordle, et créer vos propres nuages, vous pouvez télécharger les données ici (chaque fichier contient deux colonnes, mot:fréquence — attention il faut utiliser http://www.wordle.net/advanced).

Bonnes créations et bonne promenade dans les nuages !

Libellés : ,


21 Commentaires:

Anonymous MBt a écrit...

Bonjour,
"Le mot le plus utilisé est printemps."
Il perdrait peut-être sa place de leader au profit du "tissu" si on ajoutait à la fréquence de "tissu" celle de "tissus".

MBt

28 avril, 2009 09:40  
Blogger Jean Véronis a écrit...

MBt> Oui, c'est vrai. Hélas c'est très difficile à faire automatiquement avec une bonne fiabilité (portes = porter/porte, etc.)...

28 avril, 2009 09:47  
Anonymous GG a écrit...

Mais ça me donne des idées votre truc... Encore que pour ça, j'aurais besoin d'extraire les mots signifiants (pas les articles, les conjonctions de coordination etc, je suis sûr que vous avez un terme technique pour désigner ce dont je veux parler !)
Connaîtriez-vous un moyen simple de procéder à cette extraction ?
Merci d'avance.

28 avril, 2009 11:13  
Anonymous Flav a écrit...

Excellente idée ! Pas de doute, Wordle est vraiment un outil sympa... Intéressant de voir en un coup d'oeil ce qui fait parler les blogueurs. Certains sujets sont plus que récurrents... Et Google et Twitter toujours au sommet !

28 avril, 2009 11:38  
Blogger Jean Véronis a écrit...

Flav> Et Sarko :-(

28 avril, 2009 12:02  
Anonymous Secteur Sud a écrit...

Enfin la promotion des thématiques et des cibles qui vont intéresser des annonceurs ayant une notoriété ou une puissance marketing plus réduite que les grands groupes. Et plus généralement enfin l'entrée des blogs dans la logique de supports spécialisés. Si Wikio a autant de visibilité auprès des annonceurs que ce qu'on lui prête, Wordle est effectivement un outil pertinent de promotion des blogs comme support.

28 avril, 2009 13:20  
Anonymous Anonyme a écrit...

Bonjour Monsieur,

Comme d'habitude, votre blogue et vos idées sont accrocheuses et pertinentes. Reprenant en partie les commentaires précédents, j'aurais quatre questions concernant votre dernier article :

- Utilisez-vous un anti-dictionnaire pour supprimer les mots-outils ?

- Pourquoi les caractères accentués sont-ils absents ? Wordle ne les supporte-t-il pas ?

- Quid des mots composés ? Sont-ils séparés en deux formes distinctes ?

- Pensez-vous qu'une lemmatisation préalable serait susceptible de révéler une répartition différente (voir gastronomie.txt : recette:1294 / recettes:596 ; étoile:21 / étoiles:21) ou renforcerait-telle les grandes tendances sachant que cette opération introduirait d'autres distorsions (pouvoir : subst. vs verbe) ?

En vous remerciant
V. Arnaud

28 avril, 2009 14:13  
Blogger Jean Véronis a écrit...

V.Arnaud> Merci du compliment. Et j'ajouterais : comme toujours les commentaires sont aussi intéressants que le billet !

1. Antidico : oui, absolument (articles, etc.). Il y a également un deuxième filtrage, de nature statistique : les mots qui apparaissent de façon équivalente dans chacun des corpus sont considérés comme non pertinents.

2. Les caractères accentués sont absents par paresse de ma part... La prochaine fois ils y seront !

3. Il est très difficile de traiter les mots composés... On ne sait d'ailleurs pas très bien où s'arrêter ("roman policier" soit-il être séparé ?). En essayant de le faire on introduit généralement plus d'erreur que de bénéfice. Mais je suis d'accord : ce serait une amélioration notable.

4. La lemmatisation change très légèrement les choses. De petites modifs dans l'ordre, mais rien sur les grandes tendances. De plus, comme précédemment, on introduit tellement de bruit, que le bénéfice est annulé par les erreurs...

Le TAL c'est difficile !

28 avril, 2009 14:32  
Blogger Skreo a écrit...

Bravo pour l'expérience, ces nuages sont en effet bien révélateurs sur les sujets abordés dans la blogosphères (les blogueurs qui ne parlent que de Twitter et d'Iphone par exemple ^^).

Je réalise actuellement avec mon associé un filtre pour classer automatiquement les articles postés sur les blogs de la plateforme EklaBlog. Ce filtre est adaptatif (sur la base du théorème de Bayes), et nous avons besoin d'une base classée pour l'entrainer. Je vais donc le tester avec la base de mots que vous proposez. Merci !

28 avril, 2009 19:34  
Blogger Jean Véronis a écrit...

Skreo> N'hésitez pas à me contacter (jean at veronis.fr). On peut peut-être faire des choses plus pointues ;-)

28 avril, 2009 19:40  
Anonymous MBt a écrit...

Bonjour,
Est-ce que ce nuage sait faire la différence entre le contenu du blog (de quoi parle le blog) et les commentaires (de quoi parlent les lecteurs du blog).

Normalement ça doit être assez proche en terme de vocabulaire mais ça peut fortement augmenter le poids des mots s'ils sont régulièrement répétés (sujet débatu dans les comms par exemple).

MBt

29 avril, 2009 17:51  
Blogger Jean Véronis a écrit...

Mbt> Wikio n'accède pas aux comentaires (seule capture du flux RSS). Mais vous avez raison, ce serait intéressant de comparer !

29 avril, 2009 17:54  
Blogger Dr Chewbacca a écrit...

Très bonne idée d'utilisation de Wordle (moi même je trouve l'outil génial, mais je n'arrive pas à trouver de vraies idées pour l'utiliser ; en voici une !).

Une remarque sur les fichiers de données proposés en annexe : dans certains thèmes, il y a beaucoup de mots composés. Par exemple dans la catégorie cinéma, "Brad Pitt" est compté comme "Brad" et "Pitt". Du coup à l'affichage du résultat, on ne voit pas Brad Pitt. On voit Brad à un endroit de l'image, et Pitt. Pour peu qu'il y ait un autre Brad qui fait l'actu, le mot Brad sera d'ailleurs plus gros que Pitt.

Idem dans le thème jeux vidéo : "Guitar Hero" devient "Guitar" et "Hero".

Bref, tout ça pour dire : vivement que les logiciels soient capables de comprendre quand 2 mots sont associés, et nous évitent d'avoir à bidouiller pour que Brad et Pitt restent collés.

30 avril, 2009 18:16  
Blogger Jean Véronis a écrit...

Dr Chebacca> Entièrement d'accord. En fait sur Brad Pitt et Guitar Hero ce ne serait pas très compliqué, mais sur le cas général c'est la galère... Il faut être très modeste face à notre langage : c'est la chose la plus complexe que nous ayons et nous n'avons pas encore "cassé le code" (certains disent même que c'est la seule chose qui nous distingue vraiment des animaux ;-)

30 avril, 2009 20:08  
Anonymous Barco Marie Paule a écrit...

Je lis avec intérêt toutes vos chroniques et j'y apprends beaucoup de choses. Au sujet des "blogs", je tiens le mien régulièrement à jour. J'écris des nouvelles policières pour le magazine "Nous Deux" depuis onze ans et je suis peintre depuis toujours. Ce média me permet d'informer en douceur mon public sans les importuner. Va sur mon blog qui veut ! Je vous mets en "lien"...
http://barcomariepaule.blogspot.com

06 mai, 2009 08:52  
Blogger hypos a écrit...

Bravo ! C'est une bonne idée d'avoir fait ça ! ça fait aussi beaucoup réfléchir sur les blogs politiques.. et l'absence relative de toute autre chose que sarkozy et l'UMP !

08 mai, 2009 11:14  
Blogger Jean Véronis a écrit...

Hypos> Sarko c'est la Caulerpa Taxifolia de la politique... Plus rien d'autre ne peut pousser dans l'écosystème.

08 mai, 2009 11:17  
Anonymous L'ours a écrit...

Bonjour,
Certes, c'est joli et intéressant. Mais on peut arriver à des résultats surprenants... avec un peu de perversion. A voir chez moi. ;-)

http://carnetsdelours.over-blog.com/article-31294326.html

11 mai, 2009 20:18  
Anonymous Almaterra a écrit...

Et en plus, c'est joli !

31 mai, 2009 10:39  
Anonymous Christian Hivert a écrit...

et oui, c'est pas plus mal.

http://www;mouvementautonome.com

24 août, 2009 02:49  
Anonymous Jef a écrit...

MBT, Jean, Dr Chewbacca>
Pour la lemmatisation, j'ignore quels sont les technos que tu utilises, mais il existe un algorithme dispo pour la langue française sur le projet Snowball.
http://snowball.tartarus.org/algorithms/french/stemmer.html
C'est du C.

Il existe également un stemmer pour Lucene (Java), peut être plus simple à adapter / porter.

http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/fr/FrenchStemmer.html

J'ignore à ce stade si ces implémentations permettrons de distinguer Brad Pitt de Brad Meldhau (et encore moins nous des animaux).

25 août, 2009 16:15  

Enregistrer un commentaire

jeudi, avril 16, 2009

Services: Suggestions sur Pages Jaunes

La fonctionnalité d'autocomplétion est à la mode. Google l'avait lancée avec son module de suggestion (pour l'anglais) dès 2005 (j'en avais parlé ici et ici). Elle est apparue ensuite sur Yahoo, sur Orange, et Google l'a aussi adaptée au français avec pas mal de retard (voir ici).

Depuis quelques minutes, elle est aussi disponible chez Pages Jaunes :


Dans le cas de Pages Jaunes, ce n'est pas si simple. Il ne suffit pas de remonter n'importe quelle requête fréquente tapée par les utilisateurs. Pages Jaunes est fidèle à sa tradition de qualité, et vous pourrez constater que par exemple dans le cas de couples pluriel/singulier, un seul remonte (ex.: plombier mais pas plombiers). D'ailleurs on nous propose (à juste titre) un plombier, mais des pompiers, un hôtel mais des vêtements, etc.

Le traitement des erreurs orthographiques est également soigné. Si vous suivez ce blog depuis longtemps vous savez sans doute qu'un bonne partie de la population tape génycologue au lieu de gynécologue (voir ici). Eh bien, tapez gen- : Pages Jaunes vous propose les gendarmeries, mais aussi les gynécologues.


Bien joué !

13 Commentaires:

Blogger Louis Volant a écrit...

Quand on se dit que la fonctionnalité d'auto-complétion est disponible sur Yahoo, Orange et les Pages Jaune, et qu'elle ne l'est toujours pas chez MSN Live Search...

... On est en droit de se poser quelques questions.

16 avril, 2009 16:39  
Anonymous fromageplus a écrit...

Ah oui, j'ai une question :
Pourquoi les moteurs de recherche supposent-ils SYSTÉMATIQUEMENT que nous fassions des fautes d'orthographe ou de grammaire dans nos recherches ? C'est littéralement épuisant de devoir multiplier les requêtes entourées de guillemets dans tous les coins pour espérer trouver la bonne informationn, dépêtrée de la gangue de réponses approximatives, voire carrément hors-sujet que Google va chercher tout seul !
Y a-t-il un moyen de désactiver cette désagréable et agaçante initiative de Google ?

D'autre part, j'espère que les Pages Jaunes continueront d'intégrer ces délices linguistiques dont j'avais mention en 2006 :
http://fromageplus.hautetfort.com/archive/2006/10/23/les-pages-jaunes.html

16 avril, 2009 17:11  
Blogger Jean Véronis a écrit...

Louis> Je n'ai pas de réponse... MSN était un peu à la traîne, mais je sais qu'ils bossent dur dans les centres de recherche (et pas que sur la complétion).

16 avril, 2009 17:20  
Blogger Toutankharton a écrit...

google fonctionne quand meme mieux : pour 'gén' il ne propose pas gendarmerie (qui mettrais un é pour chercher gendarmerie) mais genealogie. pour 'gény' on a bien gynéco

16 avril, 2009 17:26  
Blogger Jean Véronis a écrit...

FromagePlus> Pages jaunes essaie de ne proposer que des suggetions bien orthographiés, justement. Merci pour le lien : tordant !

16 avril, 2009 20:41  
Blogger Jean Véronis a écrit...

Toutankharton> Oui, il faudrait que Pages jaunes prenne en compte les accents dans la saisie. Ca ne semble pas être une amélioration bien difficile. Je parie qu'elle arrivera bientôt.

16 avril, 2009 20:43  
Anonymous az a écrit...

FromagePlus> c'est pénible effectivement.. ce comportement de la correction "par défaut" sans passer par les suggestions est assez récent il me semble.
Jean Véronis s'en souviendra peut être mieux que moi, mais je crois que ça date d'un an en gros.

La seule solution que j'ai trouvé pour le moment (mis à part ne PAS utiliser Google), c'est de mettre des '+' devant tous les éléments de ma requete.

Maigre consolation, mais c'est quand même un caractère de moins que de mettre deux guillemets :)

A une époque, il était également possible de "lier" les keywords d'une requete en mettant un '.' entre les mots, plutot que des guillemets autour.
C'était notamment pratique pour des recherches type [intitle:index.of], plus rapide que [intitle:"index of"]

Cette fonctionnalité 'cachée' a également disparue. Maintenant une recherche [soleil.noir] n'est plus équivalente à ["soleil noir"]
et [+"soleil noir"] n'est plus équivalent à ["soleil noir"]

Sans compter le nombre de résultats qui ne veut plus rien dire.. alors qu'il fût un temps ou c'était un indicateur utile lors du travail de re-formulation d'une requête..

Bref, pour la précision, il faut oublier Google maintenant. Nous autres les "power searchers" représentons tellement peu de part de marché pour eux qu'on ne peut pas espérer voir le moteur évoluer dans ce qu'on estime être "le bon sens".
Et de toutes façons, les "power searchers" ne cliquent pas sur les pubs... ;)

Pour faire de la recherche de précision, il faut plutôt aller voir du coté de Yahoo, qui dispose encore d'opérateurs très puissants.
Beaucoup ne sont pas documentés, mais ils peuvent être retrouvés en fouillant un peu... Il suffit par exemple de se souvenir que Yahoo a racheté Inktomi, qui dispose de documentation plus poussée.

Exemple de description de ces opérateurs : http://www.searchlores.org/inktomi.html
Si vous savez "crafter" des belles requêtes, la boite à outil de Yahoo/Inktomi est nettement plus utile que celle de Google.

Ah, et un petit exercice sur les moteurs de recherche : quels sont les moteurs qui permettent de trouver tous les résultats d'une adresse IP donnée ? (un [site:] qui fonctionnerait sur l'IP et pas le nom de domaine)

17 avril, 2009 18:26  
Anonymous Neville a écrit...

Tant qu'aucun moteur ne propose "Maître Kanter" quand on cherche "Gendarmerie" ...

21 avril, 2009 22:24  
Anonymous martine s a écrit...

juste comme ça: j'avais tapé youpee avec trois eee à la fin et le correcteur m'a proposé youpine, ça m'a fait un choc

25 avril, 2009 09:20  
Blogger Jean Véronis a écrit...

Martine S> C'est toujours très dificile de filtrer tous les termes "tabous"... mais dans ce cas précis, ce que vous me dites m'étonne. Je n'ai pas pu reproduire ce comportement.

25 avril, 2009 12:40  
Anonymous martine s a écrit...

c'est arrivé en rédigeant un message blog sur mon blog, il y a une semaine ou deux. Vous voulez dire que cela n'arrive que quand c'est moi qui écris (argh la parano)ou que vous ne me croyez pas?
tiens je vais rééssayer....

25 avril, 2009 14:57  
Blogger Jean Véronis a écrit...

Martine S> Merci de m'avoir envoyé la copie d'écran par mail. Nous étions sur un malentendu. Je croyais que vous parliez du service de suggestions de Pages Jaunes.

En fat, cette suggestion du mot "youpine" se fait dans la correction orthographique de Blogger (qui est aussi la plateforme du présent blog). Blogger propose aussi "salope" si vous tapez "salipe" et ainsi de suite. Tous mots "tabous" que Microsoft a enlevé de son dictionnaire il y a quelques années pour éviter des soucis.

Je ne sais pas ce qu'il faut en penser... Sur Pages Jaunes ça aurait certes très ennuyeux, car la proposition d'une rubrique "youpine" serait une énorme maladresse. Heureusement que ce n'est pas la cas.

Sur le correcteur orthographique d'un blog, je ne sais pas. Je peux défendre la cause féminine (ce qui est mon cas) et parler du manifeste des 143 salopes... Ou dénoncer le fait que la Miss France 2006 ait été traitée de youpine (ce qui a hélas été le cas).

Faut-il enlever ces mots du dictionnaire ? J'ai un peu peur d'un scénario orwellien. Comme l'on sait, le mot "chien" ne mord pas. Il faut parfois écrire des mots pour dénoncer ce qu'ils sous-entendent...

25 avril, 2009 18:50  
Anonymous ms a écrit...

@jean sur le fond, no problem en ce qui me concerne. un correcteur orthographique ne peut pas faire mieux qu'un dictionnaire et youpin/youpine c'est dans le dictionnaire.

C'est juste que ça m'a littéralement sauté au nez ( mon sens de l'humour est nazebroc). ça surprend...

25 avril, 2009 19:42  

Enregistrer un commentaire

lundi, avril 13, 2009

Lexique: La révolution des tricoteuses

On croyait le tricot passé de mode. Funeste erreur. Le dernier classement Wikio a créé une petite tempête en propulsant Froufrou et Capucine en 2e place, devant Techcrunch ! Nombre de geeks frustrés ont dû admettre avec plus ou moins de fair-play que c’était un passe-temps en pleine expansion (excellent résumé chez Thierry Roget et bonnes analyses chez Hypos, Fredzone, Narvic, etc.).


De fait, les blogs sur les loisirs créatifs sont littéralement en train d'exploser. Martine Silber a émis une hypothèse intéressante : ils remplacent peut-être bien une presse spécialisée disparue. Il fut un temps où cette image de femme tricoteuse exaspérait les féministes, mais si je lis bien Olympe, il me semble que ça s’apaise.

Il est vrai qu’au départ, le triquot n’était guère un instrument pour les faibles femmes, puisqu’il désignait familièrement un gourdin… C’était donc un proche parent de la trique ! Tricoter n’avait pas du tout le sens pacifique que nous lui connaissons : c’était littéralement rosser quelqu’un à coups de bâton. Avoir maille à partir avec quelqu’un pouvait vous valoir une tricotée, comme on disait alors (la maille n’était pas celle du tricot, c’était une monnaie valant un demi-denier, et partir voulait dire partager). De fil en aiguille (si l’on peut dire), tricoter s’est mis à vouloir dire sauter, danser en remuant beaucoup les jambes. Le tricotage désignait d’ailleurs l’action de remuer les jambes dans une situation bien particulière et plutôt horizontale, vous me comprendrez à demi mots… C’est cette idée de mouvement rapide qui a fait appliquer le mot, vers le XVIè siècle, au va et vient des aiguilles de ces dames.

Quelques siècles plus tard, les geeks l’ont en travers, et Froufrou (ou est-ce Capucine ?) leur fait un clin d’oeil amical en dédiant l’un de ses billets à la « révolution des tricoteuses »... Malicieuse Froufrou ! Les Tricoteuses ont eu leur moment de célébrité dans l’Histoire de France. Sous la Terreur, le Tribunal Révolutionnaire a besoin de faire légitimer son activité par les citoyens, et incite les femmes du peuple à s’installer dans les tribunes, où elles ont le droit de tricoter. Elles ne se privent cependant pas de perturber les débats, d’arroser les accusés d’insultes et de propos orduriers, y compris sur le trajet des charrettes jusqu’à l’échafaud. Elles se livraient même à de tels excès qu’on les a surnommées les « Furies de la guillotine ».

Les féministes peuvent se rassurer : les tricoteuses ne sont pas nécessairement des femmes soumises... Ca risque de chauffer dans la machosphère !

Bravo les filles. Je jubile (comme l’a deviné Narvic).

Libellés :


27 Commentaires:

OpenID lordphoenix a écrit...

Je me demande si ce n'est pas aussi une évolution naturelle. Que les blogs techno soient resté en haut des classements pendant longtemps n'est il pas simplement du au fait que les personnes concernés était les plus à même de créer ou de lire des blogs. Maintenant ils se font rattraper par des blogs portant sur d'autres sujet car il a fallu plus de temps pour adopter ces pratiques dans des population qui y sont simplement moins sensible.

13 avril, 2009 23:09  
Blogger Jean Véronis a écrit...

Il y a certainement de ça. Les geeks étaient des "early adopters", et il se trouve qu'ils passent à autre chose (twitter & co) au moment où une population plus large s'investit dans les blogs... Et il y a aussi un phénomène d'usure : beaucoup de blogs high-tech sont des ressucées des mêmes "infos" (google, l'iphone) dans des tentatives désespérées de faire 4 sous avec des pubs. Le lecteur n'est pas dupe. Il y a chez les "tricoteuses" une vraie dynamique, de vraies communautés. La roue tourne (c'est ça le sens du mot "révolution", finalement ;-)

13 avril, 2009 23:16  
Anonymous Siegfried aka CaptainWeb a écrit...

Le plus drôle reste à venir et j'attends avec impatience l'arrivée des Skyblogs dans le classement.

Il va falloir alors apprendre à écrire en SMS, tout en intéressant les fans de tricot et les acharnés de HighTech pour retrouver le top du classement général Wikio.

Ca devrait donner quelque chose comme ceci :

"Yo yo lé Kopin, dé zéguil za trikoter USB! RT pliz"

Je me régale d'avance ;)

13 avril, 2009 23:25  
Blogger Jean Véronis a écrit...

Excellent ! J'avais fait un outil pour aider les plus de 40 ans :

Pourissé vos texte

13 avril, 2009 23:28  
Blogger Nicolas a écrit...

D'un autre côté, coller plein de gonzesses dans le classement était-il nécessaire ?

Une ou deux, je veux bien, mais un de ces jours, elles vont exiger qu'on fasse la vaisselle.

;-)

13 avril, 2009 23:42  
Blogger Jean Véronis a écrit...

Mon pauvre Nicolas... Le prochain truc s'appelle parthénogenèse. je suis sûr qu'avec les bricolages génétiques on n'en est pas si loin. Ca nous remet un peu le zizi à sa place !

13 avril, 2009 23:45  
Anonymous Siegfried a écrit...

Excellent le pourrisseur d'orthographe! Y'a une intégration prévue avec la future API Wikio? :D

14 avril, 2009 00:01  
Blogger Jean Véronis a écrit...

Dès que j'aurai réussi à mettre au point un algo qui pourrit l'orthographe des tricoteuses et corrige celle des geeks ;-)

14 avril, 2009 00:03  
Anonymous mademoisellep a écrit...

une passionnante vision du web, que Wikio contribue heureusement à médiatiser! La communauté des loisirs créatifs n’est pas nouvelle, cela un bon moment qu' RTGI l'utilise comme exemple idéal typique de ce qu’est une communauté affinitaire sur le web, bien loin des logiques "d'appat du link" en cours dans la blogosphère mise en lumière par les médias traditionnels.

Cette communauté, qu'un professionnel de la communication appellerait celle du DIY (do it yourself pour les non initiés) est particulièrement active, et riche de contenus créatifs et inédits. Elle maitrise ainsi le contenu editorial et l'objet technique également, elle sont même, selon moi les créatrices des chaines de blogueurs, très à la mode aujourd'hui, s'échangeant depuis toujours tags (virtuels) et cadeaux (réels) qu'elles exposent, valorisant ainsi les réalisations de leurs pairs.

Un beau réseau que voila, je suis ravie que Wikio mette à profit sa puissance de feu mediatique pour faire decouvrir ce web la.

14 avril, 2009 00:13  
Anonymous Guilhem Fouetillou a écrit...

Salut Jean, je réagis aux commentaires de lordphoenix sur le retard à l'allumage de nos amies tricoteuses comparativement aux blogueurs hightech.

Ce qu'il faut voir, c'est surtout l'aveuglement de toute une part de la blogosphère à ce continent des loisirs créatifs, de la décoration, du DIY (do it yourself) et des e-mamans. Cet univers existe depuis de nombreuses années, je me souviens même avoir déclenché une tempête dans leur univers et l'envoi de nombre de lettres aux médiateur de Europe1 pour avoir parlé de l'influence du blog d'Echevette (blog de point de croix) au cours de la campagne présidentielle dans l'émission de Cathy Nivez ... La même échevette avait été portée à ma connaissance près d'un an plus tôt encore (2006) par Frédéric Montagnon, un des fondateurs de la plate-forme overblog, comme étant la rédactrice du blog le plus lu sur overblog.

C'est suite à ces événements d'ailleurs que nous avons décidé avec rtgi/linkfluence d'explorer ce continent et d'en dresser la cartographie, cartographie que nous avons d'ailleurs partagée avec wikio dans le cadre du wikio labs et dont nous sommes ravis de voir les effets sur ce nouveau classement et surtout de constater la prise de conscience que celui-ci amène !

Encore bravo Jean pour tout ce que tu as amené au classement wikio en terme de rigueur et de pertinence !

14 avril, 2009 00:18  
Anonymous Guilhem Fouetillou a écrit...

Oups ai été doublé par mademoiselle p, Jean, fais gaffe, tu subis une attaque en piqué de la rtgi team ;) désolé pour spam !

14 avril, 2009 00:20  
Anonymous froufrou et capucine a écrit...

Ni soumise, ni féministe, il n'y aura pas de guerre des sexes sur wikio ... il y a de la place pour tout le monde dans la blogosphère, n'en déplaise à ces messieurs un peu piqués au vif et merci Wikio de nous le prouver ! Les "tricoteuses" sont loin d'être à la traine et je dirais même qu'elles maitrisent très bien l'outil informatique, à chacun ses gouts esthétiques ... ce qui m'étonnera toujours, c'est l'intolérance, voire même le manque de respect de certains, heureusement que j'ai lu plusieurs billets comme celui ci, sinon c'est sûr je devenais féministe !!!
Une chose est certaine, les liens sont nombreux dans notre "communauté" mais pas pour être au top du classement, juste des liens d'amitié et de partage, la valeur est autrement plus forte !

14 avril, 2009 09:56  
Blogger Jean Véronis a écrit...

Mademoiselle P> Je n'avais pas réalisé que tu faisais partie de la RTGI team ! Ce qui me fascine c'est la quasi absence d'interconnexion entre communautés. On a des "pelotes" de liens quasi étanches : la high tech d'un côté, le DIY comme tu dis de l'autre... C'est d'ailleurs pour ça que le classement Wikio ne faisait pas émerger les loisirs jusqu'ici : en suivant les liens des blogs déjà repérés, ça ne ramène que des blogs de la même communauté (ou presque). Il a fallu mettre au point d'autres algos pour aller à la pêche en dehors de la "pelote" initiale. Et effectivement, je suis frappé apr la richesse de contenu et l'activité de ces "nouveaux" groupes. Je comprends que les blogueurs high tech paniquent un peu...

14 avril, 2009 10:12  
Blogger Jean Véronis a écrit...

Guilhem> Merci pour les compliments ;-) Le mot de "continent" est tout à fait approprié pour parler des différentes communautés. Ca prolonge ce que je disais juste ci-dessus, sur les "pelotes" très interconnectées à l'intérieur, mais pas très connectées avec les autres. Le Web, sous son apparente universalité, serait-il finalement juste une somme de communautarismes ?

14 avril, 2009 10:18  
Blogger Basile a écrit...

Cher Jean, il y a un je ne sais quoi de Raymond Devos dans ce billet, j'adore, et ce blog est désormais une lecture quotidienne (ou presque puisque la publication ne l'est pas toujours...)

14 avril, 2009 12:00  
Blogger Jean Véronis a écrit...

Froufrou> Merci d'être passée ! J'en suis très flatté. Tolérance, respect... Tu as raison. Ce n'est pas le point fort de l'Humanité, Web ou pas Web. La peur de l'autre, de l'étranger forcément étrange...

Si mon modeste grain de sel pouvait permettre à des gens qui habitent sur des continents blogosphériques éloignés de se découvrir et de s'apprécier, ce ne serait que du bonheur.

14 avril, 2009 12:44  
Blogger Jean Véronis a écrit...

Basile> Merci, j'en rougis. J'ai une vénération profonde pour Devos (à la cheville duquel je n'arrive même pas, même s'il est maintenant en position allongée...)

14 avril, 2009 12:45  
Anonymous Stéphanie a écrit...

Une petite question étymologique sur le tricot...
Étant accro au tricot depuis quelques mois (merci à tous ces sites sur le tricot qui remplacent maman quand on est loin), une question me turlupine, d'où vient le mot "jersey" qui est un point de base du tricot? En anglais, on l'appelle "stockinette stitch" en parallèle du "garter stitch" (le point mousse en français). Ces termes anglais viennent apparemment de sortes de bas pour les soldats (ou chevaliers???) où une partie était tricotée en point mousse (garter) et l'autre en jersey (stockinette) chacune correspondant à une partie de la jambe.
Mais impossible de trouver l'origine du mot "jersey", qui d'ailleurs en hollandais s'appelle "tricot"...

14 avril, 2009 15:56  
Anonymous Fil a écrit...

"Le tricotage désignait d’ailleurs l’action de remuer les jambes dans une situation bien particulière "

Assez marrant comme ce terme a été détourné encore plus du sens commun (à savoir manipuler des aiguilles rapidement) pour revenir indirectement sur ce sens "intermédiaire" du terme que j'ai cité en ce début de commentaire.

Evidemment, vous aurez compris que je parlais du "tricotage" des footballeurs quand ils essaient de dribbler (en vain souvent) en usant de façon rapide et désordonnée de leurs jambes pour déstabiliser l'adversaire.

14 avril, 2009 17:50  
Blogger Jean Véronis a écrit...

Stéphanie> Cela vient de l'anglais. Au XVIe siècle, on parlait de drap, de laine de Jersey (c'est-à-dire de l'île de jersey). Le mot est passé ensuite en français.

14 avril, 2009 18:51  
Anonymous lp a écrit...

Etant enseignant en lycée, je constate avec émerveillement le résultat de 150 ans de combat pour l'émancipation des femmes: 8 filles sur 10 ne viennent pas en cours avec un sac à dos, à poignée... mais avec un grand cabas souple ( souvent très "fashion" ) tenu avec grâce et souplesse au creux du coude: on dirait qu'elles vont faire leurs courses au Monop' du coin...Si par malheur ce contenant se renverse, on peut en observer avec intérêt le contenu: téléphone, MP3, brosse, glace, gloss, rimmel, porte clés "Hello Kitty", doudou (faux-)Vuitton ou Barbapapa, agenda couvert de photos du petit copain, de la petite soeur, du chien, du chat, un cahier de sudokus, de l'aspirine, du spasfon, des tampons...et enfin, peut-être, un ou deux crayons, un bout du cours de maths chevauchant celui d'espagnol... vue la tendance, j'attend avec délectation de voir dépasser aiguilles et fils de laine de leurs sacs...
Et l'Education Nationale qui nous bassine chaque année avec " la promotion des filles dans l'enseignement scientifique, où elles sont encore bien minoritaires..." . Option tricot-couture, j'vous dis ! Ca c'est l'avenir ! ;)

14 avril, 2009 20:13  
Anonymous Thierry roget a écrit...

ma vision sur seesmic
http://seesmic.com/threads/7T5Mi6EXES
et merci pour la mention, ça me fait quelques points pour le futur classement!

14 avril, 2009 21:52  
Anonymous martine s a écrit...

Les blogs tricot, enfants, scrapbooking, scrapcooking, servilletage, sont un phénomène international. Autant que les geeks. Mais la grosse différence, c'est que cela crée des communautés donc liens. To knit veut dire aussi unir, lier,etc...

16 avril, 2009 00:26  
Anonymous CedricA a écrit...

Si je me réfère aux statistique de mon blog, j'ai plus de visites pour mes recettes, pourtant rares, que pour mes billets politiques. Mon blog gagnerait-il en notoriété à mettre plus en avant ces recettes plutôt que de m'évertuer à tenter de traiter de la chose publique...

16 avril, 2009 13:41  
Blogger Jean Véronis a écrit...

Martine S> Oui, il y a une vraie différence de structure entre les blogs "do it yourself" et les blogs de geeks. Passionnant à analyser pour un observateur comme moi !

16 avril, 2009 15:55  
Blogger Jean Véronis a écrit...

Cedrica> Les requêtes concernant la cuisine sont extrêmement populaires sur les moteurs de recherche, donc il n'est pas étonnant qu'elle ramènent plus de visiteurs, même si peu de billets sont concernés. Le plus grand nombre de visites sur ce blog concerne le sexe... à cause de pages comme celle-ci. Pourtant, globalement je n'en parle pas beaucoup !

16 avril, 2009 15:57  
Blogger Mlle F. a écrit...

Je confirme la presque totale étanchéité des continents, faisant moi même partie des deux : tricot et bouquinosphère...

05 mai, 2009 17:24  

Enregistrer un commentaire

vendredi, avril 03, 2009

Outil: TreeCloud

Vous vous souvenez peut-être de mes nuages en forme d'arbre (je crois que le premier que j'ai publié était celui de la rumeur autour de Laurence Ferrari en décembre 2007, suivie de près par le buzz Laure Manaudou nue un peu plus tard). Philippe Gambette, étudiant au LIRMM, a développé un outil Open Source qui permet à tout un chacun de générer de tels nuages. C'est ici :


Voici par exemple le nuage de l'ensemble des discours de campagne de Barack Obama. On peut faire différentes choses avec la coloration des mots. Ici elle reflète la position dans le temps. Le rouge correspond au début de la campagne (children, Irak, war, world), le bleu à la fin (McCain, Wall Street, crisis, taxes). Cela me semble refléter assez bien l'évolution des thèmes telle que je l'ai perçue.



Si vous voulez en savoir plus sur les techniques sous-jacentes, vous pouvez écouter la présentation que nous avons faite à Dresde (Allemagne) pour l'IFCS'2009 (c'est Philippe qui parle) :



A vous de jouer maintenant... des journées entières dans les arbres et les nuages !

10 Commentaires:

Anonymous vidi a écrit...

Dommage. J'ai essayé de l'installer pour le tester en analyse littéraire mais rien à faire. Je n'y arrive pas. J'aurai été curieux de savoir ce qu'il pouvait en ressortir. J'espère qu'une version qui permettra de faire des copier-coller pourra aussi se faire (ça ne doit pas être extrêmement difficile de pouvoir copier-coller un texte ponctué). Une chose est certaine, les applications d'un tel outil sont nombreuses ! Vivement qu'il se démocratise...

03 avril, 2009 10:24  
Blogger Jean Véronis a écrit...

Vidi> Il faudrait passer un petit mot à Philippe. Je suis sûr qu'il va trouver le pb.

Il faudrait trouver un peu de temps pour faire une version serveur...

03 avril, 2009 10:28  
Anonymous vidi a écrit...

Je vais lui laisser un mot. Ce que je souhaite, c'est travailler sur les genres littéraires, et plus précisément sur ce qu'on définit comme roman d'apprentissage. Je crois que cet outil permettrait de voir s'il existe un réseau sémantique commun à ces romans. C'est ce qu'il me semble à leur lecture. Bref, si j'arrive à utiliser TreeCloud, je donnerai des nouvelles de ce que j'aurai trouvé, si cela vous intéresse bien sûr. J'ai aussi une autre proposition que je vous ferai pour développer ce type de logiciel, si ce que je pense se confirme, en théorie d'abord.

03 avril, 2009 10:54  
Blogger Philippe a écrit...

@vidi : vous avez certainement utilisé la version en Delphi pour Windows. Celle qui fonctionne vraiment bien est celle en Python, utilisable en ligne de commande. C'est un peu technique, mais ça vaut le coup, et il y a un manuel d'utilisation (en anglais). Et si vous êtes un peu patient, une interface graphique et une interface web sont en préparation, pour une utilisation facile !

03 avril, 2009 11:13  
Anonymous vidi a écrit...

Merci ! Je vais tenter la version Python, sans quoi je prendrai mon mal en patience...

03 avril, 2009 11:22  
Anonymous Ferocias du Blog Les Peuples du Soleil a écrit...

Je me demande moi aussi ce que cela peut donner en analyse sémantique.
On détecte par exemple des tropes par des reprises (anaphoriques mais pas seulement),... Je vais tester (si mes compétences techniques me le permettent) sur quelques fascicules des années 1950 mettant en scène des Incas, Mayas et Aztèques. A vue de nez, je crois discerner des similitudes dans le traitement stéréotypique. Preuve ou démenti pourrait être apporté par ce type d'outil qui peut être plus intéressant qu'un seul relevé des fréquences d'utilisation de mots par exemple.
Je ne sais pas ce que peuvent en penser les commentateurs plus haut (vidi notamment).

03 avril, 2009 22:12  
Anonymous vidi a écrit...

@ Ferocias,
je crois que le logiciel TreeCloud prend en compte la fréquence des lexèmes (ou de mots pleins disons) dans un texte. Puis que chaque mot plein s'inscrit dans un champ isotopique assez vaste. La police des mots = la fréquence et l'éloignement ou non (les branches) entre les mots = l'appartenance plus ou moins grande à tel ou tel champ isotopique.
C'est à peu près ca ?
Après vous pouvez exploiter cet outil pour tout ce que vous voulez. Une analyse de plusieurs textes des années 50 mettant en scène les civilisations anciennes d'Amérique latine peut être intéressante.

04 avril, 2009 10:36  
Anonymous JJ a écrit...

Perso celà m'intéresse pour la dimension de mindmapping que ça ouvre. J'ai tout bien installé et ça marche bien (python + splistree), mais je tombe sur un hic stupide : comment fais-tu pour mettre un mot par ligne depuis des dizaines de miliers phrases récupérées ?..

26 mai, 2009 17:26  
Anonymous Anonyme a écrit...

Bonjour,
Est-il si dur de fournir soit des cas tests en français soit a minima les discours qui supportent les commentaires ... ?

Cela permettrait de commencer à s'approprier peut-être pas les techniques mais au moins les outils en attendant mieux ...
Voire remettre en cause certains usages de ces méthodes !?

A+

31 mai, 2009 17:10  
Anonymous Anonyme a écrit...

J'ai utilisé cet outils qui fonctionne très bien à quelques détails prés (pdf noir et blanc, ...).

La compréhension des résultats au delà d'un premier niveau plutôt "subjectif" et le commentaire de Vidi sur un "champ isotopique" m'ont fait prendre conscience de mon manque de base "théorique"!

Par théorique j'évoque une vulgarisation de qualité plus que les fondements scientifiques ;-) et disponible sur le net.

Cela existe t'il ?

Au-delà des discours politiques et autres sujets "porteurs" existe t'il des utilisations "pratiques" de ces méthodes ?

Merci.

31 mai, 2009 20:14  

Enregistrer un commentaire