Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

vendredi, avril 03, 2009

Outil: TreeCloud

Vous vous souvenez peut-être de mes nuages en forme d'arbre (je crois que le premier que j'ai publié était celui de la rumeur autour de Laurence Ferrari en décembre 2007, suivie de près par le buzz Laure Manaudou nue un peu plus tard). Philippe Gambette, étudiant au LIRMM, a développé un outil Open Source qui permet à tout un chacun de générer de tels nuages. C'est ici :


Voici par exemple le nuage de l'ensemble des discours de campagne de Barack Obama. On peut faire différentes choses avec la coloration des mots. Ici elle reflète la position dans le temps. Le rouge correspond au début de la campagne (children, Irak, war, world), le bleu à la fin (McCain, Wall Street, crisis, taxes). Cela me semble refléter assez bien l'évolution des thèmes telle que je l'ai perçue.



Si vous voulez en savoir plus sur les techniques sous-jacentes, vous pouvez écouter la présentation que nous avons faite à Dresde (Allemagne) pour l'IFCS'2009 (c'est Philippe qui parle) :



A vous de jouer maintenant... des journées entières dans les arbres et les nuages !

10 Commentaires:

Anonymous vidi a écrit...

Dommage. J'ai essayé de l'installer pour le tester en analyse littéraire mais rien à faire. Je n'y arrive pas. J'aurai été curieux de savoir ce qu'il pouvait en ressortir. J'espère qu'une version qui permettra de faire des copier-coller pourra aussi se faire (ça ne doit pas être extrêmement difficile de pouvoir copier-coller un texte ponctué). Une chose est certaine, les applications d'un tel outil sont nombreuses ! Vivement qu'il se démocratise...

03 avril, 2009 10:24  
Blogger Jean Véronis a écrit...

Vidi> Il faudrait passer un petit mot à Philippe. Je suis sûr qu'il va trouver le pb.

Il faudrait trouver un peu de temps pour faire une version serveur...

03 avril, 2009 10:28  
Anonymous vidi a écrit...

Je vais lui laisser un mot. Ce que je souhaite, c'est travailler sur les genres littéraires, et plus précisément sur ce qu'on définit comme roman d'apprentissage. Je crois que cet outil permettrait de voir s'il existe un réseau sémantique commun à ces romans. C'est ce qu'il me semble à leur lecture. Bref, si j'arrive à utiliser TreeCloud, je donnerai des nouvelles de ce que j'aurai trouvé, si cela vous intéresse bien sûr. J'ai aussi une autre proposition que je vous ferai pour développer ce type de logiciel, si ce que je pense se confirme, en théorie d'abord.

03 avril, 2009 10:54  
Blogger Philippe a écrit...

@vidi : vous avez certainement utilisé la version en Delphi pour Windows. Celle qui fonctionne vraiment bien est celle en Python, utilisable en ligne de commande. C'est un peu technique, mais ça vaut le coup, et il y a un manuel d'utilisation (en anglais). Et si vous êtes un peu patient, une interface graphique et une interface web sont en préparation, pour une utilisation facile !

03 avril, 2009 11:13  
Anonymous vidi a écrit...

Merci ! Je vais tenter la version Python, sans quoi je prendrai mon mal en patience...

03 avril, 2009 11:22  
Anonymous Ferocias du Blog Les Peuples du Soleil a écrit...

Je me demande moi aussi ce que cela peut donner en analyse sémantique.
On détecte par exemple des tropes par des reprises (anaphoriques mais pas seulement),... Je vais tester (si mes compétences techniques me le permettent) sur quelques fascicules des années 1950 mettant en scène des Incas, Mayas et Aztèques. A vue de nez, je crois discerner des similitudes dans le traitement stéréotypique. Preuve ou démenti pourrait être apporté par ce type d'outil qui peut être plus intéressant qu'un seul relevé des fréquences d'utilisation de mots par exemple.
Je ne sais pas ce que peuvent en penser les commentateurs plus haut (vidi notamment).

03 avril, 2009 22:12  
Anonymous vidi a écrit...

@ Ferocias,
je crois que le logiciel TreeCloud prend en compte la fréquence des lexèmes (ou de mots pleins disons) dans un texte. Puis que chaque mot plein s'inscrit dans un champ isotopique assez vaste. La police des mots = la fréquence et l'éloignement ou non (les branches) entre les mots = l'appartenance plus ou moins grande à tel ou tel champ isotopique.
C'est à peu près ca ?
Après vous pouvez exploiter cet outil pour tout ce que vous voulez. Une analyse de plusieurs textes des années 50 mettant en scène les civilisations anciennes d'Amérique latine peut être intéressante.

04 avril, 2009 10:36  
Anonymous JJ a écrit...

Perso celà m'intéresse pour la dimension de mindmapping que ça ouvre. J'ai tout bien installé et ça marche bien (python + splistree), mais je tombe sur un hic stupide : comment fais-tu pour mettre un mot par ligne depuis des dizaines de miliers phrases récupérées ?..

26 mai, 2009 17:26  
Anonymous Anonyme a écrit...

Bonjour,
Est-il si dur de fournir soit des cas tests en français soit a minima les discours qui supportent les commentaires ... ?

Cela permettrait de commencer à s'approprier peut-être pas les techniques mais au moins les outils en attendant mieux ...
Voire remettre en cause certains usages de ces méthodes !?

A+

31 mai, 2009 17:10  
Anonymous Anonyme a écrit...

J'ai utilisé cet outils qui fonctionne très bien à quelques détails prés (pdf noir et blanc, ...).

La compréhension des résultats au delà d'un premier niveau plutôt "subjectif" et le commentaire de Vidi sur un "champ isotopique" m'ont fait prendre conscience de mon manque de base "théorique"!

Par théorique j'évoque une vulgarisation de qualité plus que les fondements scientifiques ;-) et disponible sur le net.

Cela existe t'il ?

Au-delà des discours politiques et autres sujets "porteurs" existe t'il des utilisations "pratiques" de ces méthodes ?

Merci.

31 mai, 2009 20:14  

Publier un commentaire