Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, avril 18, 2007

2007: L'arbre d'Arlette

Dans le billet précédent, j'ai donné l'arbre des candidats, basé sur la proximité lexicale de leurs discours. Mais la méthode peut s'appliquer aussi aux discours d'un candidat particulier. Je ne résiste pas à la tentation de vous montrer l'arbre d'Arlette (les différents discours sont repérés par leurs dates) :



Je n'en croyais pas mes yeux... Alors que l'algorithme ne contient aucune information temporelle, l'arbre qui apparaît contient des paquets de branches reflétant exactement l'évolution chronologique (avec le fameux discours de Paris le 15 avril, dont j'ai parlé l'autre jour, qui est isolé et distinct de tout le reste).

J'ai déjà dit qu'à part le discours de Paris, les discours d'Arlette changeaient peu d'une fois sur l'autre (voir ici et ici). Mais ces petites modifications n'interviennent pas n'importe comment. Elle est manifestement partie de son premier discours, qu'elle a amendé peu à peu, avec quelques évolutions plus marquées qui correspondent aux différents cercles rouges de ma figure. On a en quelque sorte accès au travail d'élaboration, aux brouillons de l'écrivain.

Je suis ravi : cela illustre superbement la validité de la méthode, qui arrive à retrouver sans information extérieure une organisation qui fait objectivement sens. Et cela ouvre des tas de perspectives dans d'autres domaines...

Libellés :


13 Commentaires:

Anonymous Alphoenix a écrit...

C'est beau tout ça... C'est triste que ça s'arrête dans quelques semaines. Surtout Arlette...
Déjà la nostalgie. Et en plus, l'analyse fine de Jean Véronis commence à être particulièrement intéressante, et qu'elle apporte quelque chose.

18 avril, 2007 23:07  
Blogger FreeCorp a écrit...

Ouahou ! C'est tout à fait impressionnant ! On peut même descendre plus bas dans les sous-arbres, on garde des intervalles de dates consécutives (ex : 26/03-30/03, 09/03-22/03, 13/01-19/01...). Pour mieux visualiser ces intervalles de dates consécutives dans des mêmes sous-arbres, tu aurais d'ailleurs pu utiliser l'ordre chronologique pour les feuilles (ça doit être faisable dans SplitsTree avec "Edit", "Preferences", onglet "Layout", et mettre le bon ordre dans "use the following layout :"...), puisqu'il s'avère qu'avec cet ordre l'arbre reste planaire.

19 avril, 2007 01:10  
Blogger Tom a écrit...

Je suis curieux : quels genres de perspectives cela ouvre ?

^_^ vivement dimanche

19 avril, 2007 08:01  
Blogger Jean Véronis a écrit...

Alphoenix> Eh oui, j'ai un peu le même sentiment. Et un peu de frustration parce que j'ai encore des dizaines d'analyses à faire... Je les ferai de toutes façons, mais ça n'aurait plus le même intérêt. Alors peut-être sous forme de livre...

Quant à Arlette, ouis, on la regrettera !

19 avril, 2007 09:21  
Blogger Jean Véronis a écrit...

Freecorp> Magnifique ! Excellent suggestion, merci : j'ai remplacé la figure.

C'est formidable quand il y a un expert dans la salle ;-)

19 avril, 2007 09:37  
Anonymous leila a écrit...

Superbe de cohérence, cette évolution par petites touches de réécriture. Et qu'est ce que cela donne sur des discours à auteur collectif (type Sarkozy ou Royal ?) Des branches trop fouillies ? ou au contraire un classement par petite main ?

19 avril, 2007 09:50  
Blogger Jean Véronis a écrit...

Leila> Je suis en train d'y travailler. Pour Sarko et Royal on voit apparaître un arbre clairement coupé en deux. J'essaie de déterminer pourquoi...

19 avril, 2007 09:59  
Blogger Jean Véronis a écrit...

Freecorp> Et on peut choisir la racine ? Je n'arrive pas à àtrouver cette fonctionnalité dans les menus...

19 avril, 2007 10:25  
Blogger FreeCorp a écrit...

Oui, la racine se choisit dans la boîte de dialogue de dessin de l'arbre (menu "Draw", "RootedEqualAngle"), il faut mettre dans "Outgroup" le label de la feuille qui sera la première à se séparer du tronc ;).

19 avril, 2007 13:09  
Blogger Jean Véronis a écrit...

Super, merci!

19 avril, 2007 13:41  
Blogger Jean Véronis a écrit...

Tom> Perspectives : la détection du plagiat, l'organisation des versions multiples de documents, la détection d'auteurs anonymes et "plumes", etc.

19 avril, 2007 16:07  
Anonymous François Calatayud a écrit...

Bonjour et félicitation pour votre travail!!

je suis chercheur à l'INRA et je m'intéresse à cette méthodologie statistique pour décrire du comportement animal. une description comportementale ça peut ressembler à un discours, celui de l'éthologiste qui raconte ce qu'il voit avec un vocabulaire restreint qu'il s'est créé (il y aurait beaucoup à dire sur le rapprochement entre étude du comportement et analyse du discours, mais ce n'est pas le sujet et ça n'interesserait peut etre que moi...).

j'ai quelques questions:

1) peut-on illustrer les différentes typologies que l'on trouve par des mots caractéristiques avec le logiciel en question, et donc savoir sur quoi porte la différence? Pour Arlette cela reviendrait à savoir ce qui différencie son discours des différentes périodes.

2) peut-on utiliser des variables illustratives pour faciliter l'interprétation (dans mon cas la période d'observation, l'identité de l'animal, son age...). habituellement je fais mes analyses lexicales avec le logiciel SPAD et il est possible d'avoir des variables illustratives en colonne pour habiller les plans factoriels ou faciliter l'interprétation des classifications. mais les analyses proposées apres diffèrent de celles fournit par splitstree et je pense que ces dernieres pourraient m'apporter pas mal...

3) pour etre bien sur: si je comprends bien les données utilisées ne sont pas compilées dans un tableau individus-mots (en ligne les textes et en colonne les mots) mais dans une matrice de distances. comment faites vous pour l'obtenir de manière non fastidieuse? Dans le cas des candidats cela fait deja pas mal de discours à comparer. Dans mon cas j'aurais plsusieurs centaines d'observations à comparer... donc s'il y avait une macro ou un équivalent pour faire le boulot...

Merci d'avance...

20 avril, 2007 15:37  
Anonymous Abie a écrit...

Mamma mia, c'est beau comme l'antique!
Je suis biologiste et ça m'émeut de voir qu'un outil conceptuel que j'associais principalement à la cladistique et la phylogénie peut s'appliquer au language de façon aussi spectaculaire ...
Je serais vraiment curieuse de voir les algorithmes. Il va falloir que je mette la main sur cet article de Barthélémy et Luong...quoiqu'il date de 1987.
Y a-t-il des articles plus récents sur les liens entre biologie et linguistique à lire en priorité?

24 avril, 2007 01:47  

Enregistrer un commentaire