Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

lundi, avril 24, 2006

2007: L'arbre des prétendants

Avez-vous remarqué que lorsqu'on parle de Villepin, on parle souvent de Sarkozy? Que lorsqu'on parle de de Villiers, on parle souvent de Le Pen? Et ainsi de suite: Voynet/Cochet, Besancenot/Laguiller, etc. On peut quantifier ces parentés sur le Web à l'aide d'un simple moteur de recherche. Il suffit de regarder pour chacun des couples possibles combien de fois les deux noms apparaissent ensemble dans une même page et d'appliquer des méthodes du type de celles qu'utilisent les biologistes pour représenter les parentés entre organismes vivants à partir des séquences d'ADN (arbre phylogénétique). C'est ce que j'ai fait pour 18 des principaux prétendants à l'Elysée, grâce au moteur Dir.com (il vaut mieux éviter Google pour ce genre de calcul, pour des raisons que j'ai déjà largement évoquées).

Voici l'arbre des prétendants:



Très honnêtement, je ne m'attendais pas à avoir un arbre aussi spectaculaire! Les proximités textuelles reflètent les proximités politiques d'une façon tout à fait étonnante. On distingue trois grandes branches, avec en haut les deux grands partis de gouvernement de gauche et de droite, en bas les extrêmes, avec François Bayrou gentiment installé au centre de tout ça... Bien sûr, proximité ne veut pas dire amour... On voit Villepin et Sarkozy qui s'affrontent corps à corps, Ségolène Royal qui nargue les éléphants, Le Pen et de Villiers qui dansent sur le sale air de la peur, Buffet qui cherche désespérément sa place (et quelques voix) dans la gauche de la gauche...

Un véritable cas d'école!


Pour les experts

  • La distance que j'ai utilisée est celle que Cilibrasi et Vitanyi ont baptisée « Normalized Google Distance » (qu'ils ont eu le tort d'appliquer à Google, ce qui induit un certain nombre d'aberrations dans leur étude).
  • La méthode de reconstruction de l'arbre phylogénétique est la méthode ADDTREE de Sattath, S., & Tversky, A. (1977).

Libellés :


21 Commentaires:

Blogger Gabrouze a écrit...

Joli,

Merci pour les infos sur le calcul de la distance et la méthode de construction de l'arbre ...

24 avril, 2006 09:50  
Anonymous Anonyme a écrit...

Il manque Dieudonné....

24 avril, 2006 10:49  
Blogger brigetoun a écrit...

et Sarkozy devrait se rapprocher du couple Le Pen/Villiers , entraînerait il Villepin ou ce dernier disparaitra-t-il

24 avril, 2006 12:41  
Anonymous bijou contemporain a écrit...

je pense que les proximites textuelles reflettent plus les proximites mediatiques qu'autre chose.
Dans nos medias, les extremes se valent, alors qu'au centre des "differences" sont montees en epingles (sarko-villepin, royal-jospin).

Quand a francois hollande, s'il est plus proche de fabius que de sa legitime, la question se pose : mais qui va garder les enfants ?

24 avril, 2006 13:50  
Anonymous paddy a écrit...

Je trouve bizarre cette proximité entre Bayrou et l'extrême droite ?? Le reste a l'air assez réaliste

24 avril, 2006 18:17  
Anonymous olenka a écrit...

Brigetoun, je cherchais aussi "Sarkozy - De Villiers" !

24 avril, 2006 18:42  
Anonymous Agnès a écrit...

Merci en tout cas de nous tenir au courant de l'évolution de l'arbre.

24 avril, 2006 19:20  
Blogger Jean Véronis a écrit...

Bijou> les proximites textuelles reflettent plus les proximites mediatiques qu'autre chose. -- probablement! Le Web est-il autre chose (à grande échelle) qu'un média?

24 avril, 2006 19:25  
Blogger Jean Véronis a écrit...

Paddy> proximité bayrou/extrême-droite -- Il y a peut-être un petit problème de lecture de l'arbre; Bayrou n'est pas si proche de l'extrême droite que ça. La racine est le centre de l'arbre, et la branche Bayrou bifurque tout de suite. Ceci étant il s'oppose souvent à la droite classique (comme à la gauche classique): on l'a vu récemment à propos de la "crise de régime", son appel à une VIè République, etc. C'est donc normal qu'il soit un peu à part...

24 avril, 2006 19:30  
Anonymous Joël a écrit...

C'est amusant. Je vois ceci juste après avoir eu connaissance d'un nouveau mode de scrutin : le scrutin par arbre.

24 avril, 2006 20:04  
Blogger Jean Véronis a écrit...

Joel> Coïncidence intéressante. Merci pour le lien (l'ombre de Condorcet plane toujours...)!

24 avril, 2006 20:54  
Anonymous Alphoenix a écrit...

Encore une excellente application. La présidentielle s'annonce multimédia et Internet ! Les arbres phylogénétiques m'ont ramené à un passé pas si lointain où on voyait que la chauve-souris était proche du pigeon en terme d'aile mais pas en ADN... Bref, un tas de souvenirs...
Concernant l'arbre, on voit la démarcation étonnante entre les extrêmes et les autres, et le Petit Bayrou au centre, qui doit être bien content. Je voulais savoir, s'il était possible, cependant de ne pas faire de recherches précises et de faire apparaître quelques noms d'hommes politiques pour laisser deviner de potentiel candidat, par exemple, José Bové apparaitrait sûrement aux côtés de Besancenot. Je pense que c'est une idée un peu farfelue, mais peut-être pourrez-vous faire quelque chose !
Merci

24 avril, 2006 21:46  
Anonymous kazoo from the famouz dolly & kazoo band a écrit...

impressionnant vraiment, ce serait bien de voir l'évolution de l'arbre au fil des semaines

24 avril, 2006 23:15  
Anonymous Vonric a écrit...

Bayrou plus proche de Le Pen que de Cochet, Voynet ou Hollande au moment ou il parle environnement (comme le PS)... je suis sceptique sur l'arbre...

24 avril, 2006 23:54  
Anonymous Ramjet a écrit...

J'ai l'impression qu'il y a des subtilités de lectures. Pourquoi y a t-il un "effet diagonal" qui paradoxalement éloigne ceux dont la proximité est aussi avérée (vert-PS, De même, sans faire de polémiques, Sarkozy me paraît plus proche de Le Pen que Bayrou).
Une représentation de l'arbre sous une forme sphérique serait-elle pertinente (elle rapprocherait ces branches) ?

25 avril, 2006 09:04  
Blogger Jean Véronis a écrit...

Ramjet> subtilités de lecture -- oui, seule compte la distance dans l'arbre c'est à dire en suivant les branches. Par ailleurs, cette représentation est obtenue automatique sur la base des seules cooccurrences de noms (on en parle en même temps), et non pas d'une analyse politique des discours des uns et des autres. Or, on parle plus souvent de Sarkozy avec Villepin ou Chirac qu'avec le Pen, on parle plus souvent des Verts avec l'extrême-Gauche qu'avec les ténors du PS...

25 avril, 2006 09:37  
Anonymous Ramjet a écrit...

Certes, j'ai bien compris qu'il s'agissait de la proximité médiatique sur le net. Je voulais simplement savoir si ces diagonales sont le fruit du hasard où si elles ont une pertinence due au modèle. Car certes on parle peut-être plus souvent des verts avec l'extême gauche et, par glissement, comme on parle souvent de l'extrême gauche en même temps que l'extrême droite, cela rapproche dans l'arbre les Verts de Le Pen. Mais j'ai du mal à croire que les verts sont ceux qui apparraissent le moins avec le PS et Villepin et Sarokozy le moins avec l'extême doite, comme le suggère leur totale opposition géographique dans l'arbre. Car si on ne prend en compte que l'éloignement des branches, les barons du PS se retrouvent plus proches de Le Pen que de Voynet. Sans aucune confusion entre le texte et le discours politique, j'ai quand même du mal à le croire.

Plus simplement, c'est peut-être dû au modèle qui ne peut représenter la multiplicité des proximités dans le texte dans toutes leur richesse. C'est pourquoi je me demandais si une représentation sphérique (ou autre) ne permettrait pas d'apporter un plus.

25 avril, 2006 10:54  
Anonymous Guillermito a écrit...

Très jolie utilisation des arbres phylogéniques (que, en tant que biologiste, j'utilise assez souvent).

25 avril, 2006 12:39  
Anonymous R a écrit...

Très intéressant, mais la représentation sous forme d'arbre phylogénétique n'est pas forcément la plus facile à interpréter. Pourrait-on avoir la matrice des distances, histoire d'expérimenter ?

25 avril, 2006 18:28  
Blogger Jérôme Charron a écrit...

"Le Pen et de Villiers qui dansent sur le sale air de la peur", j'adore!
Mais "Buffet qui cherche désespérément sa place", franchement ça commence à être limite Jean ... ;-)

26 avril, 2006 16:57  
Blogger gandon françois albert a écrit...

pour revenir sur la représentation des résultats, je crois que la figure du triangle inversé est assez pertinente: on prend les 18 candidats. Chaque candidat serait analysé selon son l'importance de son "accouplement" avec tel autre candidat. en haut de ce triangle inversé ceux sont le plus éloignés et au dessouus ceux qui sont le plus proches...

on fait cà pour les 18 candidats.

29 avril, 2006 13:36  

Enregistrer un commentaire