Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

jeudi, novembre 24, 2005

Texte: Nuages dynamiques

Les lecteurs assidus de ce blog auront noté mon intérêt pour les représentations graphiques du texte sous toutes ses formes. Les nuages de mots [voir dialogue, banlieues1, banlieues2, Chirac] me paraissent par exemple être très prometteurs pour la visualisation de l'information et la navigation -- mais ils sont tout de même un peu rustiques au niveau graphique! Quand j'ai découvert (voir ici) l'affiche dynamique réalisée par Marc-André pour leroidelacapote.com [sur une idée de Jared Tarbell], j'ai eu un déclic dans ma petite tête: j'ai vu dans cette animation plus qu'une simple pub. Ne pourrait-on réutiliser l'idée pour visualiser le champ sémantique de textes? Il suffirait d'injecter dans l'animation les mots les plus fréquents (à part les mots-outils), de rendre les liens cliquables, etc. J'ai suggéré l'idée à Marc-André, en lui envoyant mes "mots des banlieues", et il m'a renvoyé ce superbe "nuage dynamique" (les mots émergent tout doucement, c'est exprès ;-) :






Rechargez la page pour obtenir une autre représentation
Clic droit pour zoomer à l'infini !

Les mots qui apparaissent représentent l'univers lexical des blogs francophones à propos des banlieues (voir méthode ici). Chaque mot est cliquable, et renvoie vers les blogs recensés par Technorati. Contrairement à mes premiers essais de nuages façon TagCloud, la taille ne reflète pas ici la fréquence, mais est aléatoire: on a une nouvelle image à chaque rafraîchissement de la page, et je trouve cette part d'aléatoire fascinante. Une nouvelle lecture émerge à chaque fois... L'oeuvre ouverte.

J'avais un peu tendance à avoir une aversion viscérale pour Flash: sites lourds qui plombent votre navigateur, impossibles à indexer, etc. Mais en y réfléchissant bien, c'est peut-être un préjugé qu'il faudrait que je réexamine de plus près. Tout d'abord, j'ai été extrêmement étonné de voir que ce fichier Flash ne "pèse "que 13 ko. Rien du tout par les temps qui courent: moins que bien des images jpg ou autres. Côté indexation, certes Flash pose un problème aux moteurs, mais ai-je vraiment envie que Google et les autres viennent indexer cette liste de mots? Je n'en suis pas encore à créer tout mon blog en Flash, rassurez-vous! Mais il y a peut-être des usages de Flash (représentations sémantiques, couplage avec des "tags", intégration de fils RSS, etc.) qui méritent un examen plus approfondi. Est-ce que finalement le fameux Web 2.0 avec lequel tout le monde se gargarise ces temps-ci, ce n'est pas un ensemble d'efforts pour trouver des technologies variées qui nous fassent sortir du carcan d'un bon vieil HTML qui nous paraît chaque jour un peu plus limité et un peu plus poussiéreux ?

Flash y aura-t-il sa place? J'aimerais bien savoir ce que vous en pensez.

Un grand merci à Marc-André et longue vie au Roi de la Capote !

30 Commentaires:

Blogger all a écrit...

[La page est lente à charger]


Clic !

24 novembre, 2005 18:57  
Blogger Eric Baillargeon a écrit...

Le Big Picture sémantique de CNET News est aussi un des rares exemples où je trouve l'utilisation du Flash assez bonne pour la visualisation de l'information et la navigation entre les articles publiés.

24 novembre, 2005 19:17  
Anonymous michaël a écrit...

« on a une nouvelle image à chaque rafraîchissement de la page, et je trouve cette part d'aléatoire fascinante. Une nouvelle lecture émerge à chaque fois... »

sur le plan esthétique, la réussite est indéniable ; sur le plan du sens, je serai plus réservé. chaque "nouvelle lecture" en est-elle vraiment une ? si tu entends par là que cette part d'aléatoire, en quelque sorte un point de vue de la machine porté sur le lexique extrait par les automates, donne une chance à un mot peu fréquent de nous sauter à l'oeil, pourquoi pas. mais ce résultat pourrait aussi être atteint par des processus pilotés et non par l'aléatoire.

« Flash y aura-t-il sa place ? »

en soi, la technologie flash est remarquable. mais, comme pour toute technologie déployée sur Internet, il me paraît plus important de contribuer à la promotion et au déploiement de standards ouverts, en l'occurrence le format scalable vector graphics (svg), plutôt que de favoriser l'adoption d'un format propriétaire comme flash.

a]m[+

24 novembre, 2005 19:25  
Blogger Jean Véronis a écrit...

All> Les mots apparaissent tou doucement mais c'est exprès (j'ai ajouté un petit avertissement dans le texte). Sinon, je n'ai pas l'impression que ça plombe la pge. 13 ko, ça n'est pas grand chose.

NetDisaster: Excellent! J'aime bien celui-là aussi!

24 novembre, 2005 19:28  
Blogger Jean Véronis a écrit...

Eric> Oui, je trouve Big Picture assez réussi moi aussi (je voulais en parler, et puis les journées n'ont que 35 heures, alors c'est parti aux oubliettes...)

24 novembre, 2005 19:30  
Anonymous Luc Bentz a écrit...

Superbe ! Un bonheur pour ce traitement des mots, d'autant plus apprécié que je suis personnellement totalement infoutu d'imaginer comment mettre en oeuvre l'appareillage technique et intellectuel (procédure) qui est derrière. Chapeau !

24 novembre, 2005 19:45  
Blogger Jean Véronis a écrit...

Luc> Merci, c'est gentil!

24 novembre, 2005 21:11  
Blogger Jean Véronis a écrit...

Michaël> si tu entends par là que cette part d'aléatoire [...] donne une chance à un mot peu fréquent de nous sauter à l'oeil: oui, tout à fait! L'inconvénient des TagClouds est qu'ils imposent une lecture unique et figée. les mots peu fréquents sont absents ou enfouis. Je suis d'accord: d'autres mécanismes sont sans doute imaginables pour arriver à un même résultat.

format propriétaire: complètement d'accord. Souhaitons que SVG se développe (je crois qu'Adobe le soutient, ce qui n'est pas négligeable).

24 novembre, 2005 21:14  
Anonymous christophe a écrit...

Je me joins à Michaël. D'accord, il y a des emplois très judicieux de Flash, mais on ne peut pas oublier que c'est un format fermé et propriétaire : tout le contraire du web qui repose sur des formats et des protocoles ouverts.

24 novembre, 2005 21:15  
Blogger Jean Véronis a écrit...

Christophe> Nos messages se sont croisés. Bien d'accord sur la question des formats ouverts!

24 novembre, 2005 21:19  
Blogger вирус a écrit...

Mille bravos! L'aléatoire semble effectivement mieux mettre en valeur la diversité des lectures possibles du textes. Il y a toujours cette ambivalence de la relation Forme / Fond: une forme récurrente peut être saillante, mais aussi - à l'inverse - être à se point répétée et usée qu'elle s'en trouve au contraire reléguée au statut fond ; d'ailleurs, cette dernière position de fond, à son tour, est ambivalente : "information" neutralisée ou, a contrario, présente de manière presque subliminale...
Vos prouesses techniques font naître l'envie de voir même des procédés en plus: la couleur et même le relief pourraient peut-être capter la fréquence de l'item (qui n'en reste pas moins une donnée importante, indépendamment de son interprétation), voire d'autres dimensions (lexicales par exemple).
En fait, de la première représentation demeurent deux seules choses qui me paraissent nécessiter une réflexion: la linéarité, bien sûr, mais aussi et surtout: la réduction de la matière du texte en mots clefs figurés par des infinitifs, des adjectifs et des substantifs sans articles. Je pense qu'il faut réfléchir à ce qui se passe à cette étape, pour l'instant un tantinet arbitraire.

24 novembre, 2005 22:55  
Blogger вирус a écrit...

(zut, pardon, plein de fautes de frappe: "lectures possibles du texte", "reléguée au statut de fond"; d'autres sans doute... pardon, je ne m'habitude pas à cette interface si peu pratique).

24 novembre, 2005 22:58  
Anonymous Alex a écrit...

Ces présentations ne sont pas très claires. Les mots qui tombent au hasard sont assez peu réalistes comme 'bois' par exemple. il faudrait pouvoir combiner le Tag cloud et ce genre de présentation tout en jouant sur le hasard. Une petite remarque, concernant les favicons de votre site, que vous pourriez personaliser.

24 novembre, 2005 23:18  
Blogger Jean Véronis a écrit...

вирус> réduction du texte aux infinitifs, des adjectifs et des substantifs sans articles: oui! c'est la pratique traditionnelle en matière d'extraction de mots-clés, mais elle pose fortement problème. Mon billet banlieues2 était une tentative pour en sortir (un peu)... Mais c'est tout un secteur de recherches qui se dessine ici (et sur lequel la communauté est peu avancée).

25 novembre, 2005 07:12  
Blogger Jean Véronis a écrit...

Alex> bois est un bug, qui provient de la segmentation, à tort, de clichy-sous-bois. Pas très compliqué à améliorer.

il faudrait pouvoir combiner le Tag cloud et ce genre de présentation tout en jouant sur le hasard: oui c'est tout à fait ma perception.

25 novembre, 2005 07:13  
Anonymous MBt a écrit...

"Clic droit pour zoomer à l'infini !"
N'est-ce pas un peu prétencieux ?
Après quelques clics on arrive vite à "l'infini"...;o)
me tromperais-je?

25 novembre, 2005 09:42  
Anonymous Anonyme a écrit...

« les mots peu fréquents sont absents ou enfouis. »
On ne peut pas repprocher ça au TagClouds puisque c'est justement leur raison d'être !
L'aspect aléatoire est certe artistique, mais l'objectif de la représentativité de la fréquence est perdu.

« L'inconvénient des TagClouds est qu'ils imposent une lecture unique et figée. »
Ne pourrait-on pas faire des TagClouds avec l'esthétique du "nuage dynamique" mais en gardant une représentativité de la fréquence, non pas directement proportionnelle, mais probabilistiquement proportionnelle ? Ainsi, la taille des mots reste statistiquement proportionnelle à leur fréquence mais la lecture n'est plus figée. A chaque rafraîchissement, le "nuage dynamique" change, tout est restant représentatif de la fréquence des mots ...

Laurent

25 novembre, 2005 09:58  
Anonymous erwan a écrit...

Pour ce type de représentation, un javascript peut être employé assez facilement, les mots étant encapsulés dans des div avec des propriétés de style permettant de jouer sur leur taille, leur position, et pourquoi pas aussi sur leur couleur en faisant varier la luminosité ?
Le coté artistique est sympatique, mais le signifiant m'est plus intéressant.

25 novembre, 2005 11:49  
Anonymous Catweed a écrit...

Personellement, je n'aime pas Flash car il est très mal optimisé sous MacOS X et mon pauvre G4 à 400mhz rame comme c'est pas permis :(

25 novembre, 2005 14:35  
Anonymous olivier a écrit...

Salut Jean,
je crois que je t'ai trouvé de quoi faire un très joli nuage :-)

25 novembre, 2005 16:16  
Anonymous max a écrit...

Pour rendre à César ce qui est à César, l'idée de cet assemblage de mot vient de l'artiste Jarred Tarbell (qui distribue en plus son code en open-source) L'oeuvre en question.

En ce qui concerne Flash et le sempiternel "SVG c'est mieux", Flash progresse très vite et depuis la version 5 (2000) ne se résume plus à un outil d'animation vectoriel. C'est aujourd'hui plus proche d'une machine virtuelle à-la-java capable de se connecter à des webservices, de lire du XML de manière asynchrone (depuis 2000 !). Ce qui fait la puissance de Flash, c'est la qualité des outils de développement de Macromedia, qui ciblent les developpeurs comme les 100% graphistes (ce qui manque cruellement à SVG), mais c'est aussi son format OUVERT (mais propriétaire) qui permet à n'importe qui de générer des SWF; la communauté Open-Source Flash est d'ailleurs très forte : OSFlash

28 novembre, 2005 11:11  
Blogger Jean Véronis a écrit...

Max> Merci pour le lien vers Jarred Tarbell, que je ne connaissais pas. J'ajouterai un petit lien dans le billet. Très intéressant.

Flash/SVG: merci aussi. Débat à suivre!

28 novembre, 2005 11:53  
Blogger bd a écrit...

Bonjour jean,

Je suis tres impressioné par votre nuage dynamique. Je lui plusieurs applications dans differents univers. Pourrions nous en parler ensemble ?

Sincerement

benoit

ps: votre blog est une merveille merci de tant de generosite dans votre investissements...

29 novembre, 2005 16:51  
Anonymous Marc-André a écrit...

Ce qui a été à César est toujours à César, Max! J'ai déjà laissé un commentaire dans le billet précédent, je vais donc résumer:
Je n'ai JAMAIS prétendu que ce code était le mien...
...Les redresseurs de torts feraient mieux de connaître les règles de la communauté Opensource... Le Copyright est toujours dans le code utilisé et fourni à Monsieur Jean Veronis.
Essayez donc de faire avancer les mots au lieu de chercher la petite bête...

Marc-André

01 décembre, 2005 22:50  
Anonymous Max a écrit...

Marc-André : Pardon, je n'ai jamais voulu dire que vous aviez volé le code de Jarred; celui-ci est d'ailleurs tellement connu dans la communauté Flash que le plagiat est à mon sens impossible ;) D'ailleurs s'il fournit ses sources, c'est bien pour qu'on puisse les ré-utiliser et les étendre, et l'application qui en est faite ici et très judicieuse.

02 décembre, 2005 11:37  
Anonymous François-Xavier a écrit...

Comme que le flash est cliquable, on ne peut plus déplacer l'animation une fois celle-ci agrandie. Dommage.

02 décembre, 2005 17:31  
Anonymous sakura a écrit...

Voilà une idée que les dadaïstes, dont je viens de voir l'expo à Beaubourg, n'auraient pas renier, ni même les futuristes avec les mots en liberté. Sauf qu'à un alignement horizontal, ils auraient sans doute préféré une oblique ou une diagonale ;)
Par contre je ne m'attendais pas tomber toujours sur le même site quand je clique sur un mot; Peut-être que c'est le jeu mais même si les pages sont différentes, je pensais naviguer vers différentes adresses. En tous cas je vois déjà là tout un poème!
Super les nuages dynamiques!
Quand à la technologies Flash et oui il y en a qui sont pour, d'autre contre... mon avis? c'est un outil, avant tout, l'indexation pose un problème certes, et la souplesse de cet outil offre aussi de gros avantages.

02 décembre, 2005 23:02  
Anonymous Anonyme a écrit...

...Les redresseurs de torts feraient mieux de connaître les règles de la communauté Opensource... Le Copyright est toujours dans le code utilisé et fourni à Monsieur Jean Veronis.
Une des règles de la communauté opensource, est aussi le respect ... reprendre un code, qui, à la base est une "oeuvre numérique" à des fins marketing ... et donc commerciales ...

05 décembre, 2005 15:41  
Blogger audrey a écrit...

L'idée originale se trouve sur http://levitated.net/daily/levEmotionFractal.html. J. Tarbell a fait ça en 2002.

27 janvier, 2009 16:45  
Blogger Jean Véronis a écrit...

Oui, je le cite dans le texte ;-)

28 janvier, 2009 13:17  

Enregistrer un commentaire