Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

dimanche, janvier 15, 2006

Web: Surfez sur les nuages

Vous avez sans doute noté ma fascination pour les nuages de mots [1, 2, 3, 4, 5, 6]. Je trouve qu'ils sont un moyen superbe de visualiser la thématique et le "monde lexical" d'un texte. Je rêvais depuis un moment d'un moteur qui retournerait ses résultats sous forme de nuage... J'ai fait divers prototypes à partir de l'API de Yahoo, qui m'ont convaincu qu'on pouvait utiliser les résumés retournés par le moteur pour générer de tels nuages. Seul petit problème, pour des nuages intéressants, il faut pas mal de résultats; or, Yahoo n'en retourne pas plus de 100 à la fois, ce qui implique plusieurs requêtes, et un temps de réponse trop long pour une mise en ligne de l'outil, sans compter la consommation de bande passante...

J'en ai parlé à Philippe Develter de Dir.com, grâce à qui j'ai déjà pu réaliser le Chronologue. Philippe a implanté côté moteur une partie du traitement, et je peux maintenant générer le nuage en une fraction de seconde. Voici par exemple un petit nuage d'actualité (bonne Aïd!):

"Aïd el Kébir"

Intéressant à comparer avec d'autres fêtes récentes:

Noël

Hannoucca

Pour les fêtes non-chrétiennes, on précise "fête musulmane", "fête juive". Pour Noël, on parle simplement du Père Noël et des cadeaux. Amusant non? Gageons que certains vont y voir un moyen d'affiner leurs mots-clés:

"Rouge à lèvres"

ou de satisfaire leur ego:

"Jean Véronis"

Assez ressemblant, je trouve...

Et on peut même restreindre le nuage à une période donnée, exprimée en nombre de jours (exemple: mot-cle dd>60 dd<120) ou en nombre de mois (mot-cle mm>1 mm<2). Par exemple "segolene royal" mm<1 retourne:

"Segolène Royal" mm<1

Tiens, tiens, "présidente", "présidentielle". La petite Ségolène qui monte, qui monte...

A vous de jouer, le Nébuloscope est ici !

75 Commentaires:

Anonymous alphoenix a écrit...

Again, the power of Jean Veronis thinking and Dir.com engineering presents you the best tools for your computer... Je suis enchanté des outils que vous fournissez. Je suis sûr qu'ils permettent une meilleure compréhension des buzz sur Internets, de l'actualité... Je suis épaté. Bravo. Félicitations...

15 janvier, 2006 11:18  
Anonymous Modo a écrit...

Bonjour et bravo pour ce bel outil. Je suis fan, et je pense que ce type de visualisation aurait un intérêt à faire partie intégrante des moteurs comme aide à la recherche. Il faudrait ajouter le nuage aux résultats des moteurs avec la possibilité d’inclure ou d’exclure des mots du nuage. Par exemple vous faites une recherche sur la « veille » les résultats se partage entre « écran de veille » et « veille technologique ». Vous transformez donc votre recherche en « veille !ecran technologique » (le point d’exclamation pour exclure sur dir.com) et votre nuage correspond à ce que vous cherchez.
Exalead propose déjà un système de mot clés relatifs à inclure ou exclure qui à mon sens devrait être étendu à d’autre moteur.

15 janvier, 2006 11:25  
Anonymous Anonyme a écrit...

Il y a une truc marrant. Quand on tape Parti Socialiste par exemple, on aperçoit beaucoup les prénoms et, sans les nom, ils paraissent plus sympathiques, Laurent, François, Elisabeth, Dominique et les autres. Bien sûr, cela fonctionne si l'on tape Sarkozy, ce qui nous renvoie Dominique, Jacques ou Jean-Pierre. Je me demandais juste si une utilisation plus régulière de Dir.com à la place du sacr-saint Google, pouvait faire changer les choses, s'ils auraient plus de sous et donc plus de fiabilité. Je ne connais pas trop le fonctionnement, mais pour faire évoluer vos outils je suis prêt à changer de style de surf...

15 janvier, 2006 11:26  
Anonymous Alexandre a écrit...

Plutôt que de renvoyer vers le site Dir.com lorsque l'on clique sur un mot en l'associant avec le mot étudié, serait-il possible de recommencer la recherche avec les deux mots. Par exemple, Libération revoie le nuage contenant journal. On clique sur journal et on voit le nuage correspondant à Libération+journal. Ainsi, la recherche est précisée au fur et à mesure des clicks. Merci

15 janvier, 2006 11:45  
Blogger Jean Véronis a écrit...

Merci à tous pour vos appréciations élogieuses! J'en rougis...

Modo> Votre suggestion va exactement dans le sens de ce sur quoi je travaille. J'aime bien les termes associés d'Exalead: ils ont fait un très joli travail. Mais je crois que leur tort est de rester limité aux seuls termes composés. Il faudrait pouvoir combiner les deux, mon système et le leur...

15 janvier, 2006 11:54  
Blogger Jean Véronis a écrit...

Anonymous> Oui, c'est marrant cette histoire de prénoms! Quant à Dir.com, il me semble que le groupe Iliad l'a lancé, en grande pompe puis pas trop soutenu. Pour l'instant il n'est pas dimensionné pour une utilisation intensive. Peut-être que le "buzz" autour de ces nouveaux outils convaincra-t-il Iliad de faire un petit effort? Quel dommage que les grosses boîtes françaises comme Wanadoo (Voila) ou Iliad (Dir.com) liassent le champ libre aux moteurs américains... Ce n'est pourtant pas les idées qui manquent chez nous!

15 janvier, 2006 11:58  
Blogger Jean Véronis a écrit...

Alexandre> Oui, j'y ai pensé, et c'est très facile, une ligne de code à changer. La raison pour laquelle je ne l'ai pas fait pour l'instant c'est que j'ai peur de faire exploser Dir.com: s'il suffit d'un clic pour relancer la génération de nuages j'ai peur que le moteur ne suive pas. Mais je vais examiner la façon dont les choses se passent, le nombre de requêtes à l'heure etc. et si c'est faisable c'est très certainement le comportement que je vais implanter! Une vraie navigation de nuage en nuage...

15 janvier, 2006 12:01  
Blogger all a écrit...

Le réseau tourne les yeux vers l'intérieur de lui-même et auto-contemple sa façon de dire consubstantielle, à défaut de s'analyser. Les mots les plus sémantiquement riches ne donnent aucun résultat remarquable.
rien
all

15 janvier, 2006 12:04  
Blogger Jean Véronis a écrit...

Alexandre> déjà un millier de requêtes en quelques heures, mais le moteur a l'air de tenir la charge. Je tente le coup: quand on clique, on a maintenant un nouveau nuage. On verra bien; si ça sature, je reviendrai à l'ancien mode...

15 janvier, 2006 15:35  
Blogger TOMHTML a écrit...

Excellent travail Jean ;)

15 janvier, 2006 17:33  
Anonymous Bee_Human a écrit...

Très intéressant de voir ces résultats. J'ai essayé mon Nom. Mon prénom est apparue en plus gros. Quand on veut flatter son ego c'est effectivement très bien.

J'ai essayé avec BnFlower et Musique Indépendante. Les résultats sont également d'une grande pertinence.

15 janvier, 2006 17:48  
Anonymous Laurent W a écrit...

Bonsoir. Non informaticien mais sociologue, je ne trouve pas du tout que le petit programme proposé est une forme de narcissisme du web. En tout cas, de mon côté, il me semble passionnant. Travaillant sur la sociologie des avocats, j'ai tapé le mot ; le web me renvoie surtout des mots liés au droit des affaires, à l'immobilier, etc... et pas du tout au droit pénal, pas à la défense des salariés par exemple. Voilà quelque chose de fort intéressant, qui ne m'apprend pas une idée révolutionnaire mais qui me donne de nouvelles indications. Autre exemple : quand on tape l'expression "harcèlement moral", le mot le plus associé semble Hirigoyen, le mot "syndicat" n'y est pas... Bien sûr, j'avais déjà fait des recherches sur Google et Yahoo à partir de ces mots ; mais ça m'avait pris des heures pour saisir l'environnement lexical de ces expressions et sans réussir à en faire la synthèse (alors que résumerles données d'une manière visible est précisément l'objectif de ces technologies de présentation de la recherche et de l'appareil de preuve). Ici, c'est fait si vite...
Désolé pour ce message si long, mais je suis absolument fasciné par l'inventivité et le talent d'un certain nombre d'auteurs qui utilisent l'outil blog... En tout cas, ce "post" -ci me paraît extraordinairement utile et important.

15 janvier, 2006 19:56  
Anonymous Saâd a écrit...

Bonsoir,
Bravo pour cet outil.
J'en avais découvert un aperçu sur Rezo.net et depuis je cherche un outil qui me permettrait de spécifier un texte en entrée et d'obtenir un nuage de points.
Je suis allé sur Tag Cloud mais quelle que soit l'url que je rentre il me dit qu'elle n'est pas valable.
Auriez-vous une idée?

Merci et bonne continuation

16 janvier, 2006 00:13  
Anonymous lalitha a écrit...

Super !
J'emporte le nuage de l'espoir sur mon blog, le doigt pointé vers ici ( bien entendu )

16 janvier, 2006 00:15  
Anonymous Sic Transit a écrit...

Excellent!

16 janvier, 2006 04:45  
Blogger Jean Véronis a écrit...

Laurent> Oui, on découvre des associations (ou des abscences) imprévues!

Merci à tous pour vos commentaires élogieux!

16 janvier, 2006 08:05  
Blogger Marianne a écrit...

Merci beaucoup, c'est très agréable comme outil ! Ca fait un moment qu'à vous entendre parler de nuage, j'ai essayé d'en faire un sur mon blog, malheureusement tagcloud, en plus de mettre 2 mois à créer un nuage, semble avoir des problèmes avec les caractères accentués, du coup ça ne marche pas bien, snif... est ce qu'il existe un outil français pour faire un nuage à partir d'un fil rss ?

16 janvier, 2006 10:27  
Anonymous tef a écrit...

Juste une petite considération sur la récurrence de certains mots. Je pense à "France" qui revient souvent : évident mais peu pertinent, je trouve. Ou "vente" "achat". Pour ceux-là, le nuage n'est plus seulement lexical mais socio-lexical, les mots ne sont pas denrées marchandes mais forcément attachés à quelques entreprises de ce genre. Enfin bref, y'a du commerce sur le Net et ça se voit. Voilà, c'était mon constat.

16 janvier, 2006 11:52  
Anonymous Cochonfucius a écrit...

J'ai essayé avec "surfez" et "nuages"

(voir

http://www.up.univ-mrs.fr/cgi-veronis/nebuloscope?req=surfez+nuages&taille=gros

)


et c'est joli comme résultat
mais il n'y a (pas/pas encore)
le mot "nébuloscope" ...

16 janvier, 2006 14:29  
Blogger Jean Véronis a écrit...

Marianne> TagClouds -- Hélas, effectivement, TagClouds (qui utilise la technologie d'analyse de contenu de Yahoo!) ne fonctionne pas bien sur le français; problèmes d'accents mal résolus, mais aussi antidictionnaire (mots à exclure) pas prévu pour le français. Du coup il y a des tas de mots qui ne servent à rien et qui sont indexés (articles, etc.). Je ne connais pas d'équivalent qui marcherait sur les fils RSS pour le français.

Je pourrais en faire un aisément, mais c'est un problème de bande passante. Si quelqu'un veut héberger...

16 janvier, 2006 19:29  
Blogger Jean Véronis a écrit...

Tef> Mots fréqnets (France), etc. -- C'est terrible d'avoir des lecteurs aussi bons. Bien sûr ces mots sortent souvent: les exclure, ne pas les exclure? C'est tout l'art de l'antidictionnaire (stoplist en bon franglais), qui est au mieux un artisannat. Ces mots, peu intéressants dans beaucoup de cas, sont extrêmement pertinents pour certains nuages ("France" pour Sarkozy, etc.). Ce que j'utilise est un compromis, issu de pas mal d'années de travail dans le domaine, mais comme tout compromis, il est imparfait. On pourrait faire (un peu) mieux avec quelques statistiques de base issues de la fréquence globale des mots-clés sur le moteur... Peut-être (à suivre!).

le nuage n'est plus seulement lexical mais socio-lexical -- dans tous les cas, c'est de toutes façons socio-lexical. Mais est-ce que le lexique peut-être autre chose qu'un objet social? <-- attention, si vous avez lu d'une oreille distraite (hi, hi), c'est une question archi-profonde ;-)

Merci Tef (mais pas trop de questions comme ça, svp, ça met la barre trop haut! ).

16 janvier, 2006 19:37  
Blogger Jean Véronis a écrit...

Cochonfucius> mais il n'y a (pas/pas encore) le mot "nébuloscope" ...

vrai, mais on le voit déjà vachement poindre le bout de son cumulo-nimbus sur le
Chronologue !

16 janvier, 2006 19:40  
Anonymous Boris New a écrit...

Bonjour Jean,
Encore félicitations pour ce merveilleux outil !!
Est-ce que ce serait possible d' utiliser sur un gros corpus de textes? Ca m'intéresserait beaucoup de le faire tourner sur mon corpus de sous-titres et de livres...

16 janvier, 2006 19:45  
Blogger Jean Véronis a écrit...

Boris> Pas de problème, je peux te faire ça (tu m'envoies le corpus zippé?). Mais attention, c'est gratuit uniquement pour les amis ;-) Non, je rigole, mais si on veut faire du bon travail, il ne s'agit pas seulement de pousser un bouton. Il faut régler pas mal de choses, et notamment le fameux antidictionnaire, qui a déjà été mentionné plusieurs fois dans les commentaires ci-dessus.

16 janvier, 2006 19:51  
Anonymous alphoenix a écrit...

Pour utiliser des tags dans les blogs, il y a de nombreuses applications mais qui sont spécifiques aux logiciels utilisés. J'en utilise un sur DotClear, cela fonctionne avec des mots que l'on associe soi-même aux différents messages du blog. j'aurais aimé montrer un exemple mais mon blog reste sur mon réseau local, avec un seul ordinateur. Bref... Par contre, si vous avez Firefox, il y a un petit script pour rechercher rapidement les résultats du chronologue et du nébuloscope, depuis la barre de recherche Firefox. Plus d'informtions par e-mail.

16 janvier, 2006 21:34  
Anonymous Mathias a écrit...

Bravo pour cet outil, et surtout merci beaucoup de l'avoir mis à disposition de tous. J'ai aussi beaucoup apprécié le Chronologue.

On pourrait d'ailleurs imaginer un "Nébulo-Chronologue", une sorte de nuage de mots animé, où la taille de chaque mot varie en fonction du temps. Avez-vous envisagé un tel outil ?

Bien sûr cela multiplierait le nombre de requêtes par le nombre de périodes considérées.

17 janvier, 2006 05:45  
Blogger Jean Véronis a écrit...

MathiasQ> Merci!

Nébulo-Chronologue -- vous avez complètement raison: en fait je me suis déjà fait un tel outil. J'en parlerai peut-être sur le blog parce que ça produit quelques jolies choses. Mais je ne peux pas le mettre en ligne pour une simple question de charge du serveur. Peut-êtreun jour, si tout cela devient moins artisanal et que Dir a quelques moyens...

17 janvier, 2006 08:37  
Blogger Marianne a écrit...

Ah, quel dommage.
J'ai du mal à imaginer que ça puisse être facile, sinon quelqu'un l'aurait déjà fait :-). Mais j'imagine que ça prend beaucoup de place ? Je proposerais bien mes quelques dizaines de Mo qui s'ennuient sur un serveur wana doo sinon.

17 janvier, 2006 21:46  
Anonymous fuligineuse a écrit...

Je viens de faire une petite note sur le nébuloscope avec un lien vers celle-ci...

18 janvier, 2006 10:40  
Blogger Jérôme Charron a écrit...

Finalement, mon image de Jean Austin (mixage de Jean Véronis avec Steve Austin) n'était vraiment pas usurpée.
Plus sérieusement, et un peu tardivement, beau travail Jean.
J'ai moi même dans mes maquettes de Frutch (dont j'espère bientôt mettre quelques aperçus en ligne) intégré un nuage de mots. Ce nuage de mots et généré à partir des résultats du Clustering de Nuth.

Question d'un tout autre ordre: As-tu fais quelques tests de taille d'index sur Exalead? Ils ont en effet annoncé une augmentation de l'index, mais mes quelques tests rapides ne semblent pas refléter cette augmentation.

18 janvier, 2006 11:11  
Blogger Jean Véronis a écrit...

Jerôme> J'ai hâte de voir les nuages de Nutch!

Non, je n'ai pas encore regardé en détail les nouveaux résultats d'Exalead. J'ai vu leur annonce... A suivre.

18 janvier, 2006 11:37  
Blogger Jean Véronis a écrit...

Jerome> je ne sais pas pourquoi Motrech n'apapraît pas dans mes trackbacks. Pourtant il est aussi sur Blogger! Bizarre... Catégorisé comme un vulgaire spam?

18 janvier, 2006 12:04  
Blogger Jean-Marie Le Ray a écrit...

Génial, y a pas d'autre mot ! Est-ce que ça marche aussi avec les tags ?
Mon idée serait de créer un site perso de tags, qui ne reprendraient pas seulement les blogs, mais aussi les sites, les articles et autre, enfin tout ce avec quoi on se sent des atomes crochus, et les présenter en nuages, voire en nébuleuses :-)
Je sais bien que cela existe déjà en anglais, mais un petit programme franco-français-francophone serait pas déplaisant.
En tout cas, je vais vite écrire un billet sur le Nébuloscope, ça mérite ! Ça c'est sûr qu'il disait le Coluche.
Bravo encore,

Jean-Marie Le Ray

P.S. A propos de la ressemblance entre notre Coluche national et le Sarkophage (lui qui est si gourmand), y a quand même pas photo...

18 janvier, 2006 16:10  
Blogger Jean Véronis a écrit...

Jean-Marie> Merci!

Non, ça ne marche pas sur les tags. L'outil analyse la fréquence des mots sur les pages web.

ressemblance entre notre Coluche national et le Sarkophage : les deux se présentent aux présidentielles en racontant des c... Différence: l'un faisait rire, l'autre pas -;)

18 janvier, 2006 16:43  
Blogger geneline a écrit...

Oui, c'est totalement redondant avec les autres commentaires, mais il faut bien le dire, c'est génial!

19 janvier, 2006 01:18  
Blogger Jean Véronis a écrit...

Geneline> Redondez, redondez... Ca fait toujorus plaisir. Merci Geneline!

19 janvier, 2006 07:42  
Blogger Xavier a écrit...

Bonjour,
Vous serez peut-être intéressés par la nouvelle version de ce moteur de recherche :
http://www.dumbfind.com/

La technique employé semble être différente, mais la présentation...

Tapez des mots-clés dans la zone de recherche, et des "related tags" seront proposés à gauche pour affiner la recherche... C'est tout nouveau je pense, j'ai reçu le message d'annonce de cette version ce matin !

19 janvier, 2006 09:50  
Anonymous nico a écrit...

Peut-être un soucis ce matin, ou avec Over-Blog ?
cela ne semble pas marcher.
(3 tentatives depuis 10h aujourd'hui)

> http://www.nuesblog.com/
et pas mieux avec celle-ci > http://blpwebzine.blogs.com/nuesweb/

c'est un bug momentané ?
Bravo une fois de plus, j'ai vu des nuages étonnants et explicites (mais pas ceux-là ;)!

19 janvier, 2006 12:40  
Blogger Jean Véronis a écrit...

Nico> j'ai dû rater un bout de discussion... http://www.nuesblog.com/ semble effectivement en panne, mais quel rapport avec le Nébuloscope (qui lui, apparemment, fonctionne)?

19 janvier, 2006 13:36  
Anonymous nico a écrit...

effectivement, non, le site n'est pas en panne, pas plus que le nébuloscope, c'est mon cerveau qui doit l'être, je n'avais pas saisi que le nébuloscope ne marchait qu'avec des mots-clefs et pas avec des url ;)

19 janvier, 2006 14:34  
Blogger Jean Véronis a écrit...

Nico> Ah oui, je vois. Non, pour analyser un site c'est plutôt un outil comme TagCloud qu'il faut, mais les résultats sont catastrophiques sur le français; je ne connais pas d'outil équivalent pour notre douce langue (coir question de Marianne un peu plus haut)...

19 janvier, 2006 19:41  
Blogger Jean Véronis a écrit...

Xavier> Oui, j'ai aperçu Dumbfind. Je suis très modéremment convaincu par la pertinence de leurs tags (sur l'anglais). A suivre, je suppose. De toutes façons, l'idée est dans l'air... Quant à la typographie: la mienne est évidemment inspirée de TagCloud, et je vois que Dumbfind aime bien cette harmonie orange/bleu aussi (j'ai juste ajouté le rouge, car il me semble qu'un niveau "maximal" manquait).

19 janvier, 2006 20:47  
Anonymous lobita a écrit...

Votre petite invention est géniale! Dans le "nuage autour de mon pseudo (qui est un mot espagnol qui signifie "louve" j'ai découvert les mots aime, amour, coeur, femme, enfant et vie. Tout ce qu'il me fallait. Merci!!!!

19 janvier, 2006 23:00  
Anonymous G. Mike a écrit...

Tout simplement fabuleux, une bonne idée, une belle idée. Merci !

19 janvier, 2006 23:39  
Anonymous Anonyme a écrit...

L'outil ressemble assez à ce que fait Kartoo (kartoo.fr), qui produit à partir d'une recherche une sorte de nuage de liens au milieu duquel on trouve des mots clés.

20 janvier, 2006 09:12  
Anonymous double je a écrit...

génial
je viens à ma grande surprise en mettant mon prénom trouver dans mon nuage le pseudo de mon premier blog...

20 janvier, 2006 12:03  
Anonymous Guillermito a écrit...

Des outils visuels de présentation de grandes quantités de textes (ou autre type d'information) ici. Notamment un dont j'avais vu une démo lors d'un congrès de biologie moléculaire (comme quoi, ces outils sont intéressants quel que soit l'information) : TextArc. L'exemple choisi montre une représentation graphique d'Alice au Pays des Merveilles. Il y a aussi une représentation des liens entre personnages des Misérables ici, et d'autres graphes assez marrants, du genre qui sort avec qui dans un lycée. Pour les flux d'information dans du code informatique, on a ça aussi en 2D (je lui ai piqué la première URL citée) ou ça en 3D (comparaison du code de 2 virus). Bref, j'adore ce genre de chose :)

23 janvier, 2006 06:58  
Blogger Jean Véronis a écrit...

Guillermito> Un grand merci pour ces liens. La concertration de réseaux sur le site de Flickr est proprement fascinante! J'ai joué un peu moi aussi avec les réseaux de mots ici et ici. J'en parlerai peut-être un de ces 4.

23 janvier, 2006 08:41  
Blogger Jérôme Charron a écrit...

Pendant que nous sommes dans les nuages, voici une nébuleuse assez intéressante pour naviguer dans un corpus taggué... http://blog.outer-court.com/waxy/

23 janvier, 2006 14:43  
Anonymous Anonyme a écrit...

Mon commentaire anonyme a disparu . Il était de nature dubitative concernant le nuage que votre test a réalisé sur mon site d'écriture et de poésie. Je réitère donc ma question : il y a des mots qui ne correspondent pas au contenu du blog et je me demande donc d'où ils sortent. MERCI DE MIEUX EXPLIQUER votre méthode. Je ne sais pas lire non plus votre graphique. Décidémént avant de vous faire de la pub il va falloir que votre outil soit convaincant.Si ce nouveau message disparaît, j'en déduirais que vous n'avez pas de réponse à ma requête et j'en aviserais les personnes qui m'ont conseillé votre site. Bien cordialement.

23 janvier, 2006 20:49  
Blogger Jean Véronis a écrit...

Anonymous> Du calme... Je ne supprime jamais aucun commentaire, sauf spam (rare) ou injures à tierce personne (une seule fois depuis le début...). Je ne sais pas trop ce que bidouille Blogger, mais il se peut qu'il y ait par-ci par-là des bugs, ou que certains internautes fassent de fausses manips qui leur fassent perdre le commentaire qu'ils viennent d'écrire. Pas de quoi s'énerver.

En tous cas, votre commentaire, je viens de le voir, mais je ne sais pas l'interpréter: de quoi parlez-vous? de quel site? Je n'ai pas l'impression d'avoir fait un test sur un site particulier, puisque mon outil utilise un moteur de recherche, et non pas, par définition, un site.

Quant à expliquer, ma foi, bien sûr, bien volontiers -- dès que j'aurais compris de quoi il retourne. Mais... cool quand même: tout ça n'est pas à prendre (trop) au sérieux ;-)

23 janvier, 2006 21:03  
Blogger Jean Véronis a écrit...

Jerôme> Merci pour le lien. Je lis régulièrement Google Blogoscoped mais ce billet-là je l'avais raté. Quelle productivité ce Philip Lenssen. Je l'admire!

23 janvier, 2006 21:04  
Anonymous Anonyme a écrit...

Excusez ma franchise, ce n'est pas de l'énervement...de la perplexité surtout...
Merci de bien vouloir expliquer comment "le moteur de recherche" sélectionne les mots liés à un titre de blog qui existe , si on met n'importe quoi ça ne marche pas. J'en déduis qu 'il y a bien saisie à quelque part de l'URL du site concerné. Ou alors le choix est complètement aléatoire et ressemblerait à un kaléidoscope secoué où on ne distinguerait que ce qui est au-dessus et visible... Cela fait davantage penser à un horoscope qu'à une démarche rigoureuse et représentative. Quand je ne comprends pas, je pose des questions. et si ce n'est pas sérieux comme approche comment éviter que n'importe qui puisse utiliser n'importe quel titre de site et fasse un usage de votre nuage sans l'accord du gestionnaire du site concerné ? Par ailleurs , il ne faut peut-être pas obliger la personne qui fait le test d'en passer par lui pour accéder aux questions-réponses des commentaires ( Vous pensez peut-être que je fais une fausse manip. mais après deux ans d'internet intensif ce n'est peut-être plus le cas -ALORS ce serait un problème de moteur dites-vous ?).Vous voyez, un peu de transparence sur la technique n'est pas inutile. N'avez-vous sincèrement pas accès au site pour lequel vous effectuez le test ?
Là encore je suis dubitative. Je termine sur deux questions :
Qu'est ce qui est exploré avec ce test ? La grosseur des mots sur le nuage correspond-t-elle au nombre de fois où un terme est utilisé dans le site ?
Voilà . Je ne souhaite pas en première intention intervenir sur les commentaires autrement que de façon anonyme . Merci de tenir compte de cette réticence qui ne peut être levée qu'à la condition d'y voir plus clair dans votre proposition. Pour l'instant je ne la trouve pas du tout pertinente.
Merci d'avance pour vos éclaircissements.

24 janvier, 2006 08:10  
Blogger Jean Véronis a écrit...

Anonymous> Je le dis sans doute trop brièvement dans le texte, sou avez raison: mon outil analyse les résumés retournés par un moteur de recherche (en l'occurrence Dir.com, mais ce pourrait être Yahoo, Google, etc.) sur une requête donnée.

Par exemple, si vous tapez "Jean Véronis", le moteur retourne ceci. C'est ça que j'analyse (en fait 1000 résumés) et rien de plus. L'outil retourne donc une image lexicale de cette requête sur l'ensemble du Web (indexé) et non pas sur un site particulier. Il n'y a aucune analyse de sites individuels.

La grosseur des mots est fonction du nombre de fois où un mot est utilisé dans un les résumés retournés par le moteur. Par exemple, sur "Jean Véronis", les mots les plus fréquents sont "technologies", "langage", "provence", "google", etc.

24 janvier, 2006 09:39  
Anonymous alphoenix a écrit...

Anynomous s'énerve un peu trop vite... Il ne faut pas croire que Big Brother est sur votre site. Les résultats renvoyés par le Nébuloscope, qui est encore un peu nébuleux, n'est qu'un résumé des résumés rendus par les moteurs de recherche. Par exemple, si vous tapez cuisine, les mots renvoyés dans les résumés peuvent aussi bien être "acheter votre cuisine au meilleur prix" que "bien réussir son gâteau avec la cuisine de Mamie". Les mots les plus souvent retournés lors de la recherche seront analysé par l'outil et renvoyés sous la forme de ce nuage. il ne faut pas s'énerver et ces outils, comme cela est signalé maintes fois ne sont que des essais et des éclairages. De plus, celui-ci, peut renvoyer des résultats qui ne "vous conviennent pas" mais il faudrait pour souhaiter n'avoir que des mots relatif à votre site contrôler la totalité des pages citant ce mot...
Amicalement...

24 janvier, 2006 22:13  
Anonymous Spiritoo a écrit...

tout d'abord M.Veronis ecore bravo sur cet outil génail qui ouvre de nouvelles perspectives pour al recherche sur le net. Avant que vous ne lisiez la suite rigolote, j'ai une petite idée pour les problèems de bande passante: pourquoi ne pas mettre sur pied une recherche "décentralisée" à la mode du Pair à pair (P2P): les calculs des mots à afficher seraient effectués "en commun" par tous les inscrits au programme, comme lorsque nous aidions les US à trouver des extraterrestres, ou d'autres projets. A voir...

Je me suis amusé avec le nébuloscope des mots « Gauche » et « Droite » en ne gardant que les mots qui ne sont pas en commun, ce qui a ôté déjà des mots évidents (comme France) ou d’autres communs mais liés à d’autres acceptions de ces mots (comme main). Les mots restants sont intéressants mais il ne faut pas perdre de vue que cela reflète la pensée du web, et non la réalité (je ne veux pas juger un programme politique selon ce qui en est dit, car par exemple si vous cherchez des infos sur la Chine en Chinois, vous trouverez sans doute 90% de textes élogieux… et pourtant la vie n’est pas rose pour tout le monde.. bref)

En excluant encore les mots dont il est probable qu’il s’agit de mots filtrés par l’antidictionnaire dans un cas mais pas dans l’autre (tel l’incompréhensible super performance du mot « hôtel » à gauche..), il nous reste des thèmes assez précis :
La gauche propose des valeurs basées sur l’humanisme et la vie : bonheur, club, contacts, culture, discussion, facile, formation, mouvement

Elle contrôle les médias (d’après un sondage de Marianne en 2002, 64% des journalistes votent à Gauche contre 42% des français) : journal, presse

On parle de son programme, mais surtout qu’elle n’en a pas (lol) : programme, projet.

Elle a une composante spécifique : radical

Il reste quelques mots qui ne sont pas parasites et sont inexpliqués : Saint et Michel, peut être liés (mais ce quartier apparaîtrait donc en relation avec les mots « Rive Gauche » ?), grande et favoris (favoris des élections?), codes.

De l’autre côté, la droite s’intéresse surtout à l’argent et aux valeurs familiales et éducatives : direction, économique, espace, état, Europe, famille, loi, pouvoir, produits, savoir, travail.

Elle a quand même un peu de social : association, cercle, jeunes

Elle a aussi une composante spécifique : national, jean (lié à Le Pen ? On note aussi que le mot « extrême » est bien plus gros qu’à gauche).

Là encore des mots inexpliqués : si on exclue encore une fois les mot utilisés lorsqu’on demande ou on décrit son chemin (virage, accès, maison, etc.), il reste calendrier, contenu, petite (alors que la Gauche avait « grande » !!), prendre, référence, et rouge ( !!)

Surprenant...

25 janvier, 2006 21:22  
Anonymous Modo a écrit...

Est ce que vous connaissez ce moteur :
http://dumbfind.com/
ça rejoint un peu votre idée. Mais je pense qu'il peut être amélioré (il est encore en version béta)... A surveiller

27 janvier, 2006 10:36  
Anonymous Cochonfucius a écrit...

c'est amusant de tester des mots qui ont couramment leur place derrière "nuage de", comme, par exemple,

Oort.

27 janvier, 2006 11:19  
Anonymous Briconcella a écrit...

Votre nuage de mots me plait tellement que j'aimerais en faire une copie papier en A5 à encadrer pour un anniversaire (demain), avec le nom de la personne en mot clef. Me l'autorisez-vous? Et comme je ne suis pas bonne en html, comment l'exporter vers l'imprimante? Merci.

28 janvier, 2006 10:17  
Anonymous Aurelien Fache a écrit...

Un outil a ajouter au plugin Hyperwords (http://www.hyperwords.net/index.html)?

je selectionne le mot "DADVSI" et zou j'arrive sur
http://www.up.univ-mrs.fr/cgi-veronis/nebuloscope?req=DADVSI :)

29 janvier, 2006 20:19  
Anonymous Clara a écrit...

Merci pour cette découverte. J'ai essayé pas mal de mots (Suisse, Paris, Clara, Mahomet, etc) et dans l'ensemble je trouve les résultats très pertinents...

Bref, très sympathique

06 février, 2006 19:44  
Anonymous papaenstring a écrit...

Bonjour et bravo !

Je trouve cette facon de voir tres poetique !
Sur que je reviendrai ...

bonne continuation

07 février, 2006 13:29  
Blogger M. et e. a écrit...

C'est fort intéressant, nous allons nous envoler dans les nuages avec un joli parachute de mots à chercher !

26 mars, 2006 23:06  
Anonymous Alphoenix a écrit...

Je me demande s'il est possible de supprimer les pluriels ou les singuliers quand ils apparaissent tous les deux. Parce qu'avec dadvsi par exemple, on retrouve droit et droit, logiciel et logiciels, il faudrait peut-être lui dire au nébuloscope que si il y a un s au bout, il condense les deux en uns... Est-ce possible ?

27 mars, 2006 01:04  
Anonymous Christophe a écrit...

Je trouve l'idée du plug-in pour firefox très bonne cependant le lien fourni ne fonctionne pas, que ce soit pour le nébuloscope ou le chronoscope !

27 avril, 2006 09:15  
Blogger Jean Véronis a écrit...

Christophe> Un ou deux autres lecteurs m'ont dit ça. C'est bizarre. plein d'autres l'ont installé. Je l'ai moi-même installé sur diverses machines Linux ou Windows. j'avoue que, ne pouvant pas reporduire le bug, j'ai du mal à le corriger... Si quelqu'un a des lumières...

27 avril, 2006 09:18  
Anonymous Anonyme a écrit...

Je trouve qu'il n'y a rien de plus beau que les mots et le nébuloscope nous le démontre encore une fois, alors merci! J'ai tapé mon prénom tout à l'heure et je suis tombée sur le mot "Espagne", pays dans lequel je me suis expatriée il y a quelques mois. Je ne m'appelle pourtant pas María... Heureuse coïncidence?

21 juin, 2006 15:59  
Anonymous devos a écrit...

Question sdans doute un peu "couillone" : concernant le sublime (un peu de flagornerie ne fais pas de mal ; surtout si c'est beau) NEBULOSCOPE : la couleur et la position des mots dans ce nuage ont-elles une signification ?
Merci pour votre site à la fois riche et amusant même si je ne comprends pas tous (je pense aux aspect techniques)
signé : Fauteuil

29 août, 2006 20:24  
Anonymous Anonyme a écrit...

parce qu'il n'est pas dans le repertoire "search plugins" de firefox, il est difficle de le désinstaler, ou l'avait vous mis ?????

12 octobre, 2006 22:03  
Anonymous di folco a écrit...

Beau projet, merci. Je suppose que vous avez entendu parlé de l'affaire Corneille/Molière et de cet informaticien qui démontre que tout M. et dans C. à l'aide d'un outil complexe (calculs des fréquences lexicales intertextuelles ???). Bon, en tous cas, votre outil m'entrouve bien des routes, qu'un brouillard ténu jusqu'ici dissimulait...

28 novembre, 2006 15:59  
Anonymous Anonyme a écrit...

Bonjour,

Tout d'abord, bravo pour le travail que vous fêtes. Peut être mon commentaire est hors contexte.

Je suis très intéressé par votre travail dans le sens où je travaille sur l'Oral. Au fait, j'ai intensivement collaboré au projet de corpus de la langue français parlée en interaction (CLAPI). Un prototype est disponible à l'adresse http://clapi.univ-lyon2.fr/.

D'autre part, je travaille sur l'entreposage des données (data warehousing) et je m'intéresse actuellement sur le couplage des TagCloud et l'analyse en ligne des cubes de données. Vos travaux m'inspirent beaucoup. Rien que pour ça, je vous dit merci.

K. Aouiche
http://eric.univ-lyon2.fr/ékaouiche

29 novembre, 2006 21:03  
Anonymous LeNaif a écrit...

bel outil, amusant, et parfaitement réaliste

La preuve : quand on teste "sincère", le tag "Homme" est plus important que le tag "Femme" ...

OK d'accord, je sors ....

22 février, 2007 13:43  
Anonymous Pli a écrit...

"La grosseur des mots est fonction du nombre de fois où un mot est utilisé dans un les résumés retournés par le moteur. Par exemple, sur "Jean Véronis", les mots les plus fréquents sont "technologies", "langage", "provence", "google", etc."


Je ne sais pas pourquoi, mais j’ai toujours cru qu’il s’agissait de la fréquence avec laquelle ces mots étaient associés dans les requêtes que faisaient les utilisateurs sur Dir.com. Du coup je me demande de quoi est significative la fréquence de ces mots dans les résumés puisqu’il ne s’agit que des mots qui entourent dans une phrase celui sur lequel on fait une recherche.


Est-il possible d’utiliser le nébuloscope sur un site particulier, comme on le peut pour Google ?


Je cherche en fait à insérer l’usage de votre outil dans une séquence didactique qui consisterait à faire déterminer par les élèves les thématiques et les orientations politiques propres à chaque position de l’échiquier politique. Mais pour cela, il me faudrait cibler les recherches (sur un site, voire sur un discours, comme vous aviez fait pour les voeux de Sarkozy), pour distinguer entre ce qui ressort des textes issus des membres d’un parti et ce que la majorité en dit. Serait-ce possible ?

27 mai, 2007 12:43  
Anonymous Anonyme a écrit...

Quel sens a ce nouveau mot en politique : logiciel !?
Merci !!

29 mai, 2007 08:31  
Anonymous Anonyme a écrit...

Il y a un joli exemple de nébuloscope ici:

http://icp.ge.ch/sem/cms-spip/spip.php?rubrique67

18 mars, 2011 08:50  

Enregistrer un commentaire