Web: Surfez sur les nuages
Vous avez sans doute noté ma fascination pour les nuages de mots [1, 2, 3, 4, 5, 6]. Je trouve qu'ils sont un moyen superbe de visualiser la thématique et le "monde lexical" d'un texte. Je rêvais depuis un moment d'un moteur qui retournerait ses résultats sous forme de nuage... J'ai fait divers prototypes à partir de l'API de Yahoo, qui m'ont convaincu qu'on pouvait utiliser les résumés retournés par le moteur pour générer de tels nuages. Seul petit problème, pour des nuages intéressants, il faut pas mal de résultats; or, Yahoo n'en retourne pas plus de 100 à la fois, ce qui implique plusieurs requêtes, et un temps de réponse trop long pour une mise en ligne de l'outil, sans compter la consommation de bande passante...
J'en ai parlé à Philippe Develter de Dir.com, grâce à qui j'ai déjà pu réaliser le Chronologue. Philippe a implanté côté moteur une partie du traitement, et je peux maintenant générer le nuage en une fraction de seconde. Voici par exemple un petit nuage d'actualité (bonne Aïd!):
Intéressant à comparer avec d'autres fêtes récentes:
Pour les fêtes non-chrétiennes, on précise "fête musulmane", "fête juive". Pour Noël, on parle simplement du Père Noël et des cadeaux. Amusant non? Gageons que certains vont y voir un moyen d'affiner leurs mots-clés:
ou de satisfaire leur ego:
Assez ressemblant, je trouve...
Et on peut même restreindre le nuage à une période donnée, exprimée en nombre de jours (exemple: mot-cle dd>60 dd<120) ou en nombre de mois (mot-cle mm>1 mm<2). Par exemple "segolene royal" mm<1 retourne:
Tiens, tiens, "présidente", "présidentielle". La petite Ségolène qui monte, qui monte...
A vous de jouer, le Nébuloscope est ici !
J'en ai parlé à Philippe Develter de Dir.com, grâce à qui j'ai déjà pu réaliser le Chronologue. Philippe a implanté côté moteur une partie du traitement, et je peux maintenant générer le nuage en une fraction de seconde. Voici par exemple un petit nuage d'actualité (bonne Aïd!):
abattage abraham adha afrique aid aid-el-kebir algerie calendrier celebration conseil el-kebir famille feries fete fetes fin fitr france grande histoire islam jours kebir kippour lieu maroc mois mosquee mouton moutons musulman musulmane musulmanes musulmans noel occasion paris pays photos presse quotidien ramadan religieuse religieuses religion rituel sacrifice tabaski tunisie ville
"Aïd el Kébir"Intéressant à comparer avec d'autres fêtes récentes:
achat activites arbre cadeau cadeaux canalblog carte cartes chansons christmas conseils cuisine enfant enfants famille fete fetes fin france guide histoire idees images jean jeux jours joyeux marche membres musique noel nouvel papa paris pere photo photos presse prix recettes saint sapin selection service special temps traditions vacances vie voeux
Noëlanglais atseret bar calendrier chemini commemorations communaute encyclopedie enfants evenements fete fetes france hanoucca hanouka hashana hat histoire israel jerusalem jeune jours joyeux judaisme juif juifs juive juives kippour livre livres lumieres mois noel paris partie pessa pourim redoutables religion rosh serie sim soir souccot temple torah tou vie yom
HannouccaPour les fêtes non-chrétiennes, on précise "fête musulmane", "fête juive". Pour Noël, on parle simplement du Père Noël et des cadeaux. Amusant non? Gageons que certains vont y voir un moyen d'affiner leurs mots-clés:
accessoires achat acheter arme baton beaute cheveux cinema conseils corps cosmetique cosmetiques couleur couleurs crayon creme dvd fard femme femmes feu film fond france gloss jeux levres livres maquillage mascara mode ongles parfum paris paupieres photo prix produit produits rose rouge rouges sante soin soins teint vente vernis visage yeux
"Rouge à lèvres"ou de satisfaire leur ego:
aix-en-provence aixtal atala automatique blogs blogspot centre cilsh constitution corpus cours delic directeur equipe europe europeenne francaise france francois google ide informatique jacques jean journal langage langue langues lettres lexique linguistique moteur moteurs mots nancy nom olivier paris pierre professeur provence referencement resultats technologies texte traitement univ-mrs universite veronis yahoo
"Jean Véronis"Assez ressemblant, je trouve...
Et on peut même restreindre le nuage à une période donnée, exprimée en nombre de jours (exemple: mot-cle dd>60 dd<120) ou en nombre de mois (mot-cle mm>1 mm<2). Par exemple "segolene royal" mm<1 retourne:
candidat candidate candidature chili chirac conseil dominique fabius famille femme francaise france francois gauche hollande jack jospin journal laurent ministre nationale nicolas nouvel observateur paris parti place poitou-charentes politique politiques president presidente presidentielle presse prete region regional royal sarkozy segolene socialiste socialistes sondage sondages stature strauss-kahn tete ump vie villepin
"Segolène Royal" mm<1Tiens, tiens, "présidente", "présidentielle". La petite Ségolène qui monte, qui monte...
A vous de jouer, le Nébuloscope est ici !
74 Commentaires:
Again, the power of Jean Veronis thinking and Dir.com engineering presents you the best tools for your computer... Je suis enchanté des outils que vous fournissez. Je suis sûr qu'ils permettent une meilleure compréhension des buzz sur Internets, de l'actualité... Je suis épaté. Bravo. Félicitations...
Bonjour et bravo pour ce bel outil. Je suis fan, et je pense que ce type de visualisation aurait un intérêt à faire partie intégrante des moteurs comme aide à la recherche. Il faudrait ajouter le nuage aux résultats des moteurs avec la possibilité d’inclure ou d’exclure des mots du nuage. Par exemple vous faites une recherche sur la « veille » les résultats se partage entre « écran de veille » et « veille technologique ». Vous transformez donc votre recherche en « veille !ecran technologique » (le point d’exclamation pour exclure sur dir.com) et votre nuage correspond à ce que vous cherchez.
Exalead propose déjà un système de mot clés relatifs à inclure ou exclure qui à mon sens devrait être étendu à d’autre moteur.
Il y a une truc marrant. Quand on tape Parti Socialiste par exemple, on aperçoit beaucoup les prénoms et, sans les nom, ils paraissent plus sympathiques, Laurent, François, Elisabeth, Dominique et les autres. Bien sûr, cela fonctionne si l'on tape Sarkozy, ce qui nous renvoie Dominique, Jacques ou Jean-Pierre. Je me demandais juste si une utilisation plus régulière de Dir.com à la place du sacr-saint Google, pouvait faire changer les choses, s'ils auraient plus de sous et donc plus de fiabilité. Je ne connais pas trop le fonctionnement, mais pour faire évoluer vos outils je suis prêt à changer de style de surf...
Plutôt que de renvoyer vers le site Dir.com lorsque l'on clique sur un mot en l'associant avec le mot étudié, serait-il possible de recommencer la recherche avec les deux mots. Par exemple, Libération revoie le nuage contenant journal. On clique sur journal et on voit le nuage correspondant à Libération+journal. Ainsi, la recherche est précisée au fur et à mesure des clicks. Merci
Merci à tous pour vos appréciations élogieuses! J'en rougis...
Modo> Votre suggestion va exactement dans le sens de ce sur quoi je travaille. J'aime bien les termes associés d'Exalead: ils ont fait un très joli travail. Mais je crois que leur tort est de rester limité aux seuls termes composés. Il faudrait pouvoir combiner les deux, mon système et le leur...
Anonymous> Oui, c'est marrant cette histoire de prénoms! Quant à Dir.com, il me semble que le groupe Iliad l'a lancé, en grande pompe puis pas trop soutenu. Pour l'instant il n'est pas dimensionné pour une utilisation intensive. Peut-être que le "buzz" autour de ces nouveaux outils convaincra-t-il Iliad de faire un petit effort? Quel dommage que les grosses boîtes françaises comme Wanadoo (Voila) ou Iliad (Dir.com) liassent le champ libre aux moteurs américains... Ce n'est pourtant pas les idées qui manquent chez nous!
Alexandre> Oui, j'y ai pensé, et c'est très facile, une ligne de code à changer. La raison pour laquelle je ne l'ai pas fait pour l'instant c'est que j'ai peur de faire exploser Dir.com: s'il suffit d'un clic pour relancer la génération de nuages j'ai peur que le moteur ne suive pas. Mais je vais examiner la façon dont les choses se passent, le nombre de requêtes à l'heure etc. et si c'est faisable c'est très certainement le comportement que je vais implanter! Une vraie navigation de nuage en nuage...
Le réseau tourne les yeux vers l'intérieur de lui-même et auto-contemple sa façon de dire consubstantielle, à défaut de s'analyser. Les mots les plus sémantiquement riches ne donnent aucun résultat remarquable.
rien
all
Alexandre> déjà un millier de requêtes en quelques heures, mais le moteur a l'air de tenir la charge. Je tente le coup: quand on clique, on a maintenant un nouveau nuage. On verra bien; si ça sature, je reviendrai à l'ancien mode...
Excellent travail Jean ;)
Très intéressant de voir ces résultats. J'ai essayé mon Nom. Mon prénom est apparue en plus gros. Quand on veut flatter son ego c'est effectivement très bien.
J'ai essayé avec BnFlower et Musique Indépendante. Les résultats sont également d'une grande pertinence.
Bonsoir. Non informaticien mais sociologue, je ne trouve pas du tout que le petit programme proposé est une forme de narcissisme du web. En tout cas, de mon côté, il me semble passionnant. Travaillant sur la sociologie des avocats, j'ai tapé le mot ; le web me renvoie surtout des mots liés au droit des affaires, à l'immobilier, etc... et pas du tout au droit pénal, pas à la défense des salariés par exemple. Voilà quelque chose de fort intéressant, qui ne m'apprend pas une idée révolutionnaire mais qui me donne de nouvelles indications. Autre exemple : quand on tape l'expression "harcèlement moral", le mot le plus associé semble Hirigoyen, le mot "syndicat" n'y est pas... Bien sûr, j'avais déjà fait des recherches sur Google et Yahoo à partir de ces mots ; mais ça m'avait pris des heures pour saisir l'environnement lexical de ces expressions et sans réussir à en faire la synthèse (alors que résumerles données d'une manière visible est précisément l'objectif de ces technologies de présentation de la recherche et de l'appareil de preuve). Ici, c'est fait si vite...
Désolé pour ce message si long, mais je suis absolument fasciné par l'inventivité et le talent d'un certain nombre d'auteurs qui utilisent l'outil blog... En tout cas, ce "post" -ci me paraît extraordinairement utile et important.
Bonsoir,
Bravo pour cet outil.
J'en avais découvert un aperçu sur Rezo.net et depuis je cherche un outil qui me permettrait de spécifier un texte en entrée et d'obtenir un nuage de points.
Je suis allé sur Tag Cloud mais quelle que soit l'url que je rentre il me dit qu'elle n'est pas valable.
Auriez-vous une idée?
Merci et bonne continuation
Super !
J'emporte le nuage de l'espoir sur mon blog, le doigt pointé vers ici ( bien entendu )
Excellent!
Laurent> Oui, on découvre des associations (ou des abscences) imprévues!
Merci à tous pour vos commentaires élogieux!
Merci beaucoup, c'est très agréable comme outil ! Ca fait un moment qu'à vous entendre parler de nuage, j'ai essayé d'en faire un sur mon blog, malheureusement tagcloud, en plus de mettre 2 mois à créer un nuage, semble avoir des problèmes avec les caractères accentués, du coup ça ne marche pas bien, snif... est ce qu'il existe un outil français pour faire un nuage à partir d'un fil rss ?
Juste une petite considération sur la récurrence de certains mots. Je pense à "France" qui revient souvent : évident mais peu pertinent, je trouve. Ou "vente" "achat". Pour ceux-là, le nuage n'est plus seulement lexical mais socio-lexical, les mots ne sont pas denrées marchandes mais forcément attachés à quelques entreprises de ce genre. Enfin bref, y'a du commerce sur le Net et ça se voit. Voilà, c'était mon constat.
J'ai essayé avec "surfez" et "nuages"
(voir
http://www.up.univ-mrs.fr/cgi-veronis/nebuloscope?req=surfez+nuages&taille=gros
)
et c'est joli comme résultat
mais il n'y a (pas/pas encore)
le mot "nébuloscope" ...
Marianne> TagClouds -- Hélas, effectivement, TagClouds (qui utilise la technologie d'analyse de contenu de Yahoo!) ne fonctionne pas bien sur le français; problèmes d'accents mal résolus, mais aussi antidictionnaire (mots à exclure) pas prévu pour le français. Du coup il y a des tas de mots qui ne servent à rien et qui sont indexés (articles, etc.). Je ne connais pas d'équivalent qui marcherait sur les fils RSS pour le français.
Je pourrais en faire un aisément, mais c'est un problème de bande passante. Si quelqu'un veut héberger...
Tef> Mots fréqnets (France), etc. -- C'est terrible d'avoir des lecteurs aussi bons. Bien sûr ces mots sortent souvent: les exclure, ne pas les exclure? C'est tout l'art de l'antidictionnaire (stoplist en bon franglais), qui est au mieux un artisannat. Ces mots, peu intéressants dans beaucoup de cas, sont extrêmement pertinents pour certains nuages ("France" pour Sarkozy, etc.). Ce que j'utilise est un compromis, issu de pas mal d'années de travail dans le domaine, mais comme tout compromis, il est imparfait. On pourrait faire (un peu) mieux avec quelques statistiques de base issues de la fréquence globale des mots-clés sur le moteur... Peut-être (à suivre!).
le nuage n'est plus seulement lexical mais socio-lexical -- dans tous les cas, c'est de toutes façons socio-lexical. Mais est-ce que le lexique peut-être autre chose qu'un objet social? <-- attention, si vous avez lu d'une oreille distraite (hi, hi), c'est une question archi-profonde ;-)
Merci Tef (mais pas trop de questions comme ça, svp, ça met la barre trop haut! ).
Cochonfucius> mais il n'y a (pas/pas encore) le mot "nébuloscope" ...
vrai, mais on le voit déjà vachement poindre le bout de son cumulo-nimbus sur le
Chronologue !
Bonjour Jean,
Encore félicitations pour ce merveilleux outil !!
Est-ce que ce serait possible d' utiliser sur un gros corpus de textes? Ca m'intéresserait beaucoup de le faire tourner sur mon corpus de sous-titres et de livres...
Boris> Pas de problème, je peux te faire ça (tu m'envoies le corpus zippé?). Mais attention, c'est gratuit uniquement pour les amis ;-) Non, je rigole, mais si on veut faire du bon travail, il ne s'agit pas seulement de pousser un bouton. Il faut régler pas mal de choses, et notamment le fameux antidictionnaire, qui a déjà été mentionné plusieurs fois dans les commentaires ci-dessus.
Pour utiliser des tags dans les blogs, il y a de nombreuses applications mais qui sont spécifiques aux logiciels utilisés. J'en utilise un sur DotClear, cela fonctionne avec des mots que l'on associe soi-même aux différents messages du blog. j'aurais aimé montrer un exemple mais mon blog reste sur mon réseau local, avec un seul ordinateur. Bref... Par contre, si vous avez Firefox, il y a un petit script pour rechercher rapidement les résultats du chronologue et du nébuloscope, depuis la barre de recherche Firefox. Plus d'informtions par e-mail.
Bravo pour cet outil, et surtout merci beaucoup de l'avoir mis à disposition de tous. J'ai aussi beaucoup apprécié le Chronologue.
On pourrait d'ailleurs imaginer un "Nébulo-Chronologue", une sorte de nuage de mots animé, où la taille de chaque mot varie en fonction du temps. Avez-vous envisagé un tel outil ?
Bien sûr cela multiplierait le nombre de requêtes par le nombre de périodes considérées.
MathiasQ> Merci!
Nébulo-Chronologue -- vous avez complètement raison: en fait je me suis déjà fait un tel outil. J'en parlerai peut-être sur le blog parce que ça produit quelques jolies choses. Mais je ne peux pas le mettre en ligne pour une simple question de charge du serveur. Peut-êtreun jour, si tout cela devient moins artisanal et que Dir a quelques moyens...
Ah, quel dommage.
J'ai du mal à imaginer que ça puisse être facile, sinon quelqu'un l'aurait déjà fait :-). Mais j'imagine que ça prend beaucoup de place ? Je proposerais bien mes quelques dizaines de Mo qui s'ennuient sur un serveur wana doo sinon.
Je viens de faire une petite note sur le nébuloscope avec un lien vers celle-ci...
Finalement, mon image de Jean Austin (mixage de Jean Véronis avec Steve Austin) n'était vraiment pas usurpée.
Plus sérieusement, et un peu tardivement, beau travail Jean.
J'ai moi même dans mes maquettes de Frutch (dont j'espère bientôt mettre quelques aperçus en ligne) intégré un nuage de mots. Ce nuage de mots et généré à partir des résultats du Clustering de Nuth.
Question d'un tout autre ordre: As-tu fais quelques tests de taille d'index sur Exalead? Ils ont en effet annoncé une augmentation de l'index, mais mes quelques tests rapides ne semblent pas refléter cette augmentation.
Jerôme> J'ai hâte de voir les nuages de Nutch!
Non, je n'ai pas encore regardé en détail les nouveaux résultats d'Exalead. J'ai vu leur annonce... A suivre.
Jerome> je ne sais pas pourquoi Motrech n'apapraît pas dans mes trackbacks. Pourtant il est aussi sur Blogger! Bizarre... Catégorisé comme un vulgaire spam?
Génial, y a pas d'autre mot ! Est-ce que ça marche aussi avec les tags ?
Mon idée serait de créer un site perso de tags, qui ne reprendraient pas seulement les blogs, mais aussi les sites, les articles et autre, enfin tout ce avec quoi on se sent des atomes crochus, et les présenter en nuages, voire en nébuleuses :-)
Je sais bien que cela existe déjà en anglais, mais un petit programme franco-français-francophone serait pas déplaisant.
En tout cas, je vais vite écrire un billet sur le Nébuloscope, ça mérite ! Ça c'est sûr qu'il disait le Coluche.
Bravo encore,
Jean-Marie Le Ray
P.S. A propos de la ressemblance entre notre Coluche national et le Sarkophage (lui qui est si gourmand), y a quand même pas photo...
Jean-Marie> Merci!
Non, ça ne marche pas sur les tags. L'outil analyse la fréquence des mots sur les pages web.
ressemblance entre notre Coluche national et le Sarkophage : les deux se présentent aux présidentielles en racontant des c... Différence: l'un faisait rire, l'autre pas -;)
Oui, c'est totalement redondant avec les autres commentaires, mais il faut bien le dire, c'est génial!
Geneline> Redondez, redondez... Ca fait toujorus plaisir. Merci Geneline!
Peut-être un soucis ce matin, ou avec Over-Blog ?
cela ne semble pas marcher.
(3 tentatives depuis 10h aujourd'hui)
> http://www.nuesblog.com/
et pas mieux avec celle-ci > http://blpwebzine.blogs.com/nuesweb/
c'est un bug momentané ?
Bravo une fois de plus, j'ai vu des nuages étonnants et explicites (mais pas ceux-là ;)!
Nico> j'ai dû rater un bout de discussion... http://www.nuesblog.com/ semble effectivement en panne, mais quel rapport avec le Nébuloscope (qui lui, apparemment, fonctionne)?
effectivement, non, le site n'est pas en panne, pas plus que le nébuloscope, c'est mon cerveau qui doit l'être, je n'avais pas saisi que le nébuloscope ne marchait qu'avec des mots-clefs et pas avec des url ;)
Nico> Ah oui, je vois. Non, pour analyser un site c'est plutôt un outil comme TagCloud qu'il faut, mais les résultats sont catastrophiques sur le français; je ne connais pas d'outil équivalent pour notre douce langue (coir question de Marianne un peu plus haut)...
Xavier> Oui, j'ai aperçu Dumbfind. Je suis très modéremment convaincu par la pertinence de leurs tags (sur l'anglais). A suivre, je suppose. De toutes façons, l'idée est dans l'air... Quant à la typographie: la mienne est évidemment inspirée de TagCloud, et je vois que Dumbfind aime bien cette harmonie orange/bleu aussi (j'ai juste ajouté le rouge, car il me semble qu'un niveau "maximal" manquait).
Votre petite invention est géniale! Dans le "nuage autour de mon pseudo (qui est un mot espagnol qui signifie "louve" j'ai découvert les mots aime, amour, coeur, femme, enfant et vie. Tout ce qu'il me fallait. Merci!!!!
Tout simplement fabuleux, une bonne idée, une belle idée. Merci !
L'outil ressemble assez à ce que fait Kartoo (kartoo.fr), qui produit à partir d'une recherche une sorte de nuage de liens au milieu duquel on trouve des mots clés.
génial
je viens à ma grande surprise en mettant mon prénom trouver dans mon nuage le pseudo de mon premier blog...
Des outils visuels de présentation de grandes quantités de textes (ou autre type d'information) ici. Notamment un dont j'avais vu une démo lors d'un congrès de biologie moléculaire (comme quoi, ces outils sont intéressants quel que soit l'information) : TextArc. L'exemple choisi montre une représentation graphique d'Alice au Pays des Merveilles. Il y a aussi une représentation des liens entre personnages des Misérables ici, et d'autres graphes assez marrants, du genre qui sort avec qui dans un lycée. Pour les flux d'information dans du code informatique, on a ça aussi en 2D (je lui ai piqué la première URL citée) ou ça en 3D (comparaison du code de 2 virus). Bref, j'adore ce genre de chose :)
Guillermito> Un grand merci pour ces liens. La concertration de réseaux sur le site de Flickr est proprement fascinante! J'ai joué un peu moi aussi avec les réseaux de mots ici et ici. J'en parlerai peut-être un de ces 4.
Pendant que nous sommes dans les nuages, voici une nébuleuse assez intéressante pour naviguer dans un corpus taggué... http://blog.outer-court.com/waxy/
Mon commentaire anonyme a disparu . Il était de nature dubitative concernant le nuage que votre test a réalisé sur mon site d'écriture et de poésie. Je réitère donc ma question : il y a des mots qui ne correspondent pas au contenu du blog et je me demande donc d'où ils sortent. MERCI DE MIEUX EXPLIQUER votre méthode. Je ne sais pas lire non plus votre graphique. Décidémént avant de vous faire de la pub il va falloir que votre outil soit convaincant.Si ce nouveau message disparaît, j'en déduirais que vous n'avez pas de réponse à ma requête et j'en aviserais les personnes qui m'ont conseillé votre site. Bien cordialement.
Anonymous> Du calme... Je ne supprime jamais aucun commentaire, sauf spam (rare) ou injures à tierce personne (une seule fois depuis le début...). Je ne sais pas trop ce que bidouille Blogger, mais il se peut qu'il y ait par-ci par-là des bugs, ou que certains internautes fassent de fausses manips qui leur fassent perdre le commentaire qu'ils viennent d'écrire. Pas de quoi s'énerver.
En tous cas, votre commentaire, je viens de le voir, mais je ne sais pas l'interpréter: de quoi parlez-vous? de quel site? Je n'ai pas l'impression d'avoir fait un test sur un site particulier, puisque mon outil utilise un moteur de recherche, et non pas, par définition, un site.
Quant à expliquer, ma foi, bien sûr, bien volontiers -- dès que j'aurais compris de quoi il retourne. Mais... cool quand même: tout ça n'est pas à prendre (trop) au sérieux ;-)
Jerôme> Merci pour le lien. Je lis régulièrement Google Blogoscoped mais ce billet-là je l'avais raté. Quelle productivité ce Philip Lenssen. Je l'admire!
Excusez ma franchise, ce n'est pas de l'énervement...de la perplexité surtout...
Merci de bien vouloir expliquer comment "le moteur de recherche" sélectionne les mots liés à un titre de blog qui existe , si on met n'importe quoi ça ne marche pas. J'en déduis qu 'il y a bien saisie à quelque part de l'URL du site concerné. Ou alors le choix est complètement aléatoire et ressemblerait à un kaléidoscope secoué où on ne distinguerait que ce qui est au-dessus et visible... Cela fait davantage penser à un horoscope qu'à une démarche rigoureuse et représentative. Quand je ne comprends pas, je pose des questions. et si ce n'est pas sérieux comme approche comment éviter que n'importe qui puisse utiliser n'importe quel titre de site et fasse un usage de votre nuage sans l'accord du gestionnaire du site concerné ? Par ailleurs , il ne faut peut-être pas obliger la personne qui fait le test d'en passer par lui pour accéder aux questions-réponses des commentaires ( Vous pensez peut-être que je fais une fausse manip. mais après deux ans d'internet intensif ce n'est peut-être plus le cas -ALORS ce serait un problème de moteur dites-vous ?).Vous voyez, un peu de transparence sur la technique n'est pas inutile. N'avez-vous sincèrement pas accès au site pour lequel vous effectuez le test ?
Là encore je suis dubitative. Je termine sur deux questions :
Qu'est ce qui est exploré avec ce test ? La grosseur des mots sur le nuage correspond-t-elle au nombre de fois où un terme est utilisé dans le site ?
Voilà . Je ne souhaite pas en première intention intervenir sur les commentaires autrement que de façon anonyme . Merci de tenir compte de cette réticence qui ne peut être levée qu'à la condition d'y voir plus clair dans votre proposition. Pour l'instant je ne la trouve pas du tout pertinente.
Merci d'avance pour vos éclaircissements.
Anonymous> Je le dis sans doute trop brièvement dans le texte, sou avez raison: mon outil analyse les résumés retournés par un moteur de recherche (en l'occurrence Dir.com, mais ce pourrait être Yahoo, Google, etc.) sur une requête donnée.
Par exemple, si vous tapez "Jean Véronis", le moteur retourne ceci. C'est ça que j'analyse (en fait 1000 résumés) et rien de plus. L'outil retourne donc une image lexicale de cette requête sur l'ensemble du Web (indexé) et non pas sur un site particulier. Il n'y a aucune analyse de sites individuels.
La grosseur des mots est fonction du nombre de fois où un mot est utilisé dans un les résumés retournés par le moteur. Par exemple, sur "Jean Véronis", les mots les plus fréquents sont "technologies", "langage", "provence", "google", etc.
Anynomous s'énerve un peu trop vite... Il ne faut pas croire que Big Brother est sur votre site. Les résultats renvoyés par le Nébuloscope, qui est encore un peu nébuleux, n'est qu'un résumé des résumés rendus par les moteurs de recherche. Par exemple, si vous tapez cuisine, les mots renvoyés dans les résumés peuvent aussi bien être "acheter votre cuisine au meilleur prix" que "bien réussir son gâteau avec la cuisine de Mamie". Les mots les plus souvent retournés lors de la recherche seront analysé par l'outil et renvoyés sous la forme de ce nuage. il ne faut pas s'énerver et ces outils, comme cela est signalé maintes fois ne sont que des essais et des éclairages. De plus, celui-ci, peut renvoyer des résultats qui ne "vous conviennent pas" mais il faudrait pour souhaiter n'avoir que des mots relatif à votre site contrôler la totalité des pages citant ce mot...
Amicalement...
tout d'abord M.Veronis ecore bravo sur cet outil génail qui ouvre de nouvelles perspectives pour al recherche sur le net. Avant que vous ne lisiez la suite rigolote, j'ai une petite idée pour les problèems de bande passante: pourquoi ne pas mettre sur pied une recherche "décentralisée" à la mode du Pair à pair (P2P): les calculs des mots à afficher seraient effectués "en commun" par tous les inscrits au programme, comme lorsque nous aidions les US à trouver des extraterrestres, ou d'autres projets. A voir...
Je me suis amusé avec le nébuloscope des mots « Gauche » et « Droite » en ne gardant que les mots qui ne sont pas en commun, ce qui a ôté déjà des mots évidents (comme France) ou d’autres communs mais liés à d’autres acceptions de ces mots (comme main). Les mots restants sont intéressants mais il ne faut pas perdre de vue que cela reflète la pensée du web, et non la réalité (je ne veux pas juger un programme politique selon ce qui en est dit, car par exemple si vous cherchez des infos sur la Chine en Chinois, vous trouverez sans doute 90% de textes élogieux… et pourtant la vie n’est pas rose pour tout le monde.. bref)
En excluant encore les mots dont il est probable qu’il s’agit de mots filtrés par l’antidictionnaire dans un cas mais pas dans l’autre (tel l’incompréhensible super performance du mot « hôtel » à gauche..), il nous reste des thèmes assez précis :
La gauche propose des valeurs basées sur l’humanisme et la vie : bonheur, club, contacts, culture, discussion, facile, formation, mouvement
Elle contrôle les médias (d’après un sondage de Marianne en 2002, 64% des journalistes votent à Gauche contre 42% des français) : journal, presse
On parle de son programme, mais surtout qu’elle n’en a pas (lol) : programme, projet.
Elle a une composante spécifique : radical
Il reste quelques mots qui ne sont pas parasites et sont inexpliqués : Saint et Michel, peut être liés (mais ce quartier apparaîtrait donc en relation avec les mots « Rive Gauche » ?), grande et favoris (favoris des élections?), codes.
De l’autre côté, la droite s’intéresse surtout à l’argent et aux valeurs familiales et éducatives : direction, économique, espace, état, Europe, famille, loi, pouvoir, produits, savoir, travail.
Elle a quand même un peu de social : association, cercle, jeunes
Elle a aussi une composante spécifique : national, jean (lié à Le Pen ? On note aussi que le mot « extrême » est bien plus gros qu’à gauche).
Là encore des mots inexpliqués : si on exclue encore une fois les mot utilisés lorsqu’on demande ou on décrit son chemin (virage, accès, maison, etc.), il reste calendrier, contenu, petite (alors que la Gauche avait « grande » !!), prendre, référence, et rouge ( !!)
Surprenant...
Est ce que vous connaissez ce moteur :
http://dumbfind.com/
ça rejoint un peu votre idée. Mais je pense qu'il peut être amélioré (il est encore en version béta)... A surveiller
c'est amusant de tester des mots qui ont couramment leur place derrière "nuage de", comme, par exemple,
Oort.
Votre nuage de mots me plait tellement que j'aimerais en faire une copie papier en A5 à encadrer pour un anniversaire (demain), avec le nom de la personne en mot clef. Me l'autorisez-vous? Et comme je ne suis pas bonne en html, comment l'exporter vers l'imprimante? Merci.
Un outil a ajouter au plugin Hyperwords (http://www.hyperwords.net/index.html)?
je selectionne le mot "DADVSI" et zou j'arrive sur
http://www.up.univ-mrs.fr/cgi-veronis/nebuloscope?req=DADVSI :)
Merci pour cette découverte. J'ai essayé pas mal de mots (Suisse, Paris, Clara, Mahomet, etc) et dans l'ensemble je trouve les résultats très pertinents...
Bref, très sympathique
Bonjour et bravo !
Je trouve cette facon de voir tres poetique !
Sur que je reviendrai ...
bonne continuation
C'est fort intéressant, nous allons nous envoler dans les nuages avec un joli parachute de mots à chercher !
Je me demande s'il est possible de supprimer les pluriels ou les singuliers quand ils apparaissent tous les deux. Parce qu'avec dadvsi par exemple, on retrouve droit et droit, logiciel et logiciels, il faudrait peut-être lui dire au nébuloscope que si il y a un s au bout, il condense les deux en uns... Est-ce possible ?
Je trouve l'idée du plug-in pour firefox très bonne cependant le lien fourni ne fonctionne pas, que ce soit pour le nébuloscope ou le chronoscope !
Christophe> Un ou deux autres lecteurs m'ont dit ça. C'est bizarre. plein d'autres l'ont installé. Je l'ai moi-même installé sur diverses machines Linux ou Windows. j'avoue que, ne pouvant pas reporduire le bug, j'ai du mal à le corriger... Si quelqu'un a des lumières...
Je trouve qu'il n'y a rien de plus beau que les mots et le nébuloscope nous le démontre encore une fois, alors merci! J'ai tapé mon prénom tout à l'heure et je suis tombée sur le mot "Espagne", pays dans lequel je me suis expatriée il y a quelques mois. Je ne m'appelle pourtant pas María... Heureuse coïncidence?
Question sdans doute un peu "couillone" : concernant le sublime (un peu de flagornerie ne fais pas de mal ; surtout si c'est beau) NEBULOSCOPE : la couleur et la position des mots dans ce nuage ont-elles une signification ?
Merci pour votre site à la fois riche et amusant même si je ne comprends pas tous (je pense aux aspect techniques)
signé : Fauteuil
parce qu'il n'est pas dans le repertoire "search plugins" de firefox, il est difficle de le désinstaler, ou l'avait vous mis ?????
Beau projet, merci. Je suppose que vous avez entendu parlé de l'affaire Corneille/Molière et de cet informaticien qui démontre que tout M. et dans C. à l'aide d'un outil complexe (calculs des fréquences lexicales intertextuelles ???). Bon, en tous cas, votre outil m'entrouve bien des routes, qu'un brouillard ténu jusqu'ici dissimulait...
Bonjour,
Tout d'abord, bravo pour le travail que vous fêtes. Peut être mon commentaire est hors contexte.
Je suis très intéressé par votre travail dans le sens où je travaille sur l'Oral. Au fait, j'ai intensivement collaboré au projet de corpus de la langue français parlée en interaction (CLAPI). Un prototype est disponible à l'adresse http://clapi.univ-lyon2.fr/.
D'autre part, je travaille sur l'entreposage des données (data warehousing) et je m'intéresse actuellement sur le couplage des TagCloud et l'analyse en ligne des cubes de données. Vos travaux m'inspirent beaucoup. Rien que pour ça, je vous dit merci.
K. Aouiche
http://eric.univ-lyon2.fr/ékaouiche
bel outil, amusant, et parfaitement réaliste
La preuve : quand on teste "sincère", le tag "Homme" est plus important que le tag "Femme" ...
OK d'accord, je sors ....
"La grosseur des mots est fonction du nombre de fois où un mot est utilisé dans un les résumés retournés par le moteur. Par exemple, sur "Jean Véronis", les mots les plus fréquents sont "technologies", "langage", "provence", "google", etc."
Je ne sais pas pourquoi, mais j’ai toujours cru qu’il s’agissait de la fréquence avec laquelle ces mots étaient associés dans les requêtes que faisaient les utilisateurs sur Dir.com. Du coup je me demande de quoi est significative la fréquence de ces mots dans les résumés puisqu’il ne s’agit que des mots qui entourent dans une phrase celui sur lequel on fait une recherche.
Est-il possible d’utiliser le nébuloscope sur un site particulier, comme on le peut pour Google ?
Je cherche en fait à insérer l’usage de votre outil dans une séquence didactique qui consisterait à faire déterminer par les élèves les thématiques et les orientations politiques propres à chaque position de l’échiquier politique. Mais pour cela, il me faudrait cibler les recherches (sur un site, voire sur un discours, comme vous aviez fait pour les voeux de Sarkozy), pour distinguer entre ce qui ressort des textes issus des membres d’un parti et ce que la majorité en dit. Serait-ce possible ?
Quel sens a ce nouveau mot en politique : logiciel !?
Merci !!
Il y a un joli exemple de nébuloscope ici:
http://icp.ge.ch/sem/cms-spip/spip.php?rubrique67
Enregistrer un commentaire