Technologies du Langage: janvier 2006

mardi, janvier 31, 2006

Outils: Chrono et Nebulo plugins

Vous semblez aimer mes petits outils, malgré leurs imperfections: déjà 35000 requêtes sur le Chronologue et 80000 sur le Nébuloscope (mais celui-ci incite à recliquer de façon quasi irrésistible: chaque visiteur clique en moyenne un peu plus de cinq fois sur les mots du nuage!). Alors, à la demande générale, voici deux petits plugins pour Firefox (vous savez, le navigateur gratuit qui respecte les standards...):

	Chronologue
	Nébuloscope

Et mille excuses pour les petits ralentissements que vous avez peut-être notés: Dir.com a été un peu fatigué... Philippe y travaille (mais il n'a pas les 200 000 machines de Google!).

8 Commentaires:

Anonyme a écrit...: Bravo ! Quel travail ! Félicitations !
pour tous ces petits plugins !

Je me pose des questions après l'ajout de toutes ces foncionnalités : le moteur de recherche "dir.com" appartient toujours à Iliad. Mais il n'en font pas grand chose et j'ai l'impression qu'ils le laissent suffisament ouvert (via Philippe) pour le faire évoluer notamment grâce à votre connaissance sur le sujet.

Quel est donc leur intérêt de posséder ce moteur alors qu'ils viennent de changer la charte graphique de leur site et qu'ils mettent un lien direct vers google pour effectuer les recherches ?

Autre question : En pensant qu'ils ont quand même un intérêt dans le moteur, et surtout avec les ajouts de fonctionnalités que vous apportez brillamment (sisi!), vos développements sont ils "protégés" par des licences ? GPL ou autres ?

Etant donné que vous êtes chercheur et que Iliad est aussi un groupe de chercheur mais sans les mêmes intérêts :-) je me pose naturellement cette question.
Merci.; 31 janvier, 2006 13:31
Jean Véronis a écrit...: Djedje> Merci!

Je ne suis pas dans le secret des dieux de l'Iliad, mais je crois qu'ils gardent Dir comme plateforme d'expérimentation. C'est évidememnt dommage qu'aucune grosse boîte française ne se lance sérieusement sur le marché des moteurs: France Telecom s'en est désintéressé avec Voila... Il y a évidemment Exalead, qui fait un superbe travail, mais qui est un peu petite pour faire face aux géants américains (et la bureaucratie Européenne dans laquelle ils semblent se lancer ne va pas arranger ça). Iliad aurait les reins assez solides... On verra bien. En attendant c'est un bel outil de recherche: le fait qu'il n'y ait pas de préoccupation marketing immédiate permet de s'affranchir de bien des pesanteurs...

En ce qui concerne mes petits logiciels, il faut bien comprendre qu'ils fonctionnent en symbiose avec le moteur, mais sont autonomes. J'interroge le moteur avec des fonctions spéciales que Philippe a bien voulu créer (si on veut faire branché on peut appeler ça une API), et je traite les résultats sur mon serveur. Pas de licence, puisque je ne distribue rien. Il y a deux raisons à cela: d'une part c'est très expérimental, et ce qui m'intéresse pour l'instant c'est d'étudier et d'améliorer ; d'autre part, c'est de la programmation déguelasse ("quick and dirty"), dont je suis un fervent adepte (si on veut faire branché on peut appeler ça "prototypage" ;-) J'aurais trop honte de montrer ça. Dans quelque temps peut-être...; 31 janvier, 2006 15:32
Anonyme a écrit...: Merci pour ces deux petits plus. Seulement... où apparaissent-ils dans Firefox une fois chargés ? Merci.; 31 janvier, 2006 19:23
Jean Véronis a écrit...: Eskaloo> où apparaissent-ils dans Firefox une fois chargés? -- dans la "barre de recherche", en haut à droite, là où il y a déjà par défaut, Google, Yahoo, Amazon, etc...; 31 janvier, 2006 19:31
LT a écrit...: Bonjour,

Merci pour les plugins, et plus généralement pour le travail de recherche, et d'explication que vous faites.

cordialement.

Laurent; 01 février, 2006 08:29
Loran a écrit...: Bonjour,
Merci.
Cordialement,; 01 février, 2006 12:07
Anonyme a écrit...: Bonjour,
Je trouve votre représentation de l'information sous forme de nuages de mots ( TagCloud ) intéressante et innovante.
Ma question est purement technique.
L'algorithme que vous utilisez est-il public ?
Envisagez-vous de publier votre algorithme ?; 03 février, 2006 14:33
Jean Véronis a écrit...: Philippe> L'algorithme que vous utilisez est-il public ? -- non, ça fait partie de ma petite cuisine personnelle. Pour l'instant je n'envisage pas de le publier, parce que c'est en pleine phase de tests et d'amélioration. D'ailleurs, il y a plein d'autres fonctionnalités que je suis en train d'ajouter (je vous en ferai profiter bientôt ;); 03 février, 2006 14:39

Enregistrer un commentaire

samedi, janvier 28, 2006

E-Pub: L'UMP achète Netizen

Incroyable. L'UMP n'en finit pas de m'étonner... Ce matin je voulais mettre à jour mon billet sur le nouveau magazine Netizen consacré aux blogs, car j'avais mis des liens vers le blog du journal mais aucun vers le site officiel. Un p'tit coup de Google, bien sûr, pour trouver son adresse exacte: je tape "Netizen", et que découvrent mes yeux ébahis?

On se souvient qu'au plus fort de la crise des "cités" l'UMP avait acheté chez Google les mots-clés banlieues, racaille, etc., ce qui était suffisamment étonnant pour que l'histoire fasse le tour du monde et surprenne même les Américains, qui ne sont pourtant pas des amateurs en matière de pub politique (voir ici). On peut être pour ou contre; cela me semblait mériter en tous cas un débat sur la façon dont les citoyens voient la publicité politique (jusqu'ici strictement encadrée) à l'heure d'internet -- mais de débat il n'y eut guère. Le PS s'est juste contenté de copier la technique, de façon maladroite et pour tout dire risible (ici).

En revanche, lorsque l'UMP achète les noms de ses concurrents (Jospin, Bayrou, Montebourg, Laguiller, PCF, LCR, etc.), cela me semble tout de même légèrement déloyal. C'est un peu comme si Pepsi achetait le mot-clé Coca-Cola (je suis sûr que ça ferait du bruit)... Je ne suis pas juriste, mais lorsque l'UMP va encore plus loin, et achète le mot clé RATP au plus fort des grèves de l'automne, j'ai bien le sentiment qu'on est en train d'enfreindre les lois sur les marques, la propriété intellectuelle, etc. (la RATP n'a d'ailleurs pas aimé: voir ici). On verra comment réagiront les gens de Netizen (et les éditions Astrolabe), mais cela m'étonnerait qu'ils apprécient.

L'épisode d'aujourd'hui n'est qu'un pas supplémentaire dans cette direction. Je n'ai rien contre l'UMP, qui est un grand parti politique, mais ces pratiques agressives et opportunistes, douteuses d'un point de vue légal, ne me paraissent rien ajouter à sa gloire et à son image.

Post-scriptum

1. En parcourant mes fils, je vois que GuiM a déjà repéré la chose [via Affordance]. Je constate que je ne suis pas le seul a être surpris...

2. Le Meur acheté aussi!

Avec son accord? C'est vrai qu'ils sont copains, mais ça m'étonnerait [il confirme].

Repéré par Mikiane, qui suggère aussi une campagne "Touche pas à mon blog" [voir billet et commentaire ci-dessous]. Effectivement, où cela va-t-il s'arreter? Bientôt Embruns, Pointblog, Garfieldd... Véronis?

3. Jack Lang aussi. J'ai demandé à l'intéressé (jeune bloggeur, mais aussi professeur de droit) ce qu'il en pensait... [Mise à jour: Jack m'a répondu: voir ici].

4. Première réaction de Netizen.

5. Tristan Mendès-France interroge l'organisateur de la campagne, Arnaud Dassier à Politique 2.0 (video).

20 Commentaires:

all a écrit...: UMP qui achète les noms Jospin, Royal, Mélenchon (non pas Mélenchon), c'est du "position squatting" encore faut-il que les jugent fassent le pas d'assimiler des patronymes à des marques (l'affaire Milka était différente).
RATP c'est limite, pour Netizen je ne vois aucun problème.; 28 janvier, 2006 11:09
Jean Véronis a écrit...: All> pour Netizen je ne vois aucun problème -- ce n'est pas une marque?; 28 janvier, 2006 11:14
Anonyme a écrit...: Apres recherche sur le site de l'inpi http://www.icimarques.com/ , on trouve deux marques portant le nom de netize, mais il faut être abonné pour en avoir le détail. Pour autant il me semble logique que le titre d'un journal soit une marque.; 28 janvier, 2006 12:13
Anonyme a écrit...: Il y avait un site anglophone nommé Netizen vers 1995. On lui a racheté son nom ?; 28 janvier, 2006 12:16
Anonyme a écrit...: Bonjour,
Une bonne nouvelle également, "Netisane" est libre; Ca ne devrait pas tisaner pour se l'approprier ...
Sur le plan juridique, je me souviens que des sites avaient été condamnés pour avoir introduits des noms de marques dans leurs metadonnées.

Filou
www.amusoire.net; 28 janvier, 2006 12:36
TOMHTML a écrit...: Je ne sais pas si vous l'aviez déjà vu, mais l'UMP a également acheté le mot-clé "blog" (et "jeunes" aussi).

J'ai lu je ne sais plus trop où (sur ZaTaZ je crois) que lorsque vous tapez "Sarkozy" vous avez des pubs pour le nouvelobs et l'express. La réaction ne s'est pas fait attendre : tapez "nouvelobs" pour voir...

Bref, rappelons que Netizen est un journal d'actualités concernant les blogs (tapez les mots en gras dans google.fr :-]); 28 janvier, 2006 14:07
Anonyme a écrit...: Pourquoi ne pas lancer une campagne : « Touche pas à mon blog » à base de bandeau ou ruban…

Touche pas à mon blog !; 28 janvier, 2006 14:59
Anonyme a écrit...: J'ai acheté et lu ce "journal" (ou plutôt, cette plaquette de pub), il est clair qu'à part l'excellente interview d'un chercheur bien connu, il est déjà vendu à l'UMP, vu le nombre de fois où il cite sarkozy, villepin, etc.; 28 janvier, 2006 16:08
Jean Véronis a écrit...: Anonymous> Cela ne m'a pas frappé. Il y a même une interview de quatre pages du jeune bloggueur Jack Lang, qui est le seul homme politique à recevoir un tel traitement.; 28 janvier, 2006 16:17
vuvuwatch a écrit...: "Journal" est aussi acheté par l'UMP; 28 janvier, 2006 17:07
Anonyme a écrit...: Pour embêter l'UMP il suffirait qu'on parle français et qu'on utilise le mot "blogue" (http://w3.granddictionnaire.com/BTML/FRA/r_Motclef/index1024_1.asp) si celui-ci n'est pas déjà acheté ...; 28 janvier, 2006 17:44
all a écrit...: Oui Netizen est une marque, mais on ne peut pas accuser l'UMP de contrefaçon (comme dans votre exemple où Pepsi achète le mot Coca), n'exerçant pas dans le même domaine et n'étant pas concurrent, comme lorsque le mot clé Eurochallenges (agence matrimoniale) avait été vendu par Google à des agence matrimoniales concurrentes ce qui lui valu une condamnation (et d'être qualifié de 'régie publicitaire').
C'est de toute manière la responsabilité de Google qui serait engagée en cas de litige et pas celle de l'UMP qui ne risque rien.; 28 janvier, 2006 18:12
Anonyme a écrit...: J'ai fait un petit billet sur la légalité de telles pratiques : http://droitadministratif.blogspirit.com/archive/2005/12/08/la-publicite-google-pour-l-ump-est-elle-licite.html .; 28 janvier, 2006 19:40
Anonyme a écrit...: J'ais vérifié : "Jean Véronis" ne vaut pas un clou !

Heureux ou désolé ?

Mais, continuez à dire du mal de Nico, et si vôtre audience croît, il finira bien par se payer vôtre nom en retour.; 29 janvier, 2006 18:36
Jean Véronis a écrit...: Pilou> Snif. Le top du must branché, ça ne va plus être de se faire "lemeuriser", mais de se faire "sarkoser"...!; 30 janvier, 2006 13:10
Poulos a écrit...: Dassier, qui fait la comm' de l'UMP sur le net, a confirmé l'achat de Netizen ce soir à la rencontre Politique 2.0. Il a également confirmé l'achat de Le Meur... Le tout sans aucun scrupule. Et dans un grand sourire...; 31 janvier, 2006 01:26
Anonyme a écrit...: Bravo pour ce post. Une info : J'ai eu Dassier en aparté après la conférence Politique 2.0. Je lui ai demandé s'il irait jusqu'à acheter "outreau" !! À mon grand étonnement, il a dit pourquoi pas...; 31 janvier, 2006 20:52
Jean Véronis a écrit...: Tristan> Oui, j'ai vu! Je vous avais d'ailleurs mis en citation du jour (en bas de la page)...; 31 janvier, 2006 21:05
Anonyme a écrit...: À la liste des mots-clefs concernés, vous pouvez ajouter AgoraVox (le blog collaboratif citoyen), cf "Aux Blogs, citoyens !", par Tatiana F. des Humains Associés.

(Jean> bravo pour votre blog, je le consulte depuis un petit moment...); 01 février, 2006 15:51
Linda a écrit...: Oseront-ils aller jusqu'à acheter les mots-clefs qui font recette tels que "sexe, porno, etc." !; 16 février, 2006 21:27

Enregistrer un commentaire

vendredi, janvier 27, 2006

Magazine: Netizen

Un nouveau magazine, Netizen, est paru hier. C'est le premier consacré aux blogs:

Le suspense avait été soigneusement entretenu par son rédacteur en chef, Cyril Fiévet, que beaucoup d'entre vous connaissent comme collaborateur de Pointblog. D'ailleurs, le Chronologue confirme: le "buzz" a marché:

Le numéro m'a paru intéressant et bien fait. L'équilibre est évidemment difficile à trouver entre les différentes catégories de lecteurs: curieux, novices, bloggeurs confirmés, mais je crois que Cyril Fiévet a trouvé le ton juste.

Bien sûr quelques bloggeurs (ultra-confirmés) affichent de petits sourires en coin en mentionnant le paradoxe qu'il y a à publier un magazine sur les blogs en format papier. Cyril lui-même s'en amuse. A mon avis le paradoxe n'est qu'apparent: le papier a encore de beaux jours devant lui. Je lis les quotidiens sous format papier (bien plus confortable!), une dizaine de magazines par mois, des tonnes de livres... Si je devais lire tout ça sur écran en plus des dix ou douze heures que j'y passe déjà chaque jour, j'aurais rapidement des yeux de lapin mixomateux! Il y a d'ailleurs des circonstances où le papier est bien pratique: j'ai lu Netizen (et quelques autres journaux et magazines) hier soir dans l'avion, où il est était évidemment impossible d'ouvrir mon portable et actionner ma connexion 3G.

Mais je ne suis peut-être pas objectif: ce numéro de Netizen contient une superbe interview de trois pages du Grand Professeur Aixtal. J'étais évidemment au courant, mais je ne voyais pas la chose aussi longue: trois pages sur papier glacé avec plein de photos, c'est drôlement bon pour l'ego (InternetActu en a publié un extrait, mais achetez plutôt le magazine: 4,90 €, c'est une bonne action pour la presse française, qui en a bien besoin):

En tous cas merci Cyril, et longue vie à Netizen!

28 Jan -- Etonnant! L'UMP achète "Netizen"

Libellés : Blogs

16 Commentaires:

Anonyme a écrit...: Félitations pour cet article énorme dans Netizen, Monsieur le-grand-prof.!
Et: félitations à la France, vour êtes le premier! :)
Peut être que la publication d'un tel magazine fait les premiers pas pour terminer la discussion énervante au sujet "journalisme vs. bloggism".

Si quelqu'un ne comprend pas ce que je veux dire: je ne suis pas francophone, hein! J'voulais juste dire: Génial!; 27 janvier, 2006 13:21
Anonyme a écrit...: Le papier a d'autres attraits que l'octet n'a pas :

Contrairement à une idée reçue, c'est plus persistant dans le temps : on trouve encore dans les brocantes des collections entières de magazines datant de 20, 30 ans ou plus.

C'est plus convivial aussi : on peut lire un magazine confortablement installé auprès de son ou sa partenaire, lui faire partager à l'occasion une idée, une impression. Alors que l'ordinateur a plutôt comme effet de faire "écran". Je sais d'quoi j'cause...

C'est plus social : un magazine, ça se laisse traîner négligemment sur la table basse du salon quand on reçoit des ami(e)s, histoire d'envoyer autant de petits signaux sur sa personnalité. Ca se prête aussi : A quand le premier bookcrossing du numéro 1 de Netizen ?! Euh, là, comptez pas sur moi ! A 4,90 €, faut pas rêver. et de toute façon j'ai déjà fait deux librairies sans pouvoir encore mettre "la main" dessus !; 27 janvier, 2006 13:24
Jean Véronis a écrit...: Pascal G> c'est plus persistant dans le temps -- Une petite anectode pour confirmer: j'ai fait beaucoup d'efforts pour informatiser ma thèse dans des temps reculés où ça n'était pas si facile que ça. Eh bien, plus aucun exemplaire électronique n'est lisible: disquette altérées, formats périmés, etc. heureusement que j'en ai déposé quelques exemplaires papier à la bibliothèque universitaire ;-); 27 janvier, 2006 13:31
Jean Véronis a écrit...: Txtnws> Danke shoen! vielleicht ist das ja der erste Schritt in eine Richtung, die die Diskussion um Bloggen vs. Journalismus auflöst. -- Ja genau! je ne suis pas un journaliste. Juste un citoyen. Les journalistes pratiquent un métier, moi je m'amuse...; 27 janvier, 2006 13:39
TOMHTML a écrit...: Toutes mes félicitations Jean !!!

ça donne envie d'acheter ce mag, en espérant qu'il soit dispo un peu partout ;)

(et vive l'égo ^^); 27 janvier, 2006 14:14
Anonyme a écrit...: Dis, tu m'envoies un autographe avant que grisé par la célébrité, tu ne deviennes trop inaccessible !? ;); 27 janvier, 2006 17:34
Jean Véronis a écrit...: MissTICS> Chiche !; 27 janvier, 2006 18:17
Anonyme a écrit...: Bravo, Jean!
Comme tu sais, je suis trop loin (9000 km, ça ne me permettra probablement pas de trouver ce numéro facilement). Mais si tu m'en achètes un et que tu me le donnes quand on se verra en avril au congrès de TALN (je suppose que tu y seras), je te rembourserai les 5 euros avec un immense plaisir (avec une bonne bière contre ton autographe, si ça te tente :-)).
Bien à toi,
Thierry; 27 janvier, 2006 19:06
Jean Véronis a écrit...: Thierry> Allez, je t'en envoie un! (mais je serai à TALN, bien sûr); 27 janvier, 2006 20:21
Anonyme a écrit...: Tu es vraiment trop gentil! Tu auras ta bière (et tes euros) quand on se retrouvera ;-)!

Merci et bon week-end!

Thierry; 27 janvier, 2006 21:07
Anonyme a écrit...: Hum, anglicisime ! «connexion» et non pas «connection». Comment ça je suis chiant ?; 28 janvier, 2006 10:51
Jean Véronis a écrit...: Anonymous> Non, pas chiant du tout! Je baigne tellement dans l'anglais que mes doigts écrivent tout seuls: connection, abbreviation, literature,...

C'est terrible (et ça ne se soigne pas: au contraire, ça s'aggrave avec l'âge). Merci.; 28 janvier, 2006 11:07
Jean Véronis a écrit...: Caroline> Merci, c'est drôlement gentil, ça. Moi, je lis régulièrement Cousu Main. Je partage quelques unes de vos colères ;-); 28 janvier, 2006 11:13
Anonyme a écrit...: Félicitations ! J'aimerais bien lire cet interview. Mais je ne te cacherai pas que je trouve le prix du magazine un peu prohibitif...; 28 janvier, 2006 12:47
Jean Véronis a écrit...: Fuligineuse> Oui, un peu cher. Le papier glacé n'était peut-être pas nécessaire...; 28 janvier, 2006 20:41
Anonyme a écrit...: Bonjour.
En tous cas, hormis quelques pages strictement informatives, le n°2 ne vaut pas grand chose..., cf. lien.; 15 mars, 2006 11:57

Enregistrer un commentaire

mercredi, janvier 25, 2006

Garfieldd: Outreau ou pas assez

Le Mammouth en a fait trop sur l'affaire Garfieldd, le proviseur de Mende qui évoquait son homosexualité (de façon anonyme) sur son blog. Cela commence à devenir évident aux yeux de tous. Même le Ministre reconnaît l'erreur de ses services (voir ici pour plus de détails, des liens, une pétition, etc.). Je ne peux m'empêcher de voir un parallèle cruel entre cette affaire et le désastre d'Outreau (à ce propos, ne manquez pas les retransmissions de la Commission d'enquête sur la Chaîne Parlementaire, c'est l'émission de télé-réalité de la décennie: si vous êtes comme moi, vous resterez scotché sans voix pendant des heures derrière votre écran).

Bien sûr, le désastre de Mende n'a pas la même envergure que celui d'Outreau. Ici un seul homme est concerné, il n'est pas allé en prison, mais sa souffrance et son désarroi doivent être terribles [interview de Garfieldd]: la révocation est la sanction la plus lourde qu'on puisse infliger à un fonctionnaire, et elle est rarement prononcée sans des faits d'une extrême gravité, et un volet pénal à l'affaire.

Je comprends tout à fait la vigilance qui émerge peu à peu dans les consciences face aux crimes sexuels et à la pédophilie. Bravo: assez de souffrances muettes. Mobilisons-nous. Mais évitons les pièges et l'hystérie. Les ressemblances avec Outreau sont navrantes. L'instruction est bâclée: à Mende si la commission paritaire qui a jugé Garfieldd avait simplement regardé son blog, elle aurait immédiatement constaté (comme l'attestent les témoignages de centaines de bloggeurs) qu'il n'y avait aucune pornographie. Les médias se déchaînent, les protagonistes sont lynchés sur la place publique... Comme à Outreau, tout se dégonfle ensuite: on s'aperçoit qu'il n'y a rien derrière tout ça; le Ministre, les journaux reconnaissent leur erreur. Mais un homme a été brisé et ce n'est pas fini (la sanction n'est toujours pas levée et le Ministre parle toujours de faute).

En même temps, le Mammouth n'en fait pas assez. Depuis des années je proteste contre l'envahissement de liens pornographiques sur les moteurs de recherche, sponsorisés ou non (par exemple ici). Les parades sont pourtant extrêmement simples, et sont en vigueur aux Etats-Unis depuis bien longtemps. Or il a fallu attendre l'été 2005 pour que Google mette en place un filtre "SafeSearch" pour le français. Pendant tout ce temps, nos collègues d'école primaire, collège et lycée se plaignaient de l'ingérabilité des recherches: Google est devenu un instrument pédagogique incontournable, mais que faire, comment réagir lorsque le moteur renvoie des liens vers des sites de la pornographie la plus abjecte (zoophilie, etc.) sur les requêtes les plus banales?

Je n'ai guère entendu le Mammouth se mobiliser à ce moment-là, et pourtant les élèves étaient exposés quotidiennement à des choses biens pires que le blog de Garfieldd. Les réponses techniques ont été franchement molles, quelques filtres ici ou là, mais en gros c'était débrouillez-vous (ça rappelle une autre affaire...). Les réponses politiques ont été totalement absentes: qui a entendu nos hommes politiques se mobiliser contre Google, Yahoo ou MSN? Pourtant l'affaire des souvenirs nazis aux enchères sur Yahoo avait fait tout un tabac...

Finalement, les moteurs se sont calmés tout seuls, et la situation est devenue plus saine (je m'en suis fait l'écho ici et la tendance se confirme; j'y reviendrai dans quelques jours). Mais qu'ont fait nos politiques? Rien. La seule raison pour laquelle la pornographie agressive a disparu des moteurs (à condition d'activer le fameux filtre...) c'est un simple problème de gros sous: les marketoïdes de Mountain View et d'ailleurs ont calculé que les liens pornographiques non désirés leur faisaient désormais perdre plus d'argent qu'ils ne leur en faisaient gagner. Finalement ce ne sont guère que des liens vers du spam, des sites bidons qui pour la plupart arnaquent votre carte bleue (le fameux coup du débit multiple) et en tous cas inondent votre ordinateur de spyware. Les amateurs de sexe savent désormais où trouver sans avoir besoin de Google, et l'internaute lambda ne se fait plus guère piéger.

Place donc au moteur propre. Le Mammouth n'y est pour rien. Alors au moins qu'il cesse de barrir dans la plaine de Mende.

16 Commentaires:

Anonyme a écrit...: Eh bien , tout est dit. Rien à y ajouter, juste à adhérer... Merci ;); 25 janvier, 2006 11:52
Anonyme a écrit...: Petite correction :
"Mais qu'onT fait nos politiques?"

Cela dit, le "traitement" du problème me fait plus penser à un acte homophobe (qui d'ailleurs devrait être puni) qu'à une erreur judiciaire car les preuves ici sont évidentes (à Outreau il n'y en avait pas ou peu et ils les cherchaient); 25 janvier, 2006 13:19
Jean Véronis a écrit...: Mbt> ont -- merci!

acte homophobe -- J'ai trouvé intéressante la remarque de Maître Eolas : "tout le monde ne pourra s'empêcher de penser que si ce proviseur avait été hétérosexuel et avait montré des jeunes femmes en lingerie, son site aurait fait le tour du rectorat en faisant marrer tout le monde, et c'est tout."; 25 janvier, 2006 13:23
Anonyme a écrit...: Je pense plus à un acte de répression immédiate de la part du gouvernement. Un acte homophobe venant de ce même gouvernement serait difficile à croire; 25 janvier, 2006 13:36
Anonyme a écrit...: Il manque un mot, je crois, dans cette phrase :
Les parades sont pourtant extrêmement simples, et sont en vigueur aux Etats-Unis *depuis* bien longtemps.; 25 janvier, 2006 13:40
Jean Véronis a écrit...: Merci Merome!; 25 janvier, 2006 13:42
Anonyme a écrit...: je suis un admirateur de votre blog, et vivement pas d'accord avec l'outrance qu'Outreau apporte à votre comparaison.

Si cela vous intéresse, j'ai laissé un long commentaire sur le site de soutien à Garfieldd.
http://blog.soutenons-garfieldd.org/index.php/2006/01/23/130-comment-participer-et-informer
(ce sont les 4, 5 et 6è commentaires)

Il me semble que le temps est venu des évaluations et débats plus calmes...

très cordialement,; 25 janvier, 2006 16:35
Jean Véronis a écrit...: Yves> Je mentionne quand même une différence d'échelle. Je vais lire vos textes. Merci!; 26 janvier, 2006 08:54
Anonyme a écrit...: Illisible pour un presbyte ET:OU malvoyant.

Please Please
pensez à nous.
Richard; 26 janvier, 2006 16:39
Jean Véronis a écrit...: Richard> Il me semble au contraire que mes caractères sont plutôt gros par rapport à la moyenne des blogs? N'est-il pas possible de toutes façons de régler le navigateur pour avoir une taille de police plus grande? Merci de m'expliquer un peu plus...; 27 janvier, 2006 09:57
Anonyme a écrit...: Tendance lourde? Franchement lourde, alors. Une chose du même ordre est arrivée à un directeur d'école, syndicaliste.Sa hiérarchie, dans le meilleur style cow-boy, est allée jusqu'à confisquer en son absence l'unité centrale du bureau censée contenir des favoris pédophiles. Ces Pieds Nickelés détruisirent ainsi toute preuve possible, aussi bien de son innocence. Il a fallu plus d'un an pour qu'il soit réhabilité, sans même rêver d'obtenir justice de la destruction de preuves, du préjudice moral (poste 70 km plus loin) ou d'être soutenu par son administration contre autrui (parents..) comme elle en a le devoir.
Or, ce gars a l'air homo.; 29 janvier, 2006 21:57
Anonyme a écrit...: J'ai eu lointain souvenir, datant d'entre dix et vingt-ans, d'un enseignant du sud-ouest, devenu depuis lors romancier et écrivant sur le rugby et le vélo, qui avait été révoqué ou du moins fortement sanctionné pour avoir publié un ouvrage considéré comme pornographique ; il s'en défendait dans un entretien télévisé, accusant sa hiérachie de ne pas avoir apprécié certaines de ses formules, comme : "recteur, recta, rectum..." (j'ai oublié la suite). Cela rappelle-t-il quelque chose à quelqu'un ?
Si, d'ailleurs, il y avait un parallèle à tracer entre Outreau et Garfieldd, il devrait également envisager les rôles respectifs de l'institution : Garfieldd sanctionné non pas, à mon sens, pour une homosexualité qui complique plutôt la tâche de l'administration en faisant du proviseur une victime de l'homophobie, mais pour sa description sans complaisance du fonctionnement de l'établissement qu'il dirige, le juge d'instruction d'Outreau qui, revendiquant, ce qui reste à prouver, n'avoir commis aucune faute technique, estime n'être responsable de rien, et reçoit, derrière les larmes de crocodile de la compassion pour les accusés-victimes, un soutien syndical, sinon hiérarchique.; 29 janvier, 2006 22:24
Jean-Marie Le Ray a écrit...: Bonjour,

Quand j'ai découvert cette histoire, au gré de mes lectures sur le Net, je n'ai pas réagi en commentant ici ou là, mais je n'en pensais pas moins. Et puis voilà qu'après cette affaire Garfieldd, je tombe coup sur coup sur deux autes affaires : http://fr.news.yahoo.com/25012006/326/la-sombre-affaire-mayetic-entre-rumeurs-et-desinformation.html
et
http://www.monputeaux.com
Que dire ? Je suis écoeuré, je sais bien que l'abus de pouvoir des élus et de l'état n'est pas monnaie courante uniquement en France (en Italie, on est pas mal lotis non plus...), mais quand je vois certaines choses, je me réjouis d'être un français ... expatrié !
Et triste...; 04 février, 2006 15:37
Jean-Marie Le Ray a écrit...: P.S. Je sais pas si ces deux autres affaires vous inspireront un autre billet (je l'espère), j'aurais voulu l'écrire moi-même mais je n'ai pas l'audience que vous avez (personne ne lit mon blog), et je me sens tellement écoeuré que je n'aurais pas la distance nécessaire pour rester objectif, d'autant plus que je vais de surprises en surprises (mauvaises) :
http://tfmc.blogs.com/the_flying_monkey_circus/2006/01/manuel_aeschlim.html
http://www.asnieres-news.com/index.htm?/manuel/traducteur.htm
:-(; 04 février, 2006 15:46
Anonyme a écrit...: Denys a dit...
"recteur, recta, rectum..." (j'ai oublié la suite)

voie hiérarchique, voie naturelle....; 03 mars, 2006 11:47
Anonyme a écrit...: Pour Denis... recteur, recta, rectarum...(pour la déclinaison latine il faudrait comparer à rosa, rosarum etc..)...voie anale, voie hiérarchique.. Car rien de plus vraie, que la matière fécale n'a de fait plus just dans son existance, que de tomber... tomber.. toujours sur ce qui est plus bas.; 26 mai, 2008 18:41

Enregistrer un commentaire

samedi, janvier 21, 2006

Lexique: Fenêtre intruse

Le Ministère de la Langue s'est encore fendu d'une création terminologique comme je les affectionne sur ce bloc: un joli cadeau de Noël, puisqu'il est paru au Bloc Officiel de la République Française le 18 décembre dernier. Nous apprenons enfin qu'il ne faut plus dire fenêtre pop-up, horrible emprunt aux mangeurs de pop corn, mais qu'il convient d'utiliser le terme désormais officiel de fenêtre intruse. Joli, non? Je trouve ça très poétique.

Nos lexicographes d'état sont décidément archi-créatifs! Une petite recherche sur le dieu Godgle (qui normalement connaît le Verbe, et même les noms et les adjectifs) me donne 10 résultats (27 avec les doublons). Évidemment, le dieu du crawl a été plus rapide que l'éclair de son compère Zeus, et la plupart des documents sont des mentions de cette nouvelle création étatico-lexicale. Restent deux mentions authentiques de "fenêtre intruse", antérieures au 18 décembre. L'une d'elles n'est pas utilisée dans le sens concerné. Reste celle-ci. Bravo à notre heureux gagnant, le blogueur JoeyCloud, qui a deviné avant tout le monde comment il allait falloir dire (ça ne peut être qu'un gars bien avec un nom pareil!). Mais au fait, nos fonctionnaires ne sont tout de même pas allés copier sur un ~~blog~~ bloc belge???

Mis à part le fait que la langue ne se décrète pas (et c'est heureux), c'est un très bon exemple de mauvaise lexicographie. "Pop up" est une belle expression quasi onamatopéique (on entend le bruit du maïs qui saute en l'air -- ou du bouchon de champagne qui jaillit de la bouteille, si vous préférez faire dans le franchouillard), mais rien dans cette expression n'a de connotation négative. De fait, les petites fenêtres qui jaillissent sur l'écran ne sont que des fenêtres automatiques (ce qui aurait été une traduction plus adéquate, bien que mortellement terne). Elles ne sont pas nécessairement intruses: au départ elles ne l'étaient d'ailleurs pas; ce sont le spam, la pub, le cyberlucre qui en ont fait le plus souvent des nuisances... Pourquoi pas fenêtres agaçantes, tant qu'on y est?

Heureusement que personne ne les suit, ces recommandations farfelues. Sauf que nous les payons. Si on me demandait de choisir à quoi servent mes impôts, je dirais qu'il y a mieux à faire pour défendre notre douce langue, par exemple envoyer nos lexicographes d'état officier dans le 93 (ou le 13), où il y aurait drôlement besoin d'aider des classes presque entières à maîtriser les rudiments d'une langue qui leur permettra peut-être de mieux survivre dans la société où nous les avons tant bien que mal (et même plutôt mal) accueillis...

Je devrais faire attention à ce que je dis. C'est vite fait de se faire révoquer par les temps qui courent! Mais il ne faut pas trop se plaindre, il fut des temps plus lointains où quand des langues dérangeaient, on faisait carrément sauter les têtes qui allaient avec... Le couperet tombait aussi très vite.

Post-scriptum

J'allais oublier:

39 Commentaires:

Anonyme a écrit...: La traduction recommandée par Microsoft pour "pop-up window" était "fenêtre autonome" (Référence: The Windows Interface Guidelines for Software Design", Microsoft Press, 1995). Le site Druide Informatique propose plusieurs équivalents: (fenêtre en) incrustation, fenêtre contextuelle, fenêtre surgissante, fenêtre jaillissante, fenêtre éclair, fenêtre flash, fenêtre furtive... (http://www.druide.com/points_de_langue_23.html). Personnellement, j'ai toujours utilisé "fenêtre jaillissante" dans les documentations que j'ai rédigées.; 21 janvier, 2006 16:49
Anonyme a écrit...: Il y a quelques mois, Apple avait trouvé comme traduction fenêtres surgissantes. C'est pas non plus!; 21 janvier, 2006 17:26
Anonyme a écrit...: A propos de votre allusion finale aux ennuis de votre collègue objet d'une révocation apparemment en voie de retrait : de ce que j'ai appris de l'affaire, c'est l'énonciation des requêtes "curieuses" qui avait conduit à son site qui ont été reprochées à ce proviseur. Au moins comme prétexte.

J'espère que vous n'avez pas subi de semblables désagréments, par exemple après avoir mêlé le 11 novembre dernier les anciens combattants à des requêtes pornographiques ( à propos de la propension pour Google de confondre poilus et poilus) ;-)

Neville; 21 janvier, 2006 18:36
Jean Véronis a écrit...: Neville> Effectivement! j'ai mis quelques liens sur cette affaire lamentable ici...; 21 janvier, 2006 18:38
Jean Véronis a écrit...: Giorgio, Yann> Merci pour ces traductions (que je ne connaissais pas) et les liens!; 21 janvier, 2006 18:39
Anonyme a écrit...: Juste une question pourquoi bloc et pas blog dans le texte???
Les lexicographes ne traduisent quand même pas blog par bloc????
(quoique ça ne m'étonnerait pas trop ;); 21 janvier, 2006 19:40
Jean Véronis a écrit...: Anonymous> Cliquez sur le lien de mon premier "bloc" (ou ici). Ils débloquent, hein?; 21 janvier, 2006 19:42
Eric Baillargeon a écrit...: Fenêtre éclair est tout de même plus populaire ! L'origine serait d'une connaissance d'ici !; 21 janvier, 2006 21:02
Anonyme a écrit...: Le plus reste quand on va sur cette page :http://www.legifrance.gouv.fr/WAspad/index.jsp; 21 janvier, 2006 21:22
Anonyme a écrit...: Oki merci pour le lien sur les "blocs", je n'avais pas vu le billet à ce propos(il faut dire qu'il y a tant d'excellents sujets à lire qu'à force on en loupe de temps en temps arf ); 21 janvier, 2006 21:27
Sophie a écrit...: Bonjour,

Je ne sais pas ce qui se passe chez vous, mais chez moi, avec un navigateur récent et respectueux des standards, la page de la Délégation Générale à la Langue Française est une page blanche d'une sobriété totale. Vide.

Étant 'du métier', je suis allée voir ce qu'il y a sous le capot, et je peux vous dire que si nos Lexicographes d'État sont chatouilleux de l'anglicisme, ils n'éprouvent pas la moindre démangeaison à produire ou faire produire du code html en décomposition.

Sur 40 lignes de code, 16 sont utilisées pour glorifier l'auteur et s'assurer d'un copyright sur le contenu.
Le contenu lui-même, qui tient en 10 lignes, est construit de manière tellement désordonnée que tout navigateur 'normal' y perdrait son latin et surtout ses pixels.; 21 janvier, 2006 21:53
Jean Véronis a écrit...: Eric> Fenêtre éclair: j'adore. C'est mon préféré. Ou même fenêtre à ouverture éclair ;-); 21 janvier, 2006 22:13
Jean Véronis a écrit...: Sophie> Oui, effectivement, ça craint! Mais ce qui est bizarre, c'est que ça marchait il y a quelques heures au moment où j'ai mis le lien... Trop d'accès ont peut-être tué le serveur ;-); 21 janvier, 2006 22:14
Anonyme a écrit...: C'est une nouvelle démonstration de la terrible efficacité de l'anglais quand il s'agit de technique brute. Non seulement le mot "pop-up" sonne très bien, il est très court, mais en plus il est techniquement précis, puisque le "pop-up" surgit par-dessus la fenêtre principale, alors que le "pop-under" se glisse au-dessous. Par contre, la traduction officielle française se plante, puisqu'elle oublie la technique et la simple description, et ajoute une intentionalité négative de la part du programmeur ("intruse"), alors qu'un pop-up peut être complètement voulu, positif, voire même nécessaire (par exemple dans les articles de la BBC, les images peuvent être agrandies par un pop-up quand on clique dessus). Bref, on supprime la description technique qui est exacte, et on ajoute un sens qui est faux. Très forte cette commission de terminologie. Ils devraient y inviter des informaticiens :); 21 janvier, 2006 22:28
Anonyme a écrit...: Au sujet des "blocs", on oublie un peu vite le terme "joueb" qui eut son heure de gloire au début de la popularisation de ce type de publication.; 22 janvier, 2006 15:51
Jean Véronis a écrit...: Guillermito> Oui, la brièveté incisive de l'anglais m'étape toujours! Et on est bien d'accord: la traduction proposée est simplemetn fausse (sans parler de l'abréviation proposée: "intruse" comme nom féminin). Cliquez sur la croix pour fermer l'intruse!; 22 janvier, 2006 20:14
Jean Véronis a écrit...: Cykomyko> Oui, "joueb", c'est vrai! Il me semble un peu en perte de vitesse. Mais c'est ça la beauté du langage: personne ne décide; C'est un processus darwininen...; 22 janvier, 2006 20:15
Loran a écrit...: Bonjour,
quant a Garfiedd il semblerait que les choses s'arrangent.
cf: http://www.education.gouv.fr/actu/element.php?itemID=2006120175

Bonne soiree.; 22 janvier, 2006 23:48
Vicnent a écrit...: Comment appelle-t-on un pays qui (veut absolument re)prend(re) à son compte, du point de vue de la langue, toute invention venant de l'extérieur ? Tout cela m'attriste... beaucoup... On appelle ça un pays conservateur, non ? ou Regressiste peut être ? Ca en dit long sur la mentalité... Et ça ne me dit rien de bon...
Sniff...; 23 janvier, 2006 15:01
Jean Véronis a écrit...: Vicnent> Ou bien: nostalgique? (d'une grandeur passée...); 23 janvier, 2006 18:37
Jean Véronis a écrit...: Pythonner> Superbe cette citation de l'Office québécois! Un grand merci ;-); 23 janvier, 2006 18:52
Anonyme a écrit...: "Fenêtre intruse", c'est quand même plus joli que la traduction que j'ai vue dans Internet Explorer : "fenêtre publicitaire intempestive". Un peu indigeste, surtout dans la phrase "Etes-vous sûr que vous voulez autoriser les fenêtres publicitaires intempestives pour le site machin.com?"; 23 janvier, 2006 20:40
Jean Véronis a écrit...: Florence> Oui! c'est même assez poétique. Mais l'un comme l'autre ("fenêtre intruse" ou "fenêtre publicitaire intempestive") ne sont pas de bonnes traductions de "pop-up windows". une fenêtre pop-up n'est pas nécessairement intruse, intempestive, ou publicitaire. Fenêtre éclair", "flash", "surgissante", "jaillisante" (suggérés plus haut) seraient plus justes...

Mais bon, une fois encore, ça ne se décrète pas... On verra bien ce que l'usage retient (pour l'instant c'est pop-up!).; 23 janvier, 2006 20:49
Anonyme a écrit...: Vicnent, je crois n'avoir pas très bien compris.

Dis-tu que le Québec est conservateur, rétrograde, passéiste ?

Ou est-ce juste pour faire dans la critique française facile ?

Et ça dit quoi sur la mentalité (autre que << long >>) ? Celle du Québec est la même que la France ? Et les autres pays francophones ?; 23 janvier, 2006 22:05
Jean Véronis a écrit...: Vicnent, Cykomyho> Moi j'avais compris que Vicnent parlait de la France...; 23 janvier, 2006 22:17
Anonyme a écrit...: J'en profite pour poser la question au linguiste que vous êtes (non, ne vous cachez pas, je le sais !) :

Que pensez-vous du Québec à ce sujet ? Et par rapport à la France (les causes et buts n'étants pas les mêmes) ?

Et profitons-en pour méditer sur la phrase (plus ou moins exacte, mon allemand est nul) de Kraus : Les mots sont la pensée.; 23 janvier, 2006 22:32
Anonyme a écrit...: Parlant du Québec, voici un article de Druide sur la question du pop-up:

http://www.druide.com/points_de_langue_23.html; 23 janvier, 2006 22:57
Anonyme a écrit...: "Fenêtre intruse" ou "fenêtre intempestive" a au moins le mérite d'être facilement compréhensible pour quelqu'un d'aussi peu calée que moi en anglais ou en informatique. Vous êtes là à vous gargariser de l'imbécillité des traductions françaises sans avoir un instant le souci de ceux qui comme moi, n'ont pas eu la chance de posséder un ordinateur dans leur enfance ou de se payer des stages aux Etats Unis... Moi, la langue française, c'est tout ce que je possède (et encore). Bien triste de voir qu'elle est aussi méprisée par tant de brillants esprits...; 24 janvier, 2006 03:56
Anonyme a écrit...: Anonymous, le problème c'est que "fenêtre intruse" vous donne une mauvaise idée de la nature et de l'utilisation de ladite fenêtre, tandis que d'autres termes, qui sont tout aussi compréhensibles pour quelqu'un qui n'est pas très calé en informatique, ont au moins le mérite d'être précis.; 24 janvier, 2006 10:49
Anonyme a écrit...: Une fois qu'on a entendu l'expression "fenêtre intruse", on fait le lien avec les "fenêtre pop up", et il devient alors simple de les traduire. Je suis certaine que c'est le cheminement que font beaucoup de personnes très en retard en ordinateur et qui n'osent demander à personne.; 24 janvier, 2006 13:12
Anonyme a écrit...: En anglais, "pop-up" tout court peut être une publicité, une fenêtre, un menu et que sais-je encore selon le contexte (voir fiche de Druide, très complète). En français, "pop-up" tout court n'est à ma connaissance utilisé qu'en référence aux fenêtres publicitaires ou "pop-up ad".

J'ai comme l'impression que le Ministère de la Langue n'a vu qu'un seul des sens de "pop-up", en l'occurrence celui de "pop-up ad" et là, quand il s'agit des publicités qui nous sautent à la figure, tout le monde semble d'accord sur le côté intempestif de la chose (cf réf. ci-dessous). En conclusion, il faudrait rectifier la fiche et indiquer les équivalents pour les autres composés de "pop-up"...

Pop-up: Fenêtre de publicité ou d'ouverture d'un nouveau site Web, qui apparaît de manière intempestive pendant la navigation et qui se masque parfois automatiquement http://www.01net.com/editorial/214832/pop-up/
Pop-up ad: (...) caractère intempestif (...) http://www.druide.com/points_de_langue_23.html
Voir aussi le Jargon: http://www.linux-france.org/prj/jargonf/P/pop-up.html

Marie-Louise; 24 janvier, 2006 15:17
Anonyme a écrit...: La traduction proposée est tristement innexacte. C'est d'autant plus déplorable qu'une simple recherche de "pop-up" avec Google sur les pages francophones permet de trouver une kyrielle de pages diverses donnant une définition complète de cette expression.
Pour rebondir sur l'idée que les deniers publics seraient mieux employés à défendre la langue française dans les classes du 93 (ou du 13), j'ai appris récemment que face à des problèmes similaires de maîtrise de la langue anglaise par les jeunes de certaines régions aux Etats-Unis, les lycées leur proposent désormais de remplacer les cours d'anglais classiques par des cours d'anglais langue seconde. Je ne connais pas exactement les modalités de cet enseignement, mais j'ai été assez surprise, et cette perspective me laisse dubitative. Qu'en pensez vous? Sachant que dans tous les domaines, les innovations américaines ont tendance à voyager outre-atlantique, il peut être intéressant de s'intérroger sur ce point...

Aurélie; 24 janvier, 2006 16:26
Anonyme a écrit...: Pour ce qui est d'envoyer des lexicographes dans le 9-3 ou le 1-3 pour y enseigner les "rudiments" de la langue, je ferai gentiment remarquer que ce sont les ainsi "classes" visées qui ont généré cette langue inventive et fleurie qui nourrit le rap et les discours "branchés" d'aujourd'hui (le "neuf trois", ça sonne mieux que Seine Saint Denis, non ?). Les jeunes de banlieue (comme les loubards des années 50) montrent justement leur capacité à utiliser (détourner, inventer) la langue pour se construire une place dans cette société qui ne veut pas d'eux. Sauf à récupérer, outre leurs musiques et leurs codes vestimentaires, ces expressions qui nourrissent plus surement notre parler quotidien que les décrets de l'académie.; 24 janvier, 2006 17:01
Anonyme a écrit...: Votre site me séduit infiniment. Au point que je m'en suers sur le mien...; 28 janvier, 2006 23:16
Anonyme a écrit...: Evidemment, lire "sers" et non "suers" !!!!; 28 janvier, 2006 23:17
Anonyme a écrit...: Moi même étant informaticien, je trouve que justement ce terme est très bien trouvé. Car ces fenêtres sont bien intruses (il suffit de voir le nombre de navigateur proposant leur désactivation) car automatique et non demandée.
Par contre lorsque l'on clique sur un bouton et qu'un "pop-up" s'ouvre alors on peut parler de fenêtre indépendante, volante (à voir le terme). Ceci rajoute un aspect fonctionnel très important pour nous informaticien. D'autant plus que les fenêtres intruses sont du javascipt non recommandé dans le développement du W3C.; 25 août, 2006 14:46
Anonyme a écrit...: Je pense quand meme que garder le nom en anglais n'est pas une mauvaise idée.

----------------------
Refinancement d'emprunt; 19 octobre, 2006 16:48
Hugo a écrit...: L'Office de la langue française du Québec a retenu, pour sa part, "fenêtre contextuelle", puisqu'il s'agit d'une fenêtre s'affichant dans un contexte particulier et n'existant que dans celui-ci. J'ai retrouvé ce terme dans la plupart des mémoires de traduction (MT) avec lesquelles j'ai travaillé depuis 3 ans.; 14 novembre, 2007 06:32
moimyself (centerblog) a écrit...: c'est en parcourant,pour la nième fois la banque image google sur le thème de "la fenêtre" que je suis tombée sur cette image de fenêtres et de reflets superposés...l'émotion véhiculée par cette vision est immédiate...mes cinq sens réveillés, restimulés, mes narines s'emplirent de l'odeur de poussière d'une maison réouverte ,comme tirée de sa torpeur!!! le froid ambiant ,la lumière chaude du rayonnement solaire, le bruit ambiant de la rue qui grouile de quotidien...paradoxalement,cette image suspendue au détour de ce clic aléatoire ( existe-t-il cet aléatoire?)m'a recadrée et réinstallée dans le temps présent...(dont je m'étais échappée ;); 23 novembre, 2010 09:26

Enregistrer un commentaire

dimanche, janvier 15, 2006

Web: Surfez sur les nuages

Vous avez sans doute noté ma fascination pour les nuages de mots [1, 2, 3, 4, 5, 6]. Je trouve qu'ils sont un moyen superbe de visualiser la thématique et le "monde lexical" d'un texte. Je rêvais depuis un moment d'un moteur qui retournerait ses résultats sous forme de nuage... J'ai fait divers prototypes à partir de l'API de Yahoo, qui m'ont convaincu qu'on pouvait utiliser les résumés retournés par le moteur pour générer de tels nuages. Seul petit problème, pour des nuages intéressants, il faut pas mal de résultats; or, Yahoo n'en retourne pas plus de 100 à la fois, ce qui implique plusieurs requêtes, et un temps de réponse trop long pour une mise en ligne de l'outil, sans compter la consommation de bande passante...

J'en ai parlé à Philippe Develter de Dir.com, grâce à qui j'ai déjà pu réaliser le Chronologue. Philippe a implanté côté moteur une partie du traitement, et je peux maintenant générer le nuage en une fraction de seconde. Voici par exemple un petit nuage d'actualité (bonne Aïd!):

"Aïd el Kébir"
Intéressant à comparer avec d'autres fêtes récentes:

Noël

Hannoucca
Pour les fêtes non-chrétiennes, on précise "fête musulmane", "fête juive". Pour Noël, on parle simplement du Père Noël et des cadeaux. Amusant non? Gageons que certains vont y voir un moyen d'affiner leurs mots-clés:

"Rouge à lèvres"
ou de satisfaire leur ego:

"Jean Véronis"
Assez ressemblant, je trouve...

Et on peut même restreindre le nuage à une période donnée, exprimée en nombre de jours (exemple: mot-cle dd>60 dd<120) ou en nombre de mois (mot-cle mm>1 mm<2). Par exemple "segolene royal" mm<1 retourne:

"Segolène Royal" mm<1
Tiens, tiens, "présidente", "présidentielle". La petite Ségolène qui monte, qui monte...

A vous de jouer, le Nébuloscope est ici !

74 Commentaires:

Anonyme a écrit...: Again, the power of Jean Veronis thinking and Dir.com engineering presents you the best tools for your computer... Je suis enchanté des outils que vous fournissez. Je suis sûr qu'ils permettent une meilleure compréhension des buzz sur Internets, de l'actualité... Je suis épaté. Bravo. Félicitations...; 15 janvier, 2006 11:18
Anonyme a écrit...: Bonjour et bravo pour ce bel outil. Je suis fan, et je pense que ce type de visualisation aurait un intérêt à faire partie intégrante des moteurs comme aide à la recherche. Il faudrait ajouter le nuage aux résultats des moteurs avec la possibilité d’inclure ou d’exclure des mots du nuage. Par exemple vous faites une recherche sur la « veille » les résultats se partage entre « écran de veille » et « veille technologique ». Vous transformez donc votre recherche en « veille !ecran technologique » (le point d’exclamation pour exclure sur dir.com) et votre nuage correspond à ce que vous cherchez.
Exalead propose déjà un système de mot clés relatifs à inclure ou exclure qui à mon sens devrait être étendu à d’autre moteur.; 15 janvier, 2006 11:25
Anonyme a écrit...: Il y a une truc marrant. Quand on tape Parti Socialiste par exemple, on aperçoit beaucoup les prénoms et, sans les nom, ils paraissent plus sympathiques, Laurent, François, Elisabeth, Dominique et les autres. Bien sûr, cela fonctionne si l'on tape Sarkozy, ce qui nous renvoie Dominique, Jacques ou Jean-Pierre. Je me demandais juste si une utilisation plus régulière de Dir.com à la place du sacr-saint Google, pouvait faire changer les choses, s'ils auraient plus de sous et donc plus de fiabilité. Je ne connais pas trop le fonctionnement, mais pour faire évoluer vos outils je suis prêt à changer de style de surf...; 15 janvier, 2006 11:26
Anonyme a écrit...: Plutôt que de renvoyer vers le site Dir.com lorsque l'on clique sur un mot en l'associant avec le mot étudié, serait-il possible de recommencer la recherche avec les deux mots. Par exemple, Libération revoie le nuage contenant journal. On clique sur journal et on voit le nuage correspondant à Libération+journal. Ainsi, la recherche est précisée au fur et à mesure des clicks. Merci; 15 janvier, 2006 11:45
Jean Véronis a écrit...: Merci à tous pour vos appréciations élogieuses! J'en rougis...

Modo> Votre suggestion va exactement dans le sens de ce sur quoi je travaille. J'aime bien les termes associés d'Exalead: ils ont fait un très joli travail. Mais je crois que leur tort est de rester limité aux seuls termes composés. Il faudrait pouvoir combiner les deux, mon système et le leur...; 15 janvier, 2006 11:54
Jean Véronis a écrit...: Anonymous> Oui, c'est marrant cette histoire de prénoms! Quant à Dir.com, il me semble que le groupe Iliad l'a lancé, en grande pompe puis pas trop soutenu. Pour l'instant il n'est pas dimensionné pour une utilisation intensive. Peut-être que le "buzz" autour de ces nouveaux outils convaincra-t-il Iliad de faire un petit effort? Quel dommage que les grosses boîtes françaises comme Wanadoo (Voila) ou Iliad (Dir.com) liassent le champ libre aux moteurs américains... Ce n'est pourtant pas les idées qui manquent chez nous!; 15 janvier, 2006 11:58
Jean Véronis a écrit...: Alexandre> Oui, j'y ai pensé, et c'est très facile, une ligne de code à changer. La raison pour laquelle je ne l'ai pas fait pour l'instant c'est que j'ai peur de faire exploser Dir.com: s'il suffit d'un clic pour relancer la génération de nuages j'ai peur que le moteur ne suive pas. Mais je vais examiner la façon dont les choses se passent, le nombre de requêtes à l'heure etc. et si c'est faisable c'est très certainement le comportement que je vais implanter! Une vraie navigation de nuage en nuage...; 15 janvier, 2006 12:01
all a écrit...: Le réseau tourne les yeux vers l'intérieur de lui-même et auto-contemple sa façon de dire consubstantielle, à défaut de s'analyser. Les mots les plus sémantiquement riches ne donnent aucun résultat remarquable.
rien
all; 15 janvier, 2006 12:04
Jean Véronis a écrit...: Alexandre> déjà un millier de requêtes en quelques heures, mais le moteur a l'air de tenir la charge. Je tente le coup: quand on clique, on a maintenant un nouveau nuage. On verra bien; si ça sature, je reviendrai à l'ancien mode...; 15 janvier, 2006 15:35
TOMHTML a écrit...: Excellent travail Jean ;); 15 janvier, 2006 17:33
Anonyme a écrit...: Très intéressant de voir ces résultats. J'ai essayé mon Nom. Mon prénom est apparue en plus gros. Quand on veut flatter son ego c'est effectivement très bien.

J'ai essayé avec BnFlower et Musique Indépendante. Les résultats sont également d'une grande pertinence.; 15 janvier, 2006 17:48
Anonyme a écrit...: Bonsoir. Non informaticien mais sociologue, je ne trouve pas du tout que le petit programme proposé est une forme de narcissisme du web. En tout cas, de mon côté, il me semble passionnant. Travaillant sur la sociologie des avocats, j'ai tapé le mot ; le web me renvoie surtout des mots liés au droit des affaires, à l'immobilier, etc... et pas du tout au droit pénal, pas à la défense des salariés par exemple. Voilà quelque chose de fort intéressant, qui ne m'apprend pas une idée révolutionnaire mais qui me donne de nouvelles indications. Autre exemple : quand on tape l'expression "harcèlement moral", le mot le plus associé semble Hirigoyen, le mot "syndicat" n'y est pas... Bien sûr, j'avais déjà fait des recherches sur Google et Yahoo à partir de ces mots ; mais ça m'avait pris des heures pour saisir l'environnement lexical de ces expressions et sans réussir à en faire la synthèse (alors que résumerles données d'une manière visible est précisément l'objectif de ces technologies de présentation de la recherche et de l'appareil de preuve). Ici, c'est fait si vite...
Désolé pour ce message si long, mais je suis absolument fasciné par l'inventivité et le talent d'un certain nombre d'auteurs qui utilisent l'outil blog... En tout cas, ce "post" -ci me paraît extraordinairement utile et important.; 15 janvier, 2006 19:56
Anonyme a écrit...: Bonsoir,
Bravo pour cet outil.
J'en avais découvert un aperçu sur Rezo.net et depuis je cherche un outil qui me permettrait de spécifier un texte en entrée et d'obtenir un nuage de points.
Je suis allé sur Tag Cloud mais quelle que soit l'url que je rentre il me dit qu'elle n'est pas valable.
Auriez-vous une idée?

Merci et bonne continuation; 16 janvier, 2006 00:13
Anonyme a écrit...: Super !
J'emporte le nuage de l'espoir sur mon blog, le doigt pointé vers ici ( bien entendu ); 16 janvier, 2006 00:15
Anonyme a écrit...: Excellent!; 16 janvier, 2006 04:45
Jean Véronis a écrit...: Laurent> Oui, on découvre des associations (ou des abscences) imprévues!

Merci à tous pour vos commentaires élogieux!; 16 janvier, 2006 08:05
Marianne a écrit...: Merci beaucoup, c'est très agréable comme outil ! Ca fait un moment qu'à vous entendre parler de nuage, j'ai essayé d'en faire un sur mon blog, malheureusement tagcloud, en plus de mettre 2 mois à créer un nuage, semble avoir des problèmes avec les caractères accentués, du coup ça ne marche pas bien, snif... est ce qu'il existe un outil français pour faire un nuage à partir d'un fil rss ?; 16 janvier, 2006 10:27
Anonyme a écrit...: Juste une petite considération sur la récurrence de certains mots. Je pense à "France" qui revient souvent : évident mais peu pertinent, je trouve. Ou "vente" "achat". Pour ceux-là, le nuage n'est plus seulement lexical mais socio-lexical, les mots ne sont pas denrées marchandes mais forcément attachés à quelques entreprises de ce genre. Enfin bref, y'a du commerce sur le Net et ça se voit. Voilà, c'était mon constat.; 16 janvier, 2006 11:52
Anonyme a écrit...: J'ai essayé avec "surfez" et "nuages"

(voir

http://www.up.univ-mrs.fr/cgi-veronis/nebuloscope?req=surfez+nuages&taille=gros

)

et c'est joli comme résultat
mais il n'y a (pas/pas encore)
le mot "nébuloscope" ...; 16 janvier, 2006 14:29
Jean Véronis a écrit...: Marianne> TagClouds -- Hélas, effectivement, TagClouds (qui utilise la technologie d'analyse de contenu de Yahoo!) ne fonctionne pas bien sur le français; problèmes d'accents mal résolus, mais aussi antidictionnaire (mots à exclure) pas prévu pour le français. Du coup il y a des tas de mots qui ne servent à rien et qui sont indexés (articles, etc.). Je ne connais pas d'équivalent qui marcherait sur les fils RSS pour le français.

Je pourrais en faire un aisément, mais c'est un problème de bande passante. Si quelqu'un veut héberger...; 16 janvier, 2006 19:29
Jean Véronis a écrit...: Tef> Mots fréqnets (France), etc. -- C'est terrible d'avoir des lecteurs aussi bons. Bien sûr ces mots sortent souvent: les exclure, ne pas les exclure? C'est tout l'art de l'antidictionnaire (stoplist en bon franglais), qui est au mieux un artisannat. Ces mots, peu intéressants dans beaucoup de cas, sont extrêmement pertinents pour certains nuages ("France" pour Sarkozy, etc.). Ce que j'utilise est un compromis, issu de pas mal d'années de travail dans le domaine, mais comme tout compromis, il est imparfait. On pourrait faire (un peu) mieux avec quelques statistiques de base issues de la fréquence globale des mots-clés sur le moteur... Peut-être (à suivre!).

le nuage n'est plus seulement lexical mais socio-lexical -- dans tous les cas, c'est de toutes façons socio-lexical. Mais est-ce que le lexique peut-être autre chose qu'un objet social? <-- attention, si vous avez lu d'une oreille distraite (hi, hi), c'est une question archi-profonde ;-)

Merci Tef (mais pas trop de questions comme ça, svp, ça met la barre trop haut! ).; 16 janvier, 2006 19:37
Jean Véronis a écrit...: Cochonfucius> mais il n'y a (pas/pas encore) le mot "nébuloscope" ...

vrai, mais on le voit déjà vachement poindre le bout de son cumulo-nimbus sur le
Chronologue !; 16 janvier, 2006 19:40
Anonyme a écrit...: Bonjour Jean,
Encore félicitations pour ce merveilleux outil !!
Est-ce que ce serait possible d' utiliser sur un gros corpus de textes? Ca m'intéresserait beaucoup de le faire tourner sur mon corpus de sous-titres et de livres...; 16 janvier, 2006 19:45
Jean Véronis a écrit...: Boris> Pas de problème, je peux te faire ça (tu m'envoies le corpus zippé?). Mais attention, c'est gratuit uniquement pour les amis ;-) Non, je rigole, mais si on veut faire du bon travail, il ne s'agit pas seulement de pousser un bouton. Il faut régler pas mal de choses, et notamment le fameux antidictionnaire, qui a déjà été mentionné plusieurs fois dans les commentaires ci-dessus.; 16 janvier, 2006 19:51
Anonyme a écrit...: Pour utiliser des tags dans les blogs, il y a de nombreuses applications mais qui sont spécifiques aux logiciels utilisés. J'en utilise un sur DotClear, cela fonctionne avec des mots que l'on associe soi-même aux différents messages du blog. j'aurais aimé montrer un exemple mais mon blog reste sur mon réseau local, avec un seul ordinateur. Bref... Par contre, si vous avez Firefox, il y a un petit script pour rechercher rapidement les résultats du chronologue et du nébuloscope, depuis la barre de recherche Firefox. Plus d'informtions par e-mail.; 16 janvier, 2006 21:34
Anonyme a écrit...: Bravo pour cet outil, et surtout merci beaucoup de l'avoir mis à disposition de tous. J'ai aussi beaucoup apprécié le Chronologue.

On pourrait d'ailleurs imaginer un "Nébulo-Chronologue", une sorte de nuage de mots animé, où la taille de chaque mot varie en fonction du temps. Avez-vous envisagé un tel outil ?

Bien sûr cela multiplierait le nombre de requêtes par le nombre de périodes considérées.; 17 janvier, 2006 05:45
Jean Véronis a écrit...: MathiasQ> Merci!

Nébulo-Chronologue -- vous avez complètement raison: en fait je me suis déjà fait un tel outil. J'en parlerai peut-être sur le blog parce que ça produit quelques jolies choses. Mais je ne peux pas le mettre en ligne pour une simple question de charge du serveur. Peut-êtreun jour, si tout cela devient moins artisanal et que Dir a quelques moyens...; 17 janvier, 2006 08:37
Marianne a écrit...: Ah, quel dommage.
J'ai du mal à imaginer que ça puisse être facile, sinon quelqu'un l'aurait déjà fait :-). Mais j'imagine que ça prend beaucoup de place ? Je proposerais bien mes quelques dizaines de Mo qui s'ennuient sur un serveur wana doo sinon.; 17 janvier, 2006 21:46
Anonyme a écrit...: Je viens de faire une petite note sur le nébuloscope avec un lien vers celle-ci...; 18 janvier, 2006 10:40
J2J2 a écrit...: Finalement, mon image de Jean Austin (mixage de Jean Véronis avec Steve Austin) n'était vraiment pas usurpée.
Plus sérieusement, et un peu tardivement, beau travail Jean.
J'ai moi même dans mes maquettes de Frutch (dont j'espère bientôt mettre quelques aperçus en ligne) intégré un nuage de mots. Ce nuage de mots et généré à partir des résultats du Clustering de Nuth.

Question d'un tout autre ordre: As-tu fais quelques tests de taille d'index sur Exalead? Ils ont en effet annoncé une augmentation de l'index, mais mes quelques tests rapides ne semblent pas refléter cette augmentation.; 18 janvier, 2006 11:11
Jean Véronis a écrit...: Jerôme> J'ai hâte de voir les nuages de Nutch!

Non, je n'ai pas encore regardé en détail les nouveaux résultats d'Exalead. J'ai vu leur annonce... A suivre.; 18 janvier, 2006 11:37
Jean Véronis a écrit...: Jerome> je ne sais pas pourquoi Motrech n'apapraît pas dans mes trackbacks. Pourtant il est aussi sur Blogger! Bizarre... Catégorisé comme un vulgaire spam?; 18 janvier, 2006 12:04
Jean-Marie Le Ray a écrit...: Génial, y a pas d'autre mot ! Est-ce que ça marche aussi avec les tags ?
Mon idée serait de créer un site perso de tags, qui ne reprendraient pas seulement les blogs, mais aussi les sites, les articles et autre, enfin tout ce avec quoi on se sent des atomes crochus, et les présenter en nuages, voire en nébuleuses :-)
Je sais bien que cela existe déjà en anglais, mais un petit programme franco-français-francophone serait pas déplaisant.
En tout cas, je vais vite écrire un billet sur le Nébuloscope, ça mérite ! Ça c'est sûr qu'il disait le Coluche.
Bravo encore,

Jean-Marie Le Ray

P.S. A propos de la ressemblance entre notre Coluche national et le Sarkophage (lui qui est si gourmand), y a quand même pas photo...; 18 janvier, 2006 16:10
Jean Véronis a écrit...: Jean-Marie> Merci!

Non, ça ne marche pas sur les tags. L'outil analyse la fréquence des mots sur les pages web.

ressemblance entre notre Coluche national et le Sarkophage : les deux se présentent aux présidentielles en racontant des c... Différence: l'un faisait rire, l'autre pas -;); 18 janvier, 2006 16:43
geneline a écrit...: Oui, c'est totalement redondant avec les autres commentaires, mais il faut bien le dire, c'est génial!; 19 janvier, 2006 01:18
Jean Véronis a écrit...: Geneline> Redondez, redondez... Ca fait toujorus plaisir. Merci Geneline!; 19 janvier, 2006 07:42
Anonyme a écrit...: Peut-être un soucis ce matin, ou avec Over-Blog ?
cela ne semble pas marcher.
(3 tentatives depuis 10h aujourd'hui)

> http://www.nuesblog.com/
et pas mieux avec celle-ci > http://blpwebzine.blogs.com/nuesweb/

c'est un bug momentané ?
Bravo une fois de plus, j'ai vu des nuages étonnants et explicites (mais pas ceux-là ;)!; 19 janvier, 2006 12:40
Jean Véronis a écrit...: Nico> j'ai dû rater un bout de discussion... http://www.nuesblog.com/ semble effectivement en panne, mais quel rapport avec le Nébuloscope (qui lui, apparemment, fonctionne)?; 19 janvier, 2006 13:36
Anonyme a écrit...: effectivement, non, le site n'est pas en panne, pas plus que le nébuloscope, c'est mon cerveau qui doit l'être, je n'avais pas saisi que le nébuloscope ne marchait qu'avec des mots-clefs et pas avec des url ;); 19 janvier, 2006 14:34
Jean Véronis a écrit...: Nico> Ah oui, je vois. Non, pour analyser un site c'est plutôt un outil comme TagCloud qu'il faut, mais les résultats sont catastrophiques sur le français; je ne connais pas d'outil équivalent pour notre douce langue (coir question de Marianne un peu plus haut)...; 19 janvier, 2006 19:41
Jean Véronis a écrit...: Xavier> Oui, j'ai aperçu Dumbfind. Je suis très modéremment convaincu par la pertinence de leurs tags (sur l'anglais). A suivre, je suppose. De toutes façons, l'idée est dans l'air... Quant à la typographie: la mienne est évidemment inspirée de TagCloud, et je vois que Dumbfind aime bien cette harmonie orange/bleu aussi (j'ai juste ajouté le rouge, car il me semble qu'un niveau "maximal" manquait).; 19 janvier, 2006 20:47
Anonyme a écrit...: Votre petite invention est géniale! Dans le "nuage autour de mon pseudo (qui est un mot espagnol qui signifie "louve" j'ai découvert les mots aime, amour, coeur, femme, enfant et vie. Tout ce qu'il me fallait. Merci!!!!; 19 janvier, 2006 23:00
Anonyme a écrit...: Tout simplement fabuleux, une bonne idée, une belle idée. Merci !; 19 janvier, 2006 23:39
Anonyme a écrit...: L'outil ressemble assez à ce que fait Kartoo (kartoo.fr), qui produit à partir d'une recherche une sorte de nuage de liens au milieu duquel on trouve des mots clés.; 20 janvier, 2006 09:12
Anonyme a écrit...: génial
je viens à ma grande surprise en mettant mon prénom trouver dans mon nuage le pseudo de mon premier blog...; 20 janvier, 2006 12:03
Anonyme a écrit...: Des outils visuels de présentation de grandes quantités de textes (ou autre type d'information) ici. Notamment un dont j'avais vu une démo lors d'un congrès de biologie moléculaire (comme quoi, ces outils sont intéressants quel que soit l'information) : TextArc. L'exemple choisi montre une représentation graphique d'Alice au Pays des Merveilles. Il y a aussi une représentation des liens entre personnages des Misérables ici, et d'autres graphes assez marrants, du genre qui sort avec qui dans un lycée. Pour les flux d'information dans du code informatique, on a ça aussi en 2D (je lui ai piqué la première URL citée) ou ça en 3D (comparaison du code de 2 virus). Bref, j'adore ce genre de chose :); 23 janvier, 2006 06:58
Jean Véronis a écrit...: Guillermito> Un grand merci pour ces liens. La concertration de réseaux sur le site de Flickr est proprement fascinante! J'ai joué un peu moi aussi avec les réseaux de mots ici et ici. J'en parlerai peut-être un de ces 4.; 23 janvier, 2006 08:41
J2J2 a écrit...: Pendant que nous sommes dans les nuages, voici une nébuleuse assez intéressante pour naviguer dans un corpus taggué... http://blog.outer-court.com/waxy/; 23 janvier, 2006 14:43
Anonyme a écrit...: Mon commentaire anonyme a disparu . Il était de nature dubitative concernant le nuage que votre test a réalisé sur mon site d'écriture et de poésie. Je réitère donc ma question : il y a des mots qui ne correspondent pas au contenu du blog et je me demande donc d'où ils sortent. MERCI DE MIEUX EXPLIQUER votre méthode. Je ne sais pas lire non plus votre graphique. Décidémént avant de vous faire de la pub il va falloir que votre outil soit convaincant.Si ce nouveau message disparaît, j'en déduirais que vous n'avez pas de réponse à ma requête et j'en aviserais les personnes qui m'ont conseillé votre site. Bien cordialement.; 23 janvier, 2006 20:49
Jean Véronis a écrit...: Anonymous> Du calme... Je ne supprime jamais aucun commentaire, sauf spam (rare) ou injures à tierce personne (une seule fois depuis le début...). Je ne sais pas trop ce que bidouille Blogger, mais il se peut qu'il y ait par-ci par-là des bugs, ou que certains internautes fassent de fausses manips qui leur fassent perdre le commentaire qu'ils viennent d'écrire. Pas de quoi s'énerver.

En tous cas, votre commentaire, je viens de le voir, mais je ne sais pas l'interpréter: de quoi parlez-vous? de quel site? Je n'ai pas l'impression d'avoir fait un test sur un site particulier, puisque mon outil utilise un moteur de recherche, et non pas, par définition, un site.

Quant à expliquer, ma foi, bien sûr, bien volontiers -- dès que j'aurais compris de quoi il retourne. Mais... cool quand même: tout ça n'est pas à prendre (trop) au sérieux ;-); 23 janvier, 2006 21:03
Jean Véronis a écrit...: Jerôme> Merci pour le lien. Je lis régulièrement Google Blogoscoped mais ce billet-là je l'avais raté. Quelle productivité ce Philip Lenssen. Je l'admire!; 23 janvier, 2006 21:04
Anonyme a écrit...: Excusez ma franchise, ce n'est pas de l'énervement...de la perplexité surtout...
Merci de bien vouloir expliquer comment "le moteur de recherche" sélectionne les mots liés à un titre de blog qui existe , si on met n'importe quoi ça ne marche pas. J'en déduis qu 'il y a bien saisie à quelque part de l'URL du site concerné. Ou alors le choix est complètement aléatoire et ressemblerait à un kaléidoscope secoué où on ne distinguerait que ce qui est au-dessus et visible... Cela fait davantage penser à un horoscope qu'à une démarche rigoureuse et représentative. Quand je ne comprends pas, je pose des questions. et si ce n'est pas sérieux comme approche comment éviter que n'importe qui puisse utiliser n'importe quel titre de site et fasse un usage de votre nuage sans l'accord du gestionnaire du site concerné ? Par ailleurs , il ne faut peut-être pas obliger la personne qui fait le test d'en passer par lui pour accéder aux questions-réponses des commentaires ( Vous pensez peut-être que je fais une fausse manip. mais après deux ans d'internet intensif ce n'est peut-être plus le cas -ALORS ce serait un problème de moteur dites-vous ?).Vous voyez, un peu de transparence sur la technique n'est pas inutile. N'avez-vous sincèrement pas accès au site pour lequel vous effectuez le test ?
Là encore je suis dubitative. Je termine sur deux questions :
Qu'est ce qui est exploré avec ce test ? La grosseur des mots sur le nuage correspond-t-elle au nombre de fois où un terme est utilisé dans le site ?
Voilà . Je ne souhaite pas en première intention intervenir sur les commentaires autrement que de façon anonyme . Merci de tenir compte de cette réticence qui ne peut être levée qu'à la condition d'y voir plus clair dans votre proposition. Pour l'instant je ne la trouve pas du tout pertinente.
Merci d'avance pour vos éclaircissements.; 24 janvier, 2006 08:10
Jean Véronis a écrit...: Anonymous> Je le dis sans doute trop brièvement dans le texte, sou avez raison: mon outil analyse les résumés retournés par un moteur de recherche (en l'occurrence Dir.com, mais ce pourrait être Yahoo, Google, etc.) sur une requête donnée.

Par exemple, si vous tapez "Jean Véronis", le moteur retourne ceci. C'est ça que j'analyse (en fait 1000 résumés) et rien de plus. L'outil retourne donc une image lexicale de cette requête sur l'ensemble du Web (indexé) et non pas sur un site particulier. Il n'y a aucune analyse de sites individuels.

La grosseur des mots est fonction du nombre de fois où un mot est utilisé dans un les résumés retournés par le moteur. Par exemple, sur "Jean Véronis", les mots les plus fréquents sont "technologies", "langage", "provence", "google", etc.; 24 janvier, 2006 09:39
Anonyme a écrit...: Anynomous s'énerve un peu trop vite... Il ne faut pas croire que Big Brother est sur votre site. Les résultats renvoyés par le Nébuloscope, qui est encore un peu nébuleux, n'est qu'un résumé des résumés rendus par les moteurs de recherche. Par exemple, si vous tapez cuisine, les mots renvoyés dans les résumés peuvent aussi bien être "acheter votre cuisine au meilleur prix" que "bien réussir son gâteau avec la cuisine de Mamie". Les mots les plus souvent retournés lors de la recherche seront analysé par l'outil et renvoyés sous la forme de ce nuage. il ne faut pas s'énerver et ces outils, comme cela est signalé maintes fois ne sont que des essais et des éclairages. De plus, celui-ci, peut renvoyer des résultats qui ne "vous conviennent pas" mais il faudrait pour souhaiter n'avoir que des mots relatif à votre site contrôler la totalité des pages citant ce mot...
Amicalement...; 24 janvier, 2006 22:13
Anonyme a écrit...: tout d'abord M.Veronis ecore bravo sur cet outil génail qui ouvre de nouvelles perspectives pour al recherche sur le net. Avant que vous ne lisiez la suite rigolote, j'ai une petite idée pour les problèems de bande passante: pourquoi ne pas mettre sur pied une recherche "décentralisée" à la mode du Pair à pair (P2P): les calculs des mots à afficher seraient effectués "en commun" par tous les inscrits au programme, comme lorsque nous aidions les US à trouver des extraterrestres, ou d'autres projets. A voir...

Je me suis amusé avec le nébuloscope des mots « Gauche » et « Droite » en ne gardant que les mots qui ne sont pas en commun, ce qui a ôté déjà des mots évidents (comme France) ou d’autres communs mais liés à d’autres acceptions de ces mots (comme main). Les mots restants sont intéressants mais il ne faut pas perdre de vue que cela reflète la pensée du web, et non la réalité (je ne veux pas juger un programme politique selon ce qui en est dit, car par exemple si vous cherchez des infos sur la Chine en Chinois, vous trouverez sans doute 90% de textes élogieux… et pourtant la vie n’est pas rose pour tout le monde.. bref)

En excluant encore les mots dont il est probable qu’il s’agit de mots filtrés par l’antidictionnaire dans un cas mais pas dans l’autre (tel l’incompréhensible super performance du mot « hôtel » à gauche..), il nous reste des thèmes assez précis :
La gauche propose des valeurs basées sur l’humanisme et la vie : bonheur, club, contacts, culture, discussion, facile, formation, mouvement

Elle contrôle les médias (d’après un sondage de Marianne en 2002, 64% des journalistes votent à Gauche contre 42% des français) : journal, presse

On parle de son programme, mais surtout qu’elle n’en a pas (lol) : programme, projet.

Elle a une composante spécifique : radical

Il reste quelques mots qui ne sont pas parasites et sont inexpliqués : Saint et Michel, peut être liés (mais ce quartier apparaîtrait donc en relation avec les mots « Rive Gauche » ?), grande et favoris (favoris des élections?), codes.

De l’autre côté, la droite s’intéresse surtout à l’argent et aux valeurs familiales et éducatives : direction, économique, espace, état, Europe, famille, loi, pouvoir, produits, savoir, travail.

Elle a quand même un peu de social : association, cercle, jeunes

Elle a aussi une composante spécifique : national, jean (lié à Le Pen ? On note aussi que le mot « extrême » est bien plus gros qu’à gauche).

Là encore des mots inexpliqués : si on exclue encore une fois les mot utilisés lorsqu’on demande ou on décrit son chemin (virage, accès, maison, etc.), il reste calendrier, contenu, petite (alors que la Gauche avait « grande » !!), prendre, référence, et rouge ( !!)

Surprenant...; 25 janvier, 2006 21:22
Anonyme a écrit...: Est ce que vous connaissez ce moteur :
http://dumbfind.com/
ça rejoint un peu votre idée. Mais je pense qu'il peut être amélioré (il est encore en version béta)... A surveiller; 27 janvier, 2006 10:36
Anonyme a écrit...: c'est amusant de tester des mots qui ont couramment leur place derrière "nuage de", comme, par exemple,

Oort.; 27 janvier, 2006 11:19
Anonyme a écrit...: Votre nuage de mots me plait tellement que j'aimerais en faire une copie papier en A5 à encadrer pour un anniversaire (demain), avec le nom de la personne en mot clef. Me l'autorisez-vous? Et comme je ne suis pas bonne en html, comment l'exporter vers l'imprimante? Merci.; 28 janvier, 2006 10:17
Anonyme a écrit...: Un outil a ajouter au plugin Hyperwords (http://www.hyperwords.net/index.html)?

je selectionne le mot "DADVSI" et zou j'arrive sur
http://www.up.univ-mrs.fr/cgi-veronis/nebuloscope?req=DADVSI :); 29 janvier, 2006 20:19
Anonyme a écrit...: Merci pour cette découverte. J'ai essayé pas mal de mots (Suisse, Paris, Clara, Mahomet, etc) et dans l'ensemble je trouve les résultats très pertinents...

Bref, très sympathique; 06 février, 2006 19:44
Anonyme a écrit...: Bonjour et bravo !

Je trouve cette facon de voir tres poetique !
Sur que je reviendrai ...

bonne continuation; 07 février, 2006 13:29
M. et e. a écrit...: C'est fort intéressant, nous allons nous envoler dans les nuages avec un joli parachute de mots à chercher !; 26 mars, 2006 23:06
Anonyme a écrit...: Je me demande s'il est possible de supprimer les pluriels ou les singuliers quand ils apparaissent tous les deux. Parce qu'avec dadvsi par exemple, on retrouve droit et droit, logiciel et logiciels, il faudrait peut-être lui dire au nébuloscope que si il y a un s au bout, il condense les deux en uns... Est-ce possible ?; 27 mars, 2006 01:04
Anonyme a écrit...: Je trouve l'idée du plug-in pour firefox très bonne cependant le lien fourni ne fonctionne pas, que ce soit pour le nébuloscope ou le chronoscope !; 27 avril, 2006 09:15
Jean Véronis a écrit...: Christophe> Un ou deux autres lecteurs m'ont dit ça. C'est bizarre. plein d'autres l'ont installé. Je l'ai moi-même installé sur diverses machines Linux ou Windows. j'avoue que, ne pouvant pas reporduire le bug, j'ai du mal à le corriger... Si quelqu'un a des lumières...; 27 avril, 2006 09:18
Anonyme a écrit...: Je trouve qu'il n'y a rien de plus beau que les mots et le nébuloscope nous le démontre encore une fois, alors merci! J'ai tapé mon prénom tout à l'heure et je suis tombée sur le mot "Espagne", pays dans lequel je me suis expatriée il y a quelques mois. Je ne m'appelle pourtant pas María... Heureuse coïncidence?; 21 juin, 2006 15:59
Anonyme a écrit...: Question sdans doute un peu "couillone" : concernant le sublime (un peu de flagornerie ne fais pas de mal ; surtout si c'est beau) NEBULOSCOPE : la couleur et la position des mots dans ce nuage ont-elles une signification ?
Merci pour votre site à la fois riche et amusant même si je ne comprends pas tous (je pense aux aspect techniques)
signé : Fauteuil; 29 août, 2006 20:24
Anonyme a écrit...: parce qu'il n'est pas dans le repertoire "search plugins" de firefox, il est difficle de le désinstaler, ou l'avait vous mis ?????; 12 octobre, 2006 22:03
Anonyme a écrit...: Beau projet, merci. Je suppose que vous avez entendu parlé de l'affaire Corneille/Molière et de cet informaticien qui démontre que tout M. et dans C. à l'aide d'un outil complexe (calculs des fréquences lexicales intertextuelles ???). Bon, en tous cas, votre outil m'entrouve bien des routes, qu'un brouillard ténu jusqu'ici dissimulait...; 28 novembre, 2006 15:59
Anonyme a écrit...: Bonjour,

Tout d'abord, bravo pour le travail que vous fêtes. Peut être mon commentaire est hors contexte.

Je suis très intéressé par votre travail dans le sens où je travaille sur l'Oral. Au fait, j'ai intensivement collaboré au projet de corpus de la langue français parlée en interaction (CLAPI). Un prototype est disponible à l'adresse http://clapi.univ-lyon2.fr/.

D'autre part, je travaille sur l'entreposage des données (data warehousing) et je m'intéresse actuellement sur le couplage des TagCloud et l'analyse en ligne des cubes de données. Vos travaux m'inspirent beaucoup. Rien que pour ça, je vous dit merci.

K. Aouiche
http://eric.univ-lyon2.fr/ékaouiche; 29 novembre, 2006 21:03
Anonyme a écrit...: bel outil, amusant, et parfaitement réaliste

La preuve : quand on teste "sincère", le tag "Homme" est plus important que le tag "Femme" ...

OK d'accord, je sors ....; 22 février, 2007 13:43
Anonyme a écrit...: "La grosseur des mots est fonction du nombre de fois où un mot est utilisé dans un les résumés retournés par le moteur. Par exemple, sur "Jean Véronis", les mots les plus fréquents sont "technologies", "langage", "provence", "google", etc."

Je ne sais pas pourquoi, mais j’ai toujours cru qu’il s’agissait de la fréquence avec laquelle ces mots étaient associés dans les requêtes que faisaient les utilisateurs sur Dir.com. Du coup je me demande de quoi est significative la fréquence de ces mots dans les résumés puisqu’il ne s’agit que des mots qui entourent dans une phrase celui sur lequel on fait une recherche.

Est-il possible d’utiliser le nébuloscope sur un site particulier, comme on le peut pour Google ?

Je cherche en fait à insérer l’usage de votre outil dans une séquence didactique qui consisterait à faire déterminer par les élèves les thématiques et les orientations politiques propres à chaque position de l’échiquier politique. Mais pour cela, il me faudrait cibler les recherches (sur un site, voire sur un discours, comme vous aviez fait pour les voeux de Sarkozy), pour distinguer entre ce qui ressort des textes issus des membres d’un parti et ce que la majorité en dit. Serait-ce possible ?; 27 mai, 2007 12:43
Anonyme a écrit...: Quel sens a ce nouveau mot en politique : logiciel !?
Merci !!; 29 mai, 2007 08:31
Anonyme a écrit...: Il y a un joli exemple de nébuloscope ici:

http://icp.ge.ch/sem/cms-spip/spip.php?rubrique67; 18 mars, 2011 08:50

Enregistrer un commentaire

Outil: Le Nébuloscope

[--Le Nébuloscope ne fonctionne plus, Dir.com n'étant plus maintenu. Désolé, j'essaierai de trouver une solution de remplacement --]

Le Nébuloscope est un outil qui permet de visualiser sous forme de nuage le "monde lexical" d'une requête sur le Web francophone (voir explications ici). Vous pouvez naviguer sur le nuage de clic en clic pour affiner votre requête...

Surfez sur les nuages...

Utilisez des guillemets pour chercher une expression exacte; pour exclure un mot tapez !mot

Bon vent! -- mais attention, ce n'est qu'un petit proto sans prétention: il y a encore du bruit et des problèmes divers. Dir.com est une plateforme de test et n'est pas dimensionné pour un usage intensif. Merci de ne pas lancer de requêtes automatisées!

Vous pouvez laisser un commentaire ici.

0 Commentaires:

samedi, janvier 14, 2006

Texte: Sarkovoeux

La microsphère est tout excitée d'avoir été invitée aux "voeux à la presse" de Nicolas Sarkozy (voir ici). Alors si vous avez raté ça, voici le contenu de son discours:

Vous vous en doutiez un peu non?

Le texte intégral est ici et vous pouvez même regarder la vidéo.

Finalement, si on ne regarde que les images, il a un côté sympa, le bonhomme (vous ne trouvez pas que la ressemblance avec Coluche est frappante?).

10 Commentaires:

Anonyme a écrit...: C'est vraiment très intéressant ce type de cartographie (si c'est le bon mot). Mieux encore que les résumés automatiques (qui ne m'ont pas convaincu d'après ce que j'en ai vu...)

Ca serait bien d'ajouter des fonctions de tri, une indication chiffrés du poids des termes (indication ici visuelle).

J'essaye de faire à la main un résumé en 2 mots du texte, ou disons en une phrase. Mais peut-être préciserez-vous si ce genre d'exercice pourrait aussi s'envisager de manière automatique.

Dans le cas d'un discours politique grand public, cela semble relativement facilement si on considère les 2 grandes règles de ce type de discours :
1) marteler un message. On ne détaille pas ici un programme mais on propose un slogan qui résume une ligne directrice.
2) tous le reste du discours est langue de bois, autrement dit du bruit, qu'on peut donc éliminer (voir par exemple sur le blog netpolitique un lien vers un générateur automatique de langue de bois http://blog.netpolitique.net/index.php/2006/01/08/208-la-langue-de-bois-sans-peine).

Lançons nous. D'abord je regroupe les mots par catégorie et j'essaye de résumer la catégorie en un mot :

1) AGIR
Les verbes (plus quelques noms d'actions) relève du domaine de l'action :

action
apporter
mesures
prendre
projet
propose
propositions
rendre
réponse
souhaite

2) SECURITE
Cela ressort déjà de la seule considération des mots les plus saillants, mais si on pouvait aussi faire un calcul des poids, on arriverait sans doute à la même conclusion :

baisse
besoin
cours
création
délinquance
développement
école
fin
immigration
intégration
mer
mineurs
monde
nombre
nouvelle
nouvelles
origine
personnes
respect
risque
sécurité
sens
services
texte
transports
travail
violences

On remarquera par exemple que chômage, Sarko y connaît pas...

3) INSTITUTIONS/GOUVERNEMENT, ou en un mot LE POUVOIR
L'importance des mots relatifs aux institutions permettant le gouvernement du pays est peut-être en soi significatif.

Constitution
départements
fonctionnaires
gouvernement
institutions
loi
interdiction
ministre
pays
police
politique
Président
République
territoires
UMP
Union

4) FRANCAIS
L'interlocuteur en face de Sarkosy, c'est le français, ce qui peut s'interpréter en 2 sens. Soit le français désigne tous les citoyens comme une abstraction qui ne signifie rien, sinon les électeurs d'un territoire. Soit il désigne plus concrètement le citoyen dont l'identité est définie principalement par la Nation. On remarquera par exemple que tout comme chômage, les mots "social" ou "société" sont purement et simplement absent.

Français
France

On peut maintenant résumer le message :
LE POUVOIR VA AGIR POUR LA SECURITE DES FRANCAIS

Qui s'en serait douté ?

Meilleurs vœux de sécurité pour 200...7; 14 janvier, 2006 13:28
Jean Véronis a écrit...: Sic> Bravo pour cette analyse. Effectivement, on peut l'envisager de façon automatique. Il y a d'ailleurs des logiciels comme Alceste qui essaient de faire ça. Mais c'est un peu délicat: tout dépend des regroupements que l'on fait (quels sont les verbes ou les mots d'action, de doute, etc.). La recherche est en plein essor.

Meilleurs voeux aussi et que la Force (de l'ordre) soit avec vous.; 14 janvier, 2006 17:25
Anonyme a écrit...: La dernière phrase du discours est très intéressante : «2006 sera une année d'action. Je forme le vœu que ce soit aussi une année de préparation de l'avenir. » Pourvu que ce ne soit pas une année de préparation du passé !; 15 janvier, 2006 00:23
Anonyme a écrit...: Et puis il faut aussi constater les termes absents !
Ainis "Libération" a remarqué à juste titre que le mot RUPTURE ne figurait plus dans le discours sarkozyen.
Or c'est sur base de ce terme que beaucoup d'agités d'extrème droite s'en sont donnés à coeur joie sur les forums ces derniers mois... Sarkozy, l'homme qui fera la rupture avec le passé chiraquien désastreux...
Sur le sujet voir cet article du Nouvel Obs du 22/09/2005 "Le premier prône la «rupture», le second le «sursaut»... Sarkozy-Villepin : les deux France"
http://www.nouvelobs.com/articles/p2133/a277137.html
Et dans cet article vous verrez qu'à l'époque Sarkozy semblait reconnaître ne pas assez utiliser le mot France. Là dans ses voeux, il s'est bien rattrappé !
Fini donc la rhétorique de la rupture ?... que l'extrème droite le sache bien, histoire de retourner voter pour leur vrai leaders Le Pen et De villiers...; 15 janvier, 2006 11:52
Anonyme a écrit...: Bravo, je trouve votre travail sur les nuages passionnant. Juste une remarque : le mot année n'apparaît pas dans la liste des mots les plus prononcés par le ministre. Or il a été prononcé plus de fois que certains mots qui apparaissent dans le nuage. Pourquoi ?; 17 janvier, 2006 17:14
Jean Véronis a écrit...: Anonymous> Il y a une "stoplist" : articles, prépositions, etc., et queques noms ou verbes très fréquents, dont "mois", "année". On pourrait disucter évidemement... parfois c'est utile de les garder mais la plupart du temps ils constituent plutôt du bruit. C'est toujours un compromis.; 17 janvier, 2006 17:19
Jean Véronis a écrit...: F. Cazals> Non, c'est entièrement généré par mes propres logiciels. Rien d'externe.

Merci du compliment!; 09 février, 2006 19:20
Anonyme a écrit...: (On remarquera par exemple que chômage, Sarko y connaît pas...)

- Est-ce un déni, un refus ou une projection :p !i?i

"Le premier prône la «rupture», le second le «sursaut»... Sarkozy-Villepin : les deux France"

- Les deux Frances : Construction (Rompre c'est se délester pour s'élever) ou Emotion (Sursaut moi ça me fait penser à Surprise et à Peur)

lou
amalblog.com ;); 10 mars, 2006 11:08
Anonyme a écrit...: j'aime bien le commentaire et le travail d'analyse de sic transi : "LE POUVOIR VA AGIR POUR LA SECURITE DES FRANCAIS"...

mais j'aime aussi la formule mathématique insidieuse qui ressort du nuage de jean : "FRANCE = DELINQUANCE POLITIQUE"

pardon :-); 03 janvier, 2007 22:03
Anonyme a écrit...: La comparaison Ségo-Sarko grâce aux nuages de mots est précieuse. Outil puissant!; 05 janvier, 2007 13:29

Enregistrer un commentaire

vendredi, janvier 13, 2006

Récré: Sarkovoeux

Pas rancunier [cf. 1, 2, 3] le Sarko :

Bonjour,

Vous trouverez en pièce jointe une invitation de Nicolas SARKOZY à ses vœux.
Pour accéder à la salle, merci de me confirmer votre présence par téléphone.
Restant à votre entière disposition,

Véronique Waché
Attachée de presse
Union pour un Mouvement Populaire
Tél : 01.40.76.61.57
Fax : 01.40.76.62.77

Et la santé, surtout !

Post-scriptum

Sarko, c'est un peu comme Google: que ce soit en bien ou en mal, je crois qu'il est content quand on parle de lui:

Post-post-scriptum

Pour ceux qui se demandent (Alphoenix)... Je n'y suis pas allé (pourtant j'étais à Paris) : il y avait déjà assez de clowns.

Quant à ce qu'il a dit, eh bien c'est là.

10 Commentaires:

Anonyme a écrit...: On voit qu'il a bien compris la force des blogs. Après son "interview" par Loïc Le Meur, voilà qu'ils les invitent à une conférence de presse. Il faut aussi compter l'opération de comm' du ministre de la Culture, dans laquelle je verrais bien la trace de Sarkozy.; 13 janvier, 2006 14:06
Daniel a écrit...: Sarkozy ici, Sarkozy là, Sarkozy à droite, Sarkozy à gauche, Sarkozy podcasté, Sarkozy interviewé, .....

Cela peut paraître agaçant. Mais il ne faut pas s’y tromper, c’est le programme de Sarko : « Que vous soyez d’accord ou non avec moi, vous parlerez de moi ! »

Et, en parlant de lui, sur nos blogs ou ailleurs, nous servons les desseins de l’homme politique qui joue le mieux avec les média ; et nous ne nous en rendons à peine compte. Ce type est d’une adresse étonnante !; 13 janvier, 2006 21:38
Anonyme a écrit...: Le plus important c'est peut-être de savoir si vous y êtes allé, ce qu'il a dit. Je ne sais pas pourquoi il vous a invité. Il veut peut-être que vous lui trouviez un moyen plus discret que les Adwords pour sa com' sur Google, ou alors il aimerait que vous lui publiiez ceci:
http://www.up.univ-mrs.fr/cgi-veronis/chronologue?mot1=chirac&mot2=sarkozy&mot3=villepin&mot4=&mot5=&mot6=&Soumettre=Soumettre
en format énorme sur papier glacé.; 14 janvier, 2006 10:31
Anonyme a écrit...: Eh bien, quelle aigreur dans le commentaire...

Qualifier de clown les gens qui s'y sont rendus ne vous fait pas particulièrement honneur.

J'ai du mal à comprendre ce qui étonne encore certains dans le fait qu'un futur candidat à la présidence de la République s'assure que ses discours soient relayés le plus possible (chacun étant d'ailleurs libre de ne pas en parler, ou d'en dire le plus grand mal s'il le souhaite).; 14 janvier, 2006 14:19
Anonyme a écrit...: A la réflexion, j'ai peut-être mal compris ce que vous disiez, s'il s'agissait d'autodérision.; 14 janvier, 2006 14:49
Jean Véronis a écrit...: Koz> En effet, je ne pensais pas aux bloggueurs: je comprends tout à fait leur curiosité. Je me voyais plutôt en train de faire le clown avec les vrais (voir photo). Je trouve ça marrant (et gonflé), et c'est le genre de connerie que j'ai pu faire il y a un bon paquet d'années. Et je trouve très gonflé aussi que Sarkozy invite non seulement ses sympathisants mais aussi des gens qui ne sont pas forcément d'accord avec lui (du moins pas sur tout).; 14 janvier, 2006 15:12
Anonyme a écrit...: That was a great picture.
THanks for sharing:)
Anna; 26 janvier, 2006 08:05
weight loss pills a écrit...: On voit qu'il a bien compris la force des blogs. Après son "interview" par Loïc Le Meur, voilà qu'ils les invitent à une conférence de presse. Il faut aussi compter l'opération de comm' du ministre de la Culture, dans laquelle je verrais bien la trace de Sarkozy.; 30 juillet, 2009 17:21
Anonyme a écrit...: Koz> En effet, je ne pensais pas aux bloggueurs: je comprends tout à fait leur curiosité. Je me voyais plutôt en train de faire le clown avec les vrais (voir photo). Je trouve ça marrant (et gonflé), et c'est le genre de connerie que j'ai pu faire il y a un bon paquet d'années. Et je trouve très gonflé aussi que Sarkozy invite non seulement ses sympathisants mais aussi des gens qui ne sont pas forcément d'accord avec lui (du moins pas sur tout).
Sam Mathews; 18 juin, 2012 12:55
Anonyme a écrit...: Sarkozy ici, Sarkozy là, Sarkozy à droite, Sarkozy à gauche, Sarkozy podcasté, Sarkozy interviewé, .....

Cela peut paraître agaçant. Mais il ne faut pas s’y tromper, c’est le programme de Sarko : « Que vous soyez d’accord ou non avec moi, vous parlerez de moi ! »

Et, en parlant de lui, sur nos blogs ou ailleurs, nous servons les desseins de l’homme politique qui joue le mieux avec les média ; et nous ne nous en rendons à peine compte. Ce type est d’une adresse étonnante !

Sam Mathews:; 18 juin, 2012 12:57

Enregistrer un commentaire

mercredi, janvier 11, 2006

Translation: Systran or Reverso?

[ French version - Version française ]

Linguists consider it a matter of faith to poke fun at machine translations. It is true that they often provide us with a veritable anthology of badly-constructed sentences and meaningless phrases that can border on the surreal. But the earliest research in machine translation dates from the beginning of the 1950s: more than half a century of effort has not been enough for us to succeed in cracking the code. A sign of the inherent difficulties of language, perhaps? In the same period of time, we have managed to decipher the human genome (the discovery of the double helix structure of DNA in 1953 dates from around the same time as the early days of machine translation)...

Still, progress is being made – too slowly for my liking, of course, but we mustn’t be unfair. If machine translation cannot compete with a human translator (even a bad one!), that doesn’t necessarily mean that it is completely without interest. Here’s a little experiment that I give to my students each year in my introductory course to Automatic Language Processing. Let’s take one of the day’s top stories in a Greek newspaper, Kathimerini:

Δύο νέα κρούσματα στην Τουρκία του θανατηφόρου ιού της γρίπης των πτηνών
Ο Παγκόσμιος Οργανισμός Υγείας ανακοίνωσε σήμερα στη Γενεύη ότι δυο παιδιά που νοσηλεύονται στην Τουρκία έχουν προσβληθεί από το θανατηφόρο στέλεχος Η5Ν1 του ιού της γρίπης των πτηνών.

Εκπρόσωπος του Οργανισμού δήλωσε ότι τα παιδιά, ηλικίας 5 και 8 ετών, προέρχονται από την ίδια περιοχή με τα τρία αδέλφια που πέθαναν από τη γρίπη των πτηνών αυτήν την εβδομάδα.

Σημειώνεται πως 32 άτομα νοσηλεύονται σε νοσοκομείο της πόλης Βαν με ύποπτα συμπτώματα, ενώ τουλάχιστον πέντε περιοχές της ανατολικής Τουρκίας έχουν τεθεί σε καραντίνα.

[original]

Probably doesn’t mean a lot to you, does it? I always deliberately chose a language that few people are likely to know. Greek is perfect because we can’t even hazard a guess at what the text is about from the form of the words (whereas we can decipher English, Spanish or German even if we don’t speak the language). Chinese or Japanese would also make good candidates!

Let’s compare this with the version translated by Babelfish:

Two new cases in Turkey of leathal virus of flu of birds

The World Organism of Health announced today in Geneva that two children that nosiley'ontaj in Turkey they have been offended by leathal executive I5N1 of virus of flu of birds.

Representative of Organism declared that the children, age 5 and 8 years, emanate from the same region with the three brothers that died from the flu of birds this week.

It is marked that 32 individuals nosiley'ontaj in hospital of city Van with suspect symptoms, while at least five regions of Eastern Turkey have been placed in quarantine.

This translation is a perfect example of the state of the art in the field. We can understand the general subject matter (bird flu in Turkey), and we can even list the main facts: two children aged 5 and 8 have died from bird flu in Turkey, 32 people have been hospitalised with suspicious symptoms, five regions are under quarantine, etc. Some of the errors are stupid: H5N1 is translated as I5N1, νοσηλεύονται (hospitalised, cured) is missing from the dictionary. Things could easily be improved.

On no account should such translations be used as final documents, and I’m always stunned when students (or colleagues!) proudly announce how they have had their résumé machine translated for a conference! But machine translation has reached the point where it can now legitimately be used as a tool for deciphering a text, a way of quickly getting to know the subject matter and general content of pages in foreign languages, for those situations where paying a translator would be inconceivable. It is used, for instance, in economic monitoring, and can be prove useful for ordinary web surfers as well: although by far the majority of documents on the web are written in English, less than 30% of web surfers are English-speakers (according to a study carried out by Byte Level), and this proportion is falling all the time.

It comes as no surprise, then, that most search engines offer the option of translating any pages returned. But with such a considerable potential market, it is quite surprising to see that the offer is so limited: Google and Yahoo both use the same technology, the Systran system, which is also behind Babelfish (Altavista). At first, French search engine Voila used Reverso by Softissimo, before finally opting for Systran as well … Portals like AOL and Wanadoo also offer Systran. Indeed, Systran has Internet operators to thank for the lion’s share of its turnover.

In the midst of such widespread systrannisation, Ask Jeeves recently made the surprising announcement that it is to associate with Reverso [via DSI (fr)], which is also available on the search engine’s French beta version.

Is this a bad choice? In order to find out, we asked 58 students from the first year of our degree course to look into the question. Our project consisted of having students translate a text of their choice, of at least 500 words in length, from their second language into their mother tongue (in order to enable them to correctly judge the quality of the end result), using both Reverso and Systran (on the Babelfish site). Each student then had to deliver a detailed report on the errors and their probable causes (word missing from dictionary, etc); don’t worry, I’ll spare you the details. The final question asked each student to choose whether it was Reverso or Systran that provided the most readable translation.

The results are quite categorical:

Source	Target	Reverso	Systran
German	French	2	0
English	French	15	5
Italian	French	8	1
Spanish	French	20	6
French	English	0	1
Total		45	13

For all the languages studied, the choice was clear - Reverso.

So... could this be a smart move on the part of Ask Jeeves? In any case, Systran, who has fallen out with its traditional “cash cow” the European Commission [see Le Monde, Systran (fr)] will have to buck its ideas up if it is to survive in the pitiless world of the Internet operators.

Thanks Estelle for going through the study.

8 Commentaires:

Justin a écrit...: All but the last example target French. I would like to know if a translator works better in one direction than in another. For example, is it possible that Reverso makes more readable translations into french while another translator does a better job targeting English?; 16 janvier, 2006 09:57
Anonyme a écrit...: For a full set of independently written case studies, tips, hints, tricks, and comparison reports concerning both the Reverso (PROMT-based) and SYSTRAN machine translation software packages, please refer to:

The Language Software Evaluation/Review site:
http://www.geocities.com/langtecheval/

The MT Tips site:
http://www.geocities.com/jeffallenpubs/MT-tips.htm

MT Forum
http://www.translators.com
Menu bar: Community > Discussion Forums
Go to Machine Translation Forum

MT user forums on Yahoo Groups
http://groups.yahoo.com/group/Reverso_users/
http://groups.yahoo.com/group/SYSTRAN_users/
http://groups.yahoo.com/group/PROMT_users/

Jeff Allen; 17 janvier, 2006 22:03
Justin a écrit...: Actually, I was only wondering in general. One might think that a translator would do equally well in either direction at least on the lexical level. That is to say if the translator lacks a word on either side it may as well lack it for both. I see no reason however why a translator couldn't be unbalanced semantically and syntactically. (Not that one can really extract any of these categories.); 18 janvier, 2006 12:25
Jean Véronis a écrit...: Apologies to all of you. I'm pretty far behind in my responses (I've been very buzy with the clouds).

Justin, Jeff> My study involved mostly French as a target for obvious reasons of student availability. I have no emprical grounds to assess any kind of symmetry of asymetry in MT systems. One would have to run the expriment in the reverse direction, which I haven't done. however, knowing a little bit about MT and NL systmes in general, I suspect that there are many reasons why we could have asymetry. One of the reasons is that most language-translation pairs in most systems involve English. Therefore the lexicons, compound detection, grammatical rules, etc. are likely to be better for English. My intuition would be that the general trend is a better analysis when English is the source and a better generation with English is the target. Is this true? how do the two factors combine in practice? I have no means to know without running extensive tests.; 18 janvier, 2006 13:25
Justin a écrit...: Thank you, Jeff.; 23 janvier, 2006 09:32
Unknown a écrit...: Hello Gentlmen,

Sorry for breaking in that late - this discussion just got indexed by my Google News tracker.

Just wanted to let you know both Voila (tr.voila.fr) and Orange (traduction.orange.fr) are now using original Promt translation service, so the landscape is becoming a little bit more diversified - at least in France.

Regards,
Nikolay Vasiliev; 28 août, 2007 20:34
language translation a écrit...: Interesting post. Its true that machine translation are increasingly becoming more effective but need to start interpreting idioms and understanding cultural context of text before it could truly replace human translation.; 26 septembre, 2009 19:39
Unknown a écrit...: Hi Language Translation:

But it is possible to handle idioms and stylistic expressions with various MT software programs. I do it all the time. The objective is to use the MT software as an assistance tool the human translator. As for cultural aspects, it is possible to handle localization variants within such tools, with varying levels of usability. I have worked in real translation production projects with 30+ versions of MT software (and 2 brand new ones received recently to start trying out), and having used MT to translate a very wide range of topics, domains and document types.
see: http://www.proz.com/post/1268576#1268576

Many people write in forums that MT should/could/would not work, but those words all clearly indicate to me that those people have never really tried it, or they tried with a free online translator rather than a professional or expert deskstop system designed for the purpose.
Would you try and use a 1 or 3 speed bicycle to do the Tour de France. Of course not, you need a 27-speed bike is more appropriate.

I always write can/does/makes in my statements about MT, because I do use it and write case studies about my implementations.

Jeff; 31 janvier, 2010 05:21

Enregistrer un commentaire

dimanche, janvier 08, 2006

Traduction: Systran ou Reverso?

[ Version anglaise - English version ]

Il est de bon ton chez les linguistes de se moquer des traducteurs automatiques. Il est vrai qu'ils nous offrent parfois un florilège de phrases mal construites et de contresens qui frisent le surréalisme. Pourtant les premières recherches en traduction automatique remontent au tout début des années 1950: plus d'un demi-siècle d'efforts n'ont pas réussi à casser le code. Incroyable difficulté du langage! Dans le même temps on aura réussi à décrypter le génome humain (la découverte de la structure en double hélice de l'ADN en 1953 est contemporaine des débuts de la traduction automatique)...

Pour autant, les choses progressent -- trop lentement, bien sûr, à mon goût, mais il ne faut pas être injuste. Si la traduction automatique ne peut absolument pas rivaliser avec un traducteur humain (même mauvais!), cela ne veut pas dire qu'elle soit totalement dénuée d'intérêt. Voici une petite expérience que je soumets chaque année à mes étudiants dans mon cours d'introduction aux Technologies du Langage. Prenons une des nouvelles du jour sur un journal grec, Kathimerini:

Δύο νέα κρούσματα στην Τουρκία του θανατηφόρου ιού της γρίπης των πτηνών
Ο Παγκόσμιος Οργανισμός Υγείας ανακοίνωσε σήμερα στη Γενεύη ότι δυο παιδιά που νοσηλεύονται στην Τουρκία έχουν προσβληθεί από το θανατηφόρο στέλεχος Η5Ν1 του ιού της γρίπης των πτηνών.

Εκπρόσωπος του Οργανισμού δήλωσε ότι τα παιδιά, ηλικίας 5 και 8 ετών, προέρχονται από την ίδια περιοχή με τα τρία αδέλφια που πέθαναν από τη γρίπη των πτηνών αυτήν την εβδομάδα.

Σημειώνεται πως 32 άτομα νοσηλεύονται σε νοσοκομείο της πόλης Βαν με ύποπτα συμπτώματα, ενώ τουλάχιστον πέντε περιοχές της ανατολικής Τουρκίας έχουν τεθεί σε καραντίνα.

[original]

Cela ne vous dit probablement pas grand chose... Je prends toujours volontairement une langue que peu de gens connaissent. Le grec est idéal parce qu'on ne peut même pas deviner de quoi il s'agit d'après la forme des mots (alors qu'on peut déchiffrer de l'anglais, de l'espagnol ou de l'allemand même si on ne connaît pas ces langues). Le chinois ou le japonais seraient aussi de bons candidats!

Comparons maintenant avec la version traduite par Babelfish:

Deux nouveaux cas en Turquie du virus mortel de la grippe des oiseaux

L'organisme mondial de santé a communiqué aujourd'hui à Genève que deux enfants qui nosiley'ontaj en Turquie ils ont été attaqués par le cadre I5N1 mortel du virus de la grippe des oiseaux.

Représentant de l'organisme a déclaré que les enfants, de l'âge 5 et de 8 années, proviennent de la même région que les trois frères qui sont morts de la grippe des oiseaux cette la semaine.

Il est marqué que 32 individus nosiley'ontaj à hôpital de la ville Van grâce à des symptômes suspects, tandis qu'au moins cinq régions de la Turquie orientale ont été posées à quarantaine.

Cette traduction reflète parfaitement l'état de l'art dans le domaine: on comprend le thème général (la grippe aviaire en Turquie), et l'on peut même lister les faits principaux: deux enfants de 5 et 8 ans sont morts de la grippe aviaire en Turquie, 32 individus ont été hospitalisés avec des symptomes suspects, cinq régions sont en quarantaine, etc. Certaines des erreurs sont stupides: H5N1 est traduit par I5N1, νοσηλεύονται (hospitalisés) est absent du dictionnaire. On pourrait améliorer les choses à peu de frais.

Il est hors de question d'utiliser de telles traductions comme documents finaux, et je suis toujours très perplexe quand des étudiants (ou collègues!) m'annoncent fièrement qu'ils ont traduit automatiquement leur résumé en anglais pour une conférence! Mais la traduction automatique a passé le cap qui lui permet d'être un véritable outil de déchiffrage, utile pour prendre connaissance rapidement du thème et du contenu global de pages en langues étrangères, dans des situations où il serait inconcevable de payer un traducteur. C'est la cas par exemple des spécialistes de veille économique, mais aussi de l'internaute lambda: alors que la grande majorité des documents du web sont écrits en anglais, moins de 30% des internautes sont anglophones (voir étude de Byte Level), et cette proportion ne cesse de décroître.

Il n'est donc pas étonnant que la plupart des moteurs de recherche offrent une fonction permettant de traduire les pages retournées. Mais dans un contexte où le marché potentiel est aussi considérable, il est par contre surprenant de voir à quel point l'offre est limitée: Google et Yahoo utilisent la même technologie, le système Systran, qui est aussi derrière Babelfish (Altavista). Le moteur français Voila utilisait au départ Reverso de Softissimo, mais s'est finalement mis aussi à Systran... Les portails comme AOL et Wanadoo le proposent aussi. Systran fait d'ailleurs désormais la plus grande partie de son chiffre d'affaire avec les opérateurs internet.

Dans ce contexte de systrannisation, Ask Jeeves surprend, puisque la firme a annoncé récemment son association avec Reverso [via DSI], disponible aussi sur la version beta francophone du moteur.

Alors, mauvais choix? Pour en avoir le coeur net, nous avons demandé à 58 étudiants de première année de licence d'étudier la question. Le projet consistait à traduire un texte de leur choix, d'au moins 500 mots, de leur langue seconde vers leur langue maternelle (de façon à pouvoir juger correctement du résultat), à l'aide à la fois de Reverso et de Systran (site Babelfish). Chaque étudiant devait faire une étude détaillée des erreurs et de leurs causes probables (mot absent du dictionnaire, etc.); je vous passe les détails. La dernière question demandait à chacun de choisir parmi Reverso et Systran quel était le système qui fournissait la traduction la plus lisible.

Les résultats sont sans appel:

Source	Cible	Reverso	Systran
Allemand	Français	2	0
Anglais	Français	15	5
Italien	Français	8	1
Espagnol	Français	20	6
Français	Anglais	0	1
Total		45	13

Quelle que soit la langue, la préférence va massivement à Reverso.

Alors... Ask Jeeves aurait-il eu du flair? En tous cas, Systran, qui est en désamour avec sa "vache à lait" historique, la Commission Européenne [voir Le Monde, Systran], a sans doute intérêt à serrer quelques boulons pour survivre dans le monde plus impitoyable des opérateurs internet.

Merci à Estelle pour le dépouillement de l'enquête!

46 Commentaires:

Anonyme a écrit...: les intellectuels ont choisis aussi

http://nouvelobs.reverso.net/textonly/default.asp; 08 janvier, 2006 17:46
Denis a écrit...: Le lien pour le site Internet international de Systran est systransoft.com et non systran.com ;-)

L'avantage que Systran a sur Reverso est d'être capable de traduire entre plus de langues. Par exemple : en plus de l'anglais vers et depuis l'allemand, l'italien, le français ou l'espagnol comme Reverso, Systran peut traduire vers et depuis le chinois, l'arabe, le néerlandais, le russe, le coréen, le japonais, le portugais et le suédois.; 08 janvier, 2006 18:33
Jean Véronis a écrit...: Anonymous> NouvelObs -- merci pour le lien, je n'avais pas remarqué.; 08 janvier, 2006 18:35
Jean Véronis a écrit...: Denis> lien -- merci: en fait je voulais mettre systran;fr, mais mon doit a fourché!

plus de langues -- tout à fait vrai (le grec en particulier, n'est pas sur Reverso).; 08 janvier, 2006 18:38
Denis a écrit...: Avec le nombre d'étudiants que vous avez ce serait intéressant de demander à certains groupes de traduire chacun un même texte, et de calculer le score BLEU ou NIST des deux traducteurs automatiques pour celui-ci.; 08 janvier, 2006 19:01
all a écrit...: νοσηλεύονται = hospitalisés ; vous êtes sur ?

Hôpital se dit nosokoméïo (comme dans maladies nosocomiales); 08 janvier, 2006 19:23
Anonyme a écrit...: Si les traductions proposées par Systran de l'allemand vers le français sont effectivement si nulles qu'on peine souvent à dégager même le sens général du texte, par contre, il fait un excellent travail dans le sens français --> allemand, peu de retouches sont nécessaires pour parvenir à un texte qui, aux dires de mes nombreux correspondants allemands, est parfaitement compréhensible.; 08 janvier, 2006 19:47
Anonyme a écrit...: Pour digresser un peu sur le sujet de la traduction, humaine cette fois-ci, et des moteurs de recherche : ces derniers se révèlent aussi de précieux outils pour obtenir la "bonne" traduction d'une tournure en langue étrangère. Lorsque j'hésite sur une construction idiomatique en anglais, ou en allemand, je la tape entre guillemets dans Google, sous une ou plusieurs formes, et je compare les résultats : nombre de pages renvoyées, contexte dans lesquels le mot ou l'expression est employé.; 08 janvier, 2006 19:59
Jean Véronis a écrit...: Denis> BLEU et NIST -- excellente suggestion!; 08 janvier, 2006 20:05
Jean Véronis a écrit...: All> hôpital -- absolument, c'est νοσοκομείο.

νοσηλευτής c'est l'infirmier... je ne crois pas qu'on ait un verbe exactement correspondant (admettre en soins?).; 08 janvier, 2006 20:17
TOMHTML a écrit...: Le meilleur traducteur, peut être existera-t-il dans le futur, serait celui qui traduirait un texte de la langue A vers la langue B, puis le résultat serait traduit de la langue B vers la langue A pour donner EXACTEMENT le texte d'origine (la traduction par des mots synonymes importe peu, tant que la structure de la phrase et son sens reste).

exemple avec le traducteur de google :
texte :
Jean Véronis est un excellent professeur, et il rédige de bons articles qui font le bonheur de ses lecteurs.
le même texte traduit en anglais, puis le résultat traduit en français donne (presque) EXACTEMENT le même texte.
Par contre quand on passe par l'allemand ça devient
Jean Véronis est un professeur remarquable, et il écrit les bons articles qui font la chance de ses lecteurs.
ça change un peu le sens, mais on comprend encore.
idem en passant par le portugais
Jean Véronis est un excellent enseignant, et écrit de bons articles qui font le bonheur de leurs lecteurs.

en commençant ce commentaire j'étais persuadé que les résultats allaient être très loin de la réalité, j'en suis le premier surpris
Comme quoi, c'est pas si pourri que ça les traducteurs automatique ;); 08 janvier, 2006 20:31
Anonyme a écrit...: Pascal Grouselle> C'est une technique que j'utilise moi aussi très souvent pour vérifier des tournures étrangères. Et même françaises! : c'est souvent bien plus rapide que de consulter le Grand Robert, qui est pourtant actif en résident sur mon pc!; 08 janvier, 2006 20:32
Anonyme a écrit...: Il est exact que Reverso a une longueur d'avance sur Systran.
Petit exemple d'une simple traduction du français vers l'anglais:
Julie mange des avocats.
Reverso: Julia eats lawyers(avocados).
Systran 5: Julia eats lawyers.
Notre pauvre Julie risque une fameuse indigestion sauf à choisir des "avocados.; 08 janvier, 2006 22:10
Anonyme a écrit...: Il m’arrive de poster quelques photos sur un site anglophone. Il s’agissait en l’occurrence d’un panorama. Je ne résiste pas à l’envie de vous donner la traduction d’un commentaire que j’ai reçu :

“Brilliant pan. One of the best "WOWs" I've had for ages, good one!”

Traduit par WorldLingo:

« Casserole brillante. Un des meilleurs "défauts de la reproduction sonore" que j'ai pris pour des âges, le bon ! »

Sans autre commentaire…; 08 janvier, 2006 23:40
Anonyme a écrit...: Google développe son propre outil de traduction, qui semble prometteur puisqu'il a emporté un récent concours, loin devant Systran pour les langues où les deux participaient (Arabe -> Anglais et Chinois -> Anglais).

Bien sûr cela ne veut pas dire que le système de Google est prêt pour fonctionner à grande échelle. La qualité du résultat peut varier considérablement en fonction du temps machine disponible.; 09 janvier, 2006 01:01
Anonyme a écrit...: Richard, comment as-tu trouvé ces résultats? Avec la version en ligne de Reverso (http://www.reverso.net/), il ne propose pas avocados...; 09 janvier, 2006 09:49
Anonyme a écrit...: Bonjour. Vous faites un intéressant parallèle entre le développement de la traduction automatique et de la biologie moléculaire. Historiquement, ça se tient, mais conceptuellement, c'est très différent.

Le séquençage des génomes, c'est une technique très linéraire : il suffit de lire une longue séquence très simple, puisque constituée seulement de quatre paires de bases (agtcggcg...). La conséquence de cette simplicité, c'est qu'un génome, même de trois milliards de paires de bases, est très facile à numériser, à quantifier, et à manipuler par ordinateur. Par exemple, le génome humain tient plus ou moins sur un CD-Rom sans compression (3.10^9 x 2 bits). Il y a des milliers de sites qui permettent de faire des comparaisons de séquence, de la recherche de gènes, de la traduction de gènes en protéines, etc. En fait, c'est presque trivial, tellement c'est bien adapté au fonctionnement d'un ordinateur, qui n'est à la base qu'une machine à manipuler des chiffres.

La traduction automatique, par contre, c'est une autre paire de manches, et je ne vous apprend sans doute rien. Je vais répéter une partie du commentaire que j'ai fait sur Embruns, mais pour traduire un texte, il faut tenir compte d'un nombre considérable de variables toutes liées, et qui ne sont pas quantifiables, donc très difficiles à gérer pour un ordinateur, par exemple : le sens explicite ou implicite des mots, le style d'écriture, les connotations, le contexte, la culture, la grammaire, le niveau de langage, etc. Le cerveau humain est une très mauvaise machine pour le calcul, mais pour ce genre d'associations cognitives immédiates, il est imbattable. Pour reprendre un exemple ci-dessus, il est évident pour nous que quand un anglophone écrit "pan" sur un site de photos, il parle de panoramique, et pas de casserole. Qu'un fan-club n'a rien à voir avec un ventilateur. Qu'un avocat dans une phrase représente un fruit ou une personne (et encore, ce n'est pas forcément lié au verbe qui le précède, on pourrait imaginer quelque chose du genre "Au cours de sa plaidoirie, le procureur a dévoré tout cru cet avocat impertinent"). On sait différencier le sens des deux mots identiques dans une phrase comme "les poules du couvent couvent".

En résumé, je dirais que la traduction automatique est conceptuellement très liée non pas à la biologie moléculaire, mais à la neurobiologie. Savoir comment fonctionne le cerveau. Qui est aussi une science qui progresse très lentement, parce que circulaire : le seul outil que l'on a pour comprendre le fonctionnement du cerveau humain, ce sont nos cerveaux humains. D'ailleurs, je dirais que la traduction automatique est un des exemples les plus avancés de ce que l'on appelle "l'intelligence artificielle". On fantasme là-dessus depuis les années 50 aussi, la cybernétique, les robots, mais même aujourd'hui, les robots de conversation (il y en a en démo sur le net) sont très très mauvais, et ne passent quasiment jamais le test de Turing.

C'est pour cela que, malgré les bonnes rigolades que procurent souvent les traducteurs automatiques, j'admire fortement les gens qui se lancent dans de tels projets très complexes, et je trouve que ces logiciels commencent réellement aujourd'hui à devenir intéressants et surtout utilisables, malgré le fait que leur fonctionnement n'est pas du tout adapté à la mécanique interne d'un ordinateur. Comprendre le sens d'un texte en grec ou en japonais, je trouve ça complètement fascinant et presque incroyable, à côté de cette prouesse, les petites erreurs sont vraiment peu importantes.

Euh, j'ai été un peu long je crois. Désolé :); 09 janvier, 2006 11:33
Anonyme a écrit...: Le projet 'Rosetta Stone' de Google semble effectivement etre un des futurs produits majeurs de ce marche.
A lire l'article sur ce nouveau Google Translator : http://blog.outer-court.com/archive/2005-05-22-n83.html

Il faut savoir que celui ci repose sur un systeme type 'pierre de rosette' (comme le suggere son titre), utilisant
un enorme corpus de documents traduits. Lesquels ?

"Google relies on a large corpus of texts which are available in multiple languages."

Devinez.. :); 09 janvier, 2006 11:37
Anonyme a écrit...: allez, je donne la solution, disponible sur cet article (entres autres) "Will Google Kill the Translation Industry" :
http://www.corante.com/goingglobal/archives/2005/05/28/will_google_kill_the_translation_industry.php

"Google used the United Nations Documents to train their machine, and all in fed 200 billion words. This is brute force AI, if you want – it works on statistical learning theory only and has not much real “understanding” of anything but patterns."

Je ne sais pas s'il est tres juste qu'une societe commerciale reutilise le travail collossal des traducteurs des Nations Unies.
Disons que ca me choque un peu.; 09 janvier, 2006 11:49
Anonyme a écrit...: Je ne connais aucun des deux traducteurs automatiques. Mais je remarque que la seule traduction vers l'anglais donne l'avantage a Systran. Effet d'une statistique trop faible ou bien Systran est-il meilleur dans un sens que dans l'autre (ce qui ne serait pas inconcevable : cela permettrait a tous les internautes anglophones, une cible riche et nombreuse, d'acceder a quasi l'ensemble des textes publies sur le web) ?; 09 janvier, 2006 15:00
Loran a écrit...: Bonjour,
ce n'est pas vraiment dans le sujet (pertinence de la traduction), mais ce traducteur tres 2.0 ( ;o) ) fait de la traduction à la volée, c'est (techniquement) impressionnant.
http://ajax.parish.ath.cx/translator/

Bonne journée.; 09 janvier, 2006 16:25
Marianne a écrit...: Merci pour le tuyau ! Je crois que je vais passer quelques jours sur reverso pour voir ce que ça donne !
Ce que je trouve un peu dommage chez Systran, c'est que la présentation du résultat est uniquement centrée sur le texte en langue cible. Pour un traducteur qui l'utilise pour du déchiffrage, il serait plus pratique que les deux langues soient montrées en parallèle (droite / gauche). Enfin, je crois qu'on peut brancher systran sur trados, mais à ma connaissance ce n'est pas très utilisé.; 10 janvier, 2006 09:15
Jean Véronis a écrit...: Merci pour tous ces commentaires excellents! J'ai fait cours hier après midi et du coup je suis dépassé...

Pascal Grouselle> Lorsque j'hésite sur une construction idiomatique en anglais, ou en allemand, je la tape entre guillemets dans Google -- oui, je fais ça aussi. C'est souvent plus efficace qu'un dictionnaire, parce qu'on a accès au contexte. nous sommes même en train de faire une expérience avec une de mes étudiantes pour essayer de voir comment utiiliser le web pour générer des traduction d'expressions qui ne sont pas dans les dicos. J'en reparlerai peut-être si ça donne de bons résultats...; 10 janvier, 2006 10:37
Jean Véronis a écrit...: TomHtml> Oui, les traducteurs sont loins d'être parfaits, mais ils sont beaucoup plus stables. Je me servais de votre système (traduire de la langue A vers la langue B puis vers la langue C puis vers la langue A à nouveau) pour amuser les étudiants il y a quelques années: on avait ainsi à peu de frais un générateur de poésie surréaliste. Mais c'est beaucoup moins spectaculaire ces temps-ci...; 10 janvier, 2006 10:39
Anonyme a écrit...: Suite à un post de guillermito, qui m'a interpellé, cela m'a fait repenser à quelque chose qui est en cours de développement et qui pourra d'ici quelques années je suppose aider dans pas mal de domaines comme celui mentionné dans cet excellent billet. En effet lors d'une discussion avec un prof de méthodes numériques l'année passé, après avoir vu comment fonctionnait l'ordinateur et du binaire entre autres, il m'a parlé de recherches qui utilisaient des nombres générés aléatoirement comme langage, ces nombres permettant une rapidité et flexibilité dans les caculs très prometteurs (plus rapides, plus grandes capacités). Et justement je suppose quesi un tel système se développait, il est fort à parier que cela permmettrait de faire exécuter à l'ordinateur des choses plus "humaines", puisque celui-ci ne serait plus formaté dans un langage basique, mais plutôt aléatoirement contrôlé. Bref cela pourrait donner des résultats passionants ce y compris dans les domaine cités ici.
Mais pour en revenir plus au sujet, je me demandais si il existait un traducteur automatique du latin vers le français? Cela me semblerait beaucoup plus concevable, le latin proposant une structure beaucoup plus à même d'être interprêté "mécaniquement" (cela dépendant cependant des auteurs, car je vois mal comment appliquer cela pour Lucrèce et ses textes sur l'atomitisque qui me semblent bien compliqué même pour un latiniste émérite).
Et peut-être même pour d'autres langues anciennes (mas là je m'avance car je ne connais pas leurs constructions grammaticales)?

Ps: à propos des robots de discussion, en existent-ils en démo sur le net qui ont pu passé le test de Turing (si cela existe)?
PPs: j'en ai déjà testé des mauvais et le truc pour les confondre c'est de leurs dire "je parle Français".... "Quelle est la langue que j'emploie?" Les réponses sont surprenantes ;); 11 janvier, 2006 20:59
Anonyme a écrit...: En ce qui concerne la performance des traducteurs automatiques, il ne faut pas seulement voir lea qualité de traduction d'un texte, mais aussi la nature du texte.
Si vous essayez de traduire une oeuvre qui est passée dans le domaine public (et deja traduite par des êtres humains), il y a de grandes chances pour que la traduction soit très bonne (même si ce n'est pas toujours le cas).
Par contre, si vous tentez la même expérience avec un livre on ne peut plus quelconque, vous avez des chances d'arriver sur une littérature d'un autre genre.
Personnellement, j'utilise parfois le traducteur systran pour traduire de l'anglais vers le francais (fainéantise, quand tu nous tiens) des textes techniques, et la plupart du temps, je suis agréablement surpris par la qualité de la traduction et par le vocabulaire employé (a par "the web" traduit par "la toile", même dans un texte a très forte connotation informatique)
En ce qui concerne le traducteur de google,si j'ai bonne mémoire, les tests ont été faits sur des textes de droit ou approchant. Ce qui biaise forcément les résultats, compte tenu que google ne s'est basé que sur ce genre de textes. Si on tentait la même expérience avec un autre style de texte, je ne serais pas étonné de voir apparaître un certain nombre de contre sens...; 12 janvier, 2006 13:38
Anonyme a écrit...: Suite à la remarque d'Hermes sur les techniques statistiques de Google, je me demandais si une des retombées collatérale du projet de Google Print visant à numériser un nombre considérable de livres, n'était pas de disposer d'une base la plus large possible de textes validés par ailleurs afin de les traiter automatiquement. On peut imaginer ainsi si on dispose de livres et de leurs traductions dans diverses langues pouvoir traduire des textes "à la manière de" tel ou tel auteur, ou de façon "littéraire" ou "technique".
En poussant plus loin l'idée, on pourrait même générer automatiquement le style d'un auteur sur n'importe quel texte de base, le réécrire comme Flaubert ou comme Houellebecq. Et pour pousser plus loin encore la SF, grâce à la reconnaissance de l'écriture graphique, générer de faux manuscrits..
Pour revenir sur terre, je crois que l'on n'a pas assez porté d'attention à l'importance pour ces firmes de disposer de corpus validés.; 12 janvier, 2006 17:28
Anonyme a écrit...: Je passe par un autre traducteur assez puissant et proposant pas mal de choix de langues

http://www.worldlingo.com/fr/products_services/computer_translation.html

Bravo pour votre blog, un plaisir; 27 janvier, 2006 22:36
Anonyme a écrit...: Les traducteurs persistent et signent : le cas signalé sur le forum de la plateforme pour professionnels de la traduction ProZ est en effet grave ... et hilarant :
Certaines personnes n'apprendront jamais que la traduction automatique ne donne rien... (fil de discussion initié le 16/02/2006); 17 février, 2006 10:56
Jean-François MASSERON a écrit...: Très intéressants ce blog et cette disccussion.

Je voudrais juste signaler qu'il existe une conférence de l'Université de tous les savoirs sur la question de la traduction automatique par Laurence Danlos. On peut l'écouter ici : http://www.canal-u.education.fr/canalu/chainev2/utls/programme/20_linguistique_et_informatique_la_traduction_automatique_/

On me demande souvent de mettre en forme du français traduit par des Japonais. Et j'ai recours à la traduction automatique pour gagner du temps et comprendre l'original quand le résultat est trop obscur.
A ma connaissance, on ne trouve pas de traducteur gratuit japonais-français sur le Net. Je viens, grâce a cette discussion, de découvrir que Worldlinguo propose cette option. Franchement, à éviter ! Voici ce qu'il me propose quand je lui donne un paragraphe en japonais extrait de la newsletter de Yahoo Japan que je viens de recevoir :

le "témoin appellent" et ainsi de suite, la terminologie politique qui avec des nouvelles est faite à l'oreille. "sachant ? intention ", étant entendu chez la personne, vous démuni pu avoir expliqué ? En outre, quant à la personne que nous voudrions connaître, si le membre du régime de l'extrémité locale a fait ce qui beaucoup d'espérance. Nouveau service

Je le soupçonne de traduire d'abord en anglais, puis de l'anglais au français, multipliant ainsi les ambiguités.

La meilleure solution, à partir du japonais, me semble être le traducteur proposé par Yahoo Japan. Il est ici : http://honyaku.yahoo.co.jp/

Il propose, dans les deux sens, japonais anglais, japonais chinois, japonais coréen.

Voici ce qu'il m'a donné pour le même texte :
A politics term to hear in "summons of a witness" news. Is what "an intention knowing" is asked by a person and was not able to explain not? 　In addition, there should be many people to want to know what a local Diet member does. etc...

A peine plus éclairant, certes, mais son avantage est de permettre de cliquer sur chaque mot japonais et d'avoir en surligné l'équivalent anglais. En cliquant deux fois, on ouvre une batterie de dictionnaires (japonais-japonais, japonais-anglais, angais-anglais).

Grâce à cette fonction, avec quelques rudiments de japonais et d'anglais, j'arrive à comprendre ceci :
On entend souvent dans les informations politiques le terme de "....". Vous ne connaisez pas cette expression et vous aimeriez certainement savoir de quoi il s'agit. Vous aimeriez également savoir... etc."

Encore une expérience avec Worldlinguo. J'ai tapé ceci en japonais : 'il fait beau aujourd'hui, hein. Qu'est-ce qu'on pourrait (/que vous pourriez) bien faire ? Aller se promener, faire des courses ? Qu'est-ce qui est le mieux (/que vous préférez) ?

Voici la traduction de Worldlinguo :
Il est rapide ! Ne pensez-vous pas ? aujourd'hui est bon survivent à. Il fera quelque chose, la marche ou faire des emplettes ? Le kana où l'un ou l'autre un est bon.

Et celle du traducteur Yahoo :
Good morning! It is a fine day today. Is it a walk or shopping what you will make it? Which is good?

J'ai été un peu long, gomen nasai (=excusez-moi) !

JFM; 02 mars, 2006 04:27
Anonyme a écrit...: Bravo, blog excessivement intéressant... Déjà que j'ai pa sle temps de faire mon travail, c'est mon patron qui va pas être content !!
Maintenant, je sais que Reverso est mieux !!
PS : Continuez comme ça ;-D; 28 avril, 2006 14:28
Anonyme a écrit...: Mais à ce que j'ai compris, Reverso Translator est destiné au grand public alors que Reverso Pro/Expert est destiné à ceux qui font un usage "intensif" d'une solution de traduction automatique (avec notamment la possibilité de créer ses propres dictionnaires pour améliorer la qualité de la traduction).; 05 septembre, 2006 16:46
Anonyme a écrit...: Ok, j'entend parler que de systran et de reverso, mais Promt n'est pas également un des leaders sur le marché? (www.translate.ru)
Je croyais que Reverso se basait souvent sur une plate-forme Promt justement.

Est ce parce qu'il ne sont pas présent sur le marché français qu'ils sont peu utilisés, ou est ce parce que le produit s'est fait distancé ?; 27 septembre, 2006 16:17
Anonyme a écrit...: Ce commentaire a été supprimé par un administrateur du blog.; 21 novembre, 2006 15:33
Jean Véronis a écrit...: Pascal L.> J'ai retiré votre commentaire. C'est très rare, je ne l'ai fait qu'une fois sur ce blog (quelqu'un avait pété un boulon).

Ce n'est pas de la censure. Votre message commence ainsi :

||Pensant que le moteur Reverso avait connu des améliorations
||depuis les versions Pro et Expert datées de 2001, j'ai décidé
||d'essayer Reverso Translator 10. Une très mauvaise idée,
||et une vraie déception à la clé !
||Car pour moi, les problèmes avec Reverso Translator 10 ont commencé
||dès l'installation qui, sur mon PC...

Et vous expliquez vos problèmes d'installation, la lenteur que vous remarquez dans le système, etc.

C'est très sain d'analyser un logiciel et d'en décrire les failles éventuelles, et vous semblez le faire de façon très précise.

Néanmoins, je suis pénalement responsable de ce blog, au titre de la loi sur la presse du 29 juillet 1881 (je ne me trompe pas de siècle). Et c'est moi qui devrai assumer les éventuelles poursuites juridiques de la société que vous mettez en cause.

Comme vous êtes anonyme vous ne risquez rien (et d'ailleurs, qui prouve que vous n'êtes pas un concurrent ?).

Donc je crois qu'il faut 1) lever votre anonymat 2) publier sur un site qui vous est propre.

Ce sera une façon d'assumer vos propos et votre analyse. Je les ai entendus (ou plutôt lus), mais je ne suis pas moi-même en mesure d'en assumer le bien-fondé, n'ayant pas pu effectuer les tests adéquats.

Tout ceci sans aucune amertume et aucune agressivité. Je suis heureux de compter des lecteurs comme vous !; 22 novembre, 2006 13:17
Anonyme a écrit...: Vous avez peut-être raison, il est vrai que ma présentation de Reverso Translator 10 pouvait parfaitement faire penser à un torpillage en règle organisé par un concurrent... Si j'ai choisi de ne pas révéler mon identité, c'était entre autres pour appuyer le fait qu'il s'agissait de l'opinion d'un utilisateur lambda mais aussi parce j'ai déjà fait l'objet de pressions (voire de menaces) pour avoir "osé dire" la vérité sur certains logiciels à une époque où j'étais journaliste-pigiste pour des magazines de micro-informatique. Le retrait de mon commentaire élimine de facto toute conséquence potentiellement fâcheuse comme celle-ci... Amicalement, Pascal L.; 22 novembre, 2006 18:05
Jean Véronis a écrit...: Merci de votre compréhension, Pascal.; 22 novembre, 2006 18:07
Anonyme a écrit...: Softissimo continue de commercialiser une version qui s'appelle Reverso Promt (en téléchargement notamment), mais aussi pour Intranet et qui offre les mêmes fonctionnalités que Reverso Pro. Softissimo offre gratuitement à ses utilisateurs enregistrés des dictionnaires complémentaires qui permettent une traduction plus précise. Les dictionnaires de spécialité téléchargeables en option permettent une adaptation encore meilleure à des domaines de spécialité.

Reverso Promt reste la référence pour les traductions de qualité. Un service gratuit Reverso.net permet de tester cela

Reverso Promt a été conçu par Softissimo en collaboration avec Promt et porte un copyright conjoint. Les spécifications linguistiques ont été faites par Softissimo et les dictionnaires, composant essentiel de l'outil portent le copyright Softissimo.

Reverso Translator est un produit grand public, qui offre un grand nombre de paires de langues, une fonction de prononciation naturelle, à un prix très abordable. La technologie sous-jacente pour le français-anglais notamment est différente de celle de Reverso Promt. Le produit a été vendu à des milliers d'exemplaires et correspond à son descriptif. Il n'y a eu quasiment aucune plainte ou demande de retour.

Pour le reste, vous pouvez regarder gratuitement les innovations de Softissimo sur www.reverso.net : dictionnaires bilingues en ligne, grammaire, et bientôt conjugaison ...; 07 mars, 2007 20:37
Anonyme a écrit...: Il est toujours intéressant de constater à quel point les usages et les opinions diffèrent sur les traducteurs en ligne. Surtout de la part de gens qui les utilisent peu mais qui en ont une approche ludique ou intellectuelle. J'utilise personnellement Systran 4 pour réaliser des rapports qui me sont malheureusement demandés en langue anglaise. J'ai donc, sur les 18 derniers mois, rédigé plusieurs centaines de pages avec l'assistance d'un traducteur logiciel. C'est vraiment au bout de plusieurs mois que j'ai pris l'habitude de faire des phrases simples assorties d'un vocabulaire personnel que j'ai progressivement injecté dans le logiciel qui est fait pour cela. Il s'agit donc bien d'un apprentissage mutuel, l'utilisateur se conformant à l'ergonomie du logiciel, et le logiciel intégrant progressivement les habitudes et le vocabulaire spécialisé de l'utilisateur. Les débats péremptoires sur la traduction en ligne que je lis régulièrement ne tiennent aucun compte des gains énormes de productivité que j'ai pu réaliser dans l'émission de ces rapports pour lesquelles je suis payé. Je n'ai eu aucune réflexion désagréable des destinataires du rapport. Il est bien entendu que la taduction qui est proposée est systématiquement corrigée tout en affinant parallèlement et systématiquement mon dictionnaire personnel. Ceci me fait penser, dans un tout autre domaine quoique, à la dictée vocale au moyen de laquelle je viens de rédiger ce petit texte en effectuant simplement quatre corrections à la main et qui, elle aussi, m'apporte des gains de productivités monumentaux sans lesquelles je passerai mes week-ends à cultiver la tendinite que j'ai acquise au bras droit à force de taper sur un clavier en dehors de mes heures de travail. Si nous étions assez malins pour partager les dictionnaires et collaborer à la mise en place de dictionnaire par domaines spécialisés, les traducteurs automatiques progresseraient à pas de géant. Je souhaite ainsi encourager tous ceux qui sont rebutés par les dissections intellectuelles des utilisateurs très occasionnels. L'important est dans la pratique.; 07 avril, 2007 20:14
Anonyme a écrit...: je trouve que parfois la tracduction n'est pas toujours approprié.; 20 mai, 2007 13:58
Anonyme a écrit...: Pour en revenir à la guerre Systran/ reverso, Free a beaucoup perdu en crédibilité en passant de Réverso à Systran. Là où je pouvais traduire un courrier entier, il faut avec Systran le couper en "X" morceaux. De plus, le résultat s'efface rapidement. Systran, aucun intérêt pour une traduction rapide et simple.
D'autre part, je cherche partout une traduction Franco/ Polonaise. Je trouve du chinois partout, mais pas de Polonais. Otez-moi un doute :la Pologne, c'est bien en Europe?
C. LABBE; 30 novembre, 2007 18:22
Anonyme a écrit...: En tant que traducteur professionnel, je trouve que la gueguerre est un peu anticipée.
Il faut savoir qu'à ce jour, en juillet 2008, AUCUN éditeur de logiciel de traduction n'est capable de réaliser quelque chose de correct. Les dépôts de brevets se multiplient et chacun amène sa propre pierre, mais on n'empêchera pas un système même heuristique de chercher la traduction avec les premiers termes qu'il va trouver dans le dictionnaire.
De plus, par exemple, l'anglais est une langue subtile :
Quelle est la définition de "number", de "array", de "device" etc. si le contexte n'est pas présent.
Pour revenir aux brevets dont je connais un peu le contenu (1400 traduits à ce jour), ils deviennent de plus en plus compliqués sur ce sujet. Cela veut donc dire que les applications seront de plus en plus incompréhensibles pour les néophytes qui vont perdre de plus en plus de temps à comprendre le logiciel proposé qu'à faire traduire réellement leur texte (à moins qu'ils connaissent la langue source et puissent faire leurs corrections.; 03 juillet, 2008 14:25
Jean Véronis a écrit...: Anonyme> Nous sommes bien d'accord. Aucun logiciel de traduction ne peut rivaliser avec le plus mauvais des traducteurs humains.

Mais là n'est pas le but à mon avis. Les logiciels de traductions me semblent utiles pour certaines tâches, par exemple pour déchiffrer rapidement des informations dans d'autres langues (sur le Web par exemple), là où il serait impossible, trop lent, trop coûteux de faire appel à des traducteurs humains (par exemple pour des particuliers qui surfent sur le Web, ou même des cadres d'entreprises qui font de la veille quotidienne). C'est à peu près le niveau qu'on les traducteurs automatiques aujourd'hui : permettre le déchiffrage des grandes lignes et de la thématique d'un texte. C'est déjà beaucoup.; 03 juillet, 2008 15:09
Anonyme a écrit...: Un logiciel de traduction ne comprend pas le document et ne saura pas traduire à coup sûr un mot hors de son contexte. En revanche, il peut avoir un vocabulaire technique largement plus étendu que celui du meilleur traducteur humain.

Aujourd'hui Reverso offre plus de 6 langues d'interface et plus de 20 directions de traduction en ligne.

Il est complété par des dictionnaires en ligne gratuits, un outil de conjugaison, une grammaire. Il ne faut pas hésiter à revisiter Reverso.net et y laisser vos commentaires, suggestions... qui sont toujours prises en compte lorsqu'elles sont réalistes.; 06 octobre, 2008 23:01
Anthony a écrit...: Je trouve que les traducteurs automatiques progressent énormément depuis une poignée d'années. Pour ceux qui s'en servent à titre personnel, c'est très utile. Par contre pour les entreprises, il faut claiement continuer à faire appel à des pros.; 30 avril, 2010 04:00
Kévin a écrit...: Merci pour toutes vos merveilleuses explications !! Vous êtes vraiment un prof génial !!! J'aimerais vous avoir comme prof... Un grand MERCI et un grand BRAVO à vous ! Cordialement.; 18 août, 2010 14:42

Enregistrer un commentaire

A propos de l'auteur

Billets récents

Archives

Outils

Ma startup

Mes livres

mardi, janvier 31, 2006

Outils: Chrono et Nebulo plugins

8 Commentaires:

samedi, janvier 28, 2006

E-Pub: L'UMP achète Netizen

20 Commentaires:

vendredi, janvier 27, 2006

Magazine: Netizen

16 Commentaires:

mercredi, janvier 25, 2006

Garfieldd: Outreau ou pas assez

16 Commentaires:

samedi, janvier 21, 2006

Lexique: Fenêtre intruse

39 Commentaires:

dimanche, janvier 15, 2006

Web: Surfez sur les nuages

74 Commentaires:

Outil: Le Nébuloscope

0 Commentaires:

samedi, janvier 14, 2006

Texte: Sarkovoeux

10 Commentaires:

vendredi, janvier 13, 2006

Récré: Sarkovoeux

10 Commentaires:

mercredi, janvier 11, 2006

Translation: Systran or Reverso?

8 Commentaires:

dimanche, janvier 08, 2006

Traduction: Systran ou Reverso?

46 Commentaires:

Cherchez sur ce blog