Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

samedi, juillet 09, 2005

Lexique: Vacances

Faire le vide... on en a sans doute tous un peu besoin. Et les vacances, c'est fait pour ça. Le mot même nous l'indique, puisqu'il vient du latin vacare, "être vide". La vacuité c'est l'état de ce qui est vide... Etre vacant, c'est être vide, libre, voire oisif, et la vacance a désigné au XVIème siècle le moment où les tribunaux suspendaient leurs séances. Les vacances sont devenues ensuite le moment où les études cessent.

photo de vacances - coucher de soleil

Mais les mots ont plus d'un tour dans leur sac. Vaquer à quelque chose c'est le contraire des vacances, et le vacataire c'est celui qui bosse. Les vacations, ce n'est peut-être pas du plein emploi, mais ce n'est pas pour autant des vacances! Vaquer a retourné sa veste. Notre monde cruel a horreur du vide: avoir du temps, c'est pouvoir le passer à bosser et vaquer intransitif (glander...) est devenu vaquer à (bosser...). Comme quoi juste un petit à peut changer la face d'un mot!

En parlant de ça, je vais vaquer un peu, moi. On se retrouvera fin juillet!

7 Commentaires:

Anonymous Pierre a écrit...

Bonnes vacances et merci pour cette belle année bien nourrie !

09 juillet, 2005 12:08  
Anonymous Guillaume a écrit...

Ouf, mon regard a fourché sur le dernier mot ! Je me disais aussi !

09 juillet, 2005 21:49  
Blogger Vicnent 31415 a écrit...

Merci à toi, Jean, et reviens (pas trop) vite !!!

10 juillet, 2005 17:40  
Anonymous LudovicD a écrit...

Je ne peux que me joindre au choreia, vous remercier de toutes ces notes, et vous souhaiter une bonne vacance de blog!

10 juillet, 2005 20:54  
Anonymous fuligineuse a écrit...

Bonnes vacances, et rapporte-nous donc quelques mots d'été...

11 juillet, 2005 16:49  
Anonymous melanie a écrit...

Bonnes vacances à tous!
Mélanie

28 juillet, 2005 11:39  
Anonymous Anonyme a écrit...

Bonjour

En attendant que vous reveniez vaquer à nous instruire et nous amuser sur votre blog, je vous signale un article paru aujourd'hui 1er aoüt sur libération.fr : http://www.liberation.fr/page.php?Article=314711
Le journaliste dans le titre utilise le terme clope au féminin mais si on se réfère au TLF, clope est masculin. Par la méthode de vérification par Google, on remarque que "la clope" l'emporte haut la main. Même si les dictionnaires évoquent l'existence du féminin, voici une démonstration de la limite de cette méthode. Tout cela pour rappeler que le dictionnaire reste notre meilleur allié.

Au plaisir de vous lire bientôt.

01 août, 2005 20:09  

Enregistrer un commentaire

jeudi, juillet 07, 2005

Lexique: Les plagiaires et les plagistes

C'est les vacances... Les plagiaires dont je parlais l'autre jour sont sans doute en train de se prélasser à la plage, sous le regard vigilant des plagistes. Oubliés les rapports, les exams. Il n'y a plus que le soleil pour donner mal à la tête...

photo de plage avec mots dansants incrustés
Ni les uns ni les autres ne réalisent probablement qu'ils sont cousins par l'étymologie. Plagiaire et plage proviennent tous deux du mot grec πλαγίως (plagios), qui veut dire "oblique". D'oblique à tordu il n'y avait qu'un pas (de côté), et le mot a pris un sens figuré de "fourbe, pas honnête". En latin, sous la forme plagiarius, il désignait celui qui volait des esclaves ou enlevait des enfants. La forme substantivée τα πλαγια (plagia) voulait aussi dire "les côtés, les flancs". Nous l'avons récupérée au XIIIème siècle à travers l'italien piaggia, spiaggia (encore un mot immigré!). Elle s'est fondue avec un autre mot latin, plaga, qui signifiait "étendue de terre"... Formes proches, sens voisins, l'un a absorbé l'autre. On croit parfois que l'étymologie ne fait que diverger, comme les branches d'un arbre. Mais parfois, les mots se rencontrent, se contaminent, fusionnent, comme les branches de ces banians indiens qui retournent au sol, s'enracinent à nouveau, au point qu'on ne sait plus distinguer l'arbre et la forêt...

2 Commentaires:

Anonymous MiniPhasme a écrit...

Paris Plage* est de plus en plus plagiée par nos voisins européens. Ironie cruelle : si le chômeur « est sur le sable », chômer ne signifie pas forcément manquer de travail ; Le verbe est issu du bas latin « caumare », se reposer pendant la chaleur.
Belle image, les banians ! Les arbres aux racines adventives sont également très troublants.

*Paris plage, Paris-Plage ? Surprise ! On trouve même un restaurant Le Paris Plage à Vernon !

09 juillet, 2005 02:21  
Blogger M. Bergadaà a écrit...

Bravo pour cette analyse qui correspond bien aux besoins répertoriés par les professeurs d'universités qui s'expriment sur le site de l'université de Genève "http://reponsable.unige.ch"

Mais je pense que le problème est surtout social. A nous de jouer.

M. Bergadaà

18 juillet, 2005 19:04  

Enregistrer un commentaire

mercredi, juillet 06, 2005

Texte: Correcteurs orthographiques en panne?

Jonath a trouvé la bonne réponse à la devinette d'hier. J'ai créé Orthobug, le programme qui pourrit les textes, pour tester les performances de correcteurs orthographiques. En fait, c'est un des exercices qu'on donne en Licence première année à nos étudiants en Technologies du Langage. Partant d'un texte propre (article de journal par exemple), il s'agit de le truffer de fautes avant de le soumettre à un ou plusieurs correcteurs orthographiques, pour pouvoir en évaluer les performances.

texte déformé
On pourrait bien sûr utiliser de vrais textes avec de vraies fautes, mais c'est plus facile d'avoir un concentré sur une page ou deux. De plus, le programme permet (pas dans la version que j'ai mise sur le web), de contrôler les types de fautes ajoutées et leur proportion:
  • fautes de frappe
    • omission de lettre (devoir -> deoir)
    • insertion de lettre (devoir -> devboir)
    • substitution (devoir -> deboir)
    • interversion (devoir -> devior)
  • fautes de compétence
    • substitution de graphème (pharmacie -> farmacie)
    • mots homophones (sont -> son)
    • accords et finales muettes (les fautes -> les faute)
    • finales homophones (déclaré -> déclarer)
    • etc.
A titre d'exemple, je me suis amusé ce matin avec un article du Monde, que j'ai soumis au correcteur orthographique de Microsoft Word et à la nouvelle barre d'outil de Google (dont j'ai parlé il y a quelque temps ; la version Firefox est annoncée pour demain 7 juillet). J'ai ignoré les noms propres, et j'ai comptabilisé les résultats de façon classique (le détail est en pdf) :
  • erreurs signalée à juste titre par le correcteur
  • erreurs non signalés
  • erreurs signalées à tort (en fait il n'y a pas d'erreur)
On appelle les erreurs non signalées le silence, et celles signalées à tort le bruit (ou encore fausses alertes). Si on veut qu'un système soit excellent, il faut qu'il minimise le silence (c'est-à-dire qu'il ne loupe pas d'erreurs, mais aussi le bruit (si le logiciel donne trop de fausses alertes, il devient inutilisable...). Voici ce que j'obtiens:

[note: petits correctifs le 18 octobre]

%MsWordGoogle
silence25,324,0
bruit6,7
1,7

On parle aussi souvent de précision et de rappel, qui sont simplement des notions complémentaires du silence et du bruit (tous ces termes sont issus de la recherche documentaire, où on mesure la qualité des résultats à une requête):

précision = 1 - bruit = erreurs signalées à juste titre / nb d'erreurs signalées en tout
rappel = 1 - silence = erreurs signalées à juste titre / nb total d'erreurs


Voici ce que ça donne :

%MsWordGoogle
rappel74,776,0
précision93,398,3

Cette petite expérience du matin n'a évidemment pas de valeur scientifique -- il faudrait faire ça sur plus de textes, et des textes plus variés-- mais il est frappant de constater que MSWord et la barre Google ont à peu près exactement les mêmes performances. Tous deux arrivent dans les 80% de rappel c'est-à-dire qu'ils loupent un cinquième des erreurs que j'ai injectées. L'examen détaillé des résultats montre que la quasi totalité des erreurs non détectées est du même type: le mot erroné existe bien dans le dictionnaire de la machine, mais il n'est pas le bon en contexte (ont -> on, président -> préside, etc.).

On pourrait penser que MSWord s'en sort mieux, puisqu'il est doté de fonctions de correction grammaticale, qui devraient normalement aider, mais on s'aperçoit que ça ne change pas grand-chose, ce qui est tout à fait étonnant. Google s'en sort aussi bien. Ou aussi mal, car les erreurs en question (homophones, accords, etc.) sont extrêmement fréquentes chez les élèves et étudiants -- et pas mal d'adultes. Évidemment c'est très difficile, mais on peut imaginer des tas de méthodes qui pourraient améliorer les choses. Les simples fréquences de bigrammes (mots qui se suivent) dans de grandes masses de texte pourraient par exemple dans bien des cas servir à signaler un problème. Pour l'erreur non détectée "on tenu", par exemple, une petite recherche Yahoo m'indique:

BigrammeYahoo (fr)
"on tenu"893
"ont tenu"159000

Les correcteurs orthographiques ont beaucoup progressé dans les années 90 (grâce à un accroissement considérable des dictionnaires), mais il me semble que depuis ils plafonnent. La recherche sur le sujet n'est plus très à la mode dans les conférences en traitement automatique des langues, et on dirait que les industriels (Microsoft et autres) s'en désintéressent, comme si ce n'était plus pertinent commercialement.

Pourtant, vu le niveau orthographique de la population générale (il suffit de parcourir forums et blogs), il me semble qu'il y aurait au contraire un argument marketing considérable pour un correcteur plus futé, qui prenne en compte les vrai faute que font les geans, et en particulier les collégiens et lycéens de plus en plus nombreux à les utiliser. Les correcteurs dans leur état actuel sont presque nocifs pour eux, car en ne soulignant pas de vraies erreurs, ils peuvent inciter les jeunes à penser que c'est correct... Une de mes étudiantes de master, Marie Piu, vient de faire un très joli travail sur MSWord avec 335 vraies dictées d'élèves de 6ème et 5ème de la région. Le résultat est effarant: ce sont seulement 62% des erreurs qui sont détectées, et lorsque l'erreur est détectée, la première proposition faite par MSWord est la bonne dans seulement 74% des cas. Dans 16% des cas, aucune des propositions n'est valable...

Il reste encore du boulot!

24 Commentaires:

Anonymous Anonyme a écrit...

les vrai faute que font les geans ????

06 juillet, 2005 11:50  
Blogger Jean Véronis a écrit...

j'aurais dû mettre un ;-) !

06 juillet, 2005 11:52  
Anonymous Cédric Luthi a écrit...

J'aime bien le "a peu près exactement", mais j'aurais plutôt utilisé "quasiment" je pense ;-)

06 juillet, 2005 12:37  
Blogger GerFaut a écrit...

Je viens de découvrir (grâce à MacDigit : http://www.macdigit.com/ ) votre blog que je trouve passionnant.
Je ne sais pas quelle est la fiabilité des correcteurs orthographiques pour l'anglais, mais, en tout état de cause, il est évident que le problème commercial prédomine dans cette histoire. Il est certain que le français, très complexe, n'est pas assez rentable pour ces entreprises, d'où des logiciels mal terminés et incomplets. On en a un exemple encore plus frappant avec les systèmes de vocalisation de texte qui n'ont jamais été finalisés pour le français malgré quelques vagues tentatives.
Oui, il reste encore du boulot...

06 juillet, 2005 12:37  
Anonymous Anonyme a écrit...

Et avez vous testé des outils comme Prolexis en regard des correcteurs intégrés ?
Quelle est sa pertinence ?

06 juillet, 2005 13:12  
Blogger Jean Véronis a écrit...

Prolexis> Non, pas encore (bonne idée pour les projets de master de l'an prochain!), mais je doute qu'il y ait une différence fondamentale car elle demanderait un saut technologique majeur...

06 juillet, 2005 13:37  
Anonymous LolZ a écrit...

Le logiciel Orthobug est-il disponible? Le principe est très intéressant!

06 juillet, 2005 20:33  
Blogger Jean Véronis a écrit...

Le logiciel Orthobug est-il disponible (lolz)> hélas non, pas pour l'instant...

06 juillet, 2005 20:37  
Anonymous setim a écrit...

Le logiciel quebecois " Antidote" me semble bien plus performant que Word en la matière.

06 juillet, 2005 22:58  
Anonymous PatB a écrit...

Merci pour votre blog, c'est un véritable plaisir à lire … 

La démo fonctionnelle du Petit Pro Lexis Mac ou Pc est par là : http://www.prolexis.com/
Il faut savoir que l'on peut aussi régler dans les préférences les règles typographiques françaises.

Antidote le "Québecquois" : http://www.druide.com/

Les tarifs respectifs (PPL 100€ vs Antidote 125€)

Je serais curieux de lire un test (ou autre, des impressions) pouvant indiquer les limites respectives de ces deux aides à l'écriture du et en français.

J'ai, de plus, un faible pour le dictionnaire des synonymes de Myriade (de Diagonal). Il comporte aussi un conjugueur (intégré à PPL2) utile lorsque l'on a une hésitation.

07 juillet, 2005 09:18  
Blogger Serge Bibauw a écrit...

Un monsieur qui est correcteur professionnel me faisait justement remarquer hier que l'on ne devrait pas parler de « correcteurs » pour les logiciels, mais bien de « vérificateurs » : dans la mesure où le bruit (et dans une moindre mesure, le silence) n'est pas égal à zéro, ces logiciels ne pourront jamais servir qu'à signaler à l'utilisateur humain d'éventuelles erreurs (vérifier le texte), et non à corriger par eux-mêmes des textes sans intervention humaine.

07 juillet, 2005 22:31  
Anonymous Anonyme a écrit...

Très intéressant.
Auriez-vous la possibilité de tester le correcteur d'OpenOffice. A priori, il me semble assez en dessous de celui de MsWord, mais ce n'est qu'une impression.
En tous cas, merci pour votre blog.

michel

08 juillet, 2005 11:06  
Anonymous Thierry Fontenelle a écrit...

Bonjour Jean,

Tout d’abord, un tout grand merci pour ce blog, tout aussi intéressant et passionnant que les précédents. Il a retenu toute mon attention parce qu’il traite justement de problèmes sur lesquels je viens de travailler ces derniers mois. En novembre dernier, nous (je parle ici de Microsoft, puisque c’est pour cette société que je travaille) avons sorti une nouvelle version de notre correcteur grammatical pour MS Word. En avril 2005, nous avons également mis gratuitement à la disposition des utilisateurs d’Office 2003 une version complètement remaniée du correcteur orthographique (voir ici pour savoir comment télécharger ce nouvel outil). Puis-je demander si ce sont ces deux nouvelles versions qui ont été utilisées dans le cadre de l’expérience menée sur cet article du Monde ? Je pense que ce n’est pas le cas car un test rapide vient de me montrer que certaines des fautes introduites intentionnellement dans cet article sont repérées et corrigées par le nouveau correcteur grammatical (notamment « a Singapour » --> « à Singapour », ou encore « a-t-il déclarer » --> a-t-il déclaré). J’ai aussi été surpris de voir que certaines chaînes de mots en majuscules étaient considérées comme des fautes (6,75 MILLIARDS D’EUROS…). Je ne suis pas parvenu à reproduire ce comportement avec le nouveau correcteur.

Je voulais préciser ici que nous ne nous désintéressons pas du tout de la recherche relative aux outils de correction linguistique, loin de là. J’en ai d’ailleurs parlé à Lorient l’an dernier lors du congrès de l’Association européenne de lexicographie, Euralex). Les deux produits que nous venons d’offrir gratuitement à nos utilisateurs francophones sont le fruit d’investissements importants et nous continuons à investir dans ce domaine pour améliorer ces outils et couvrir un plus grand nombre de langues. Nous sommes parfaitement conscients qu’ils ne sont pas infaillibles, mais je puis vous assurer que les nouvelles versions sorties ces derniers mois ont bénéficié d’améliorations plus que substantielles. Nous avons augmenté de plus de 10% le nombre de cas où la première proposition est la bonne, par exemple (par rapport au correcteur précédent). Nous avons aussi réduit de 74% le nombre de fausses alertes (le descriptif consultable ici donne de plus amples informations). La prise en compte de la féminisation des noms de métiers (j’en ai parlé brièvement ailleurs sur ce site il y a quelques semaines) et de l’orthographe recommandée par le Conseil Supérieur de la Langue Française et l’Académie Française est le résultat de notre souci de faire évoluer nos outils en même temps que la langue française et de répondre aux besoins de nos utilisateurs, tant en France qu’au Québec, en Belgique, en Suisse, en Algérie, au Maroc ou ailleurs.

Tous ces nouveaux outils sont également basés sur des analyses d’erreurs réelles (ce qui nous a justement permis d’améliorer la qualité des propositions de corrections). Dans l’expérience que tu décris, il est exact que ni le correcteur orthographique ni le correcteur grammatical ne sont en mesure (actuellement) de repérer la faute dans « les cinq vies candidates pour les JO 2012 ». Une rapide recherche sur le web (tant sur Google que sur MSN) montre que la chaîne « vies candidates » n’est pas présente sur le web (à part sur ce site ;-), ce qui démontre sans doute l’aspect artificiel de cette erreur de nature plus sémantique que grammaticale. Mais nous travaillons sur la question… (je ne peux en dire plus pour le moment ;-)

Il est un autre aspect sur lequel je souhaitais faire un commentaire. Les noms propres ont été intentionnellement ignorés dans l’évaluation. Je pense néanmoins qu’ils devraient être pris en compte lors du calcul de la précision et du rappel, qui utilisent la notion de bruit. Si on en tient compte, on s’aperçoit alors que la précision du correcteur de MS Word dépasse celle de la Toolbar de Google. Un exemple : là où Google montre que son lexique d’entités géographiques et de noms de personnes est très pauvre (Londres, Madrid, New York, Moscou, Singapour et Chirac… sont considérés comme des fautes au même titre que Londre et Chriac, le correcteur de MS Word ne soulignera que Londre et Chriac (à juste titre) et n’attirera pas inutilement l’attention de l’utilisateur sur des fautes qui n’en sont pas, tout en proposant les bonnes versions de ces noms propres en cas d’erreur). J’ai la faiblesse de croire que cet aspect est également important pour nos utilisateurs (de ce côté, je dois avouer que nos synergies avec nos collègues d’Encarta nous ont permis de bénéficier de leurs bases de données de termes géographiques et de personnages célèbres pour enrichir notre dictionnaire et ainsi réduire le bruit).

En guise de cerise sur le gâteau, je ne résiste pas à la tentation de donner quelques exemples de tournures fautives maintenues repérées par la nouvelle version du correcteur grammatical :

Si j’aurais su, je l’aurais fait.
Je m’ai trompé.
Je l’ai fait fonctionné.
Je les ai vu. (La correction propose ici « vus » ou « vues » puisque le contexte ne permet pas de lever l’ambiguïté)
Elle s’est cassée la jambe.
J’ai télécharger les mises à jour.
J’ai téléchargé les mises à jours.
Le gouvernement ne parle qu’en terme de budget et d’économies.

La concordance des temps, le choix de l’auxiliaire, l’accord du participe passé ou le choix du participe passé ou de l’infinitif comptent parmi les difficultés les plus répandues sur lesquelles ont porté les améliorations de ce correcteur.

Merci de m’avoir lu jusqu’ici, en espérant avoir pu contribuer à la discussion. Il reste effectivement beaucoup à faire, mais nous y travaillons. Merci aussi de nous faire part de tous ces commentaires très constructifs!

Thierry Fontenelle (Microsoft Speech & Natural Language Group)

16 juillet, 2005 19:31  
Anonymous tao a écrit...

en parlant de correcteurs (ou verificateurs) orthographiques et de grammaire à noter l'EXCELLENT produit de DRUIDE INFORMATIQUE (Québécois) : ANTIDOTE.

20 juillet, 2005 01:04  
Anonymous Anonyme a écrit...

je vous propose de tester Cordial de Synapse (http://www.synapse-fr.com/)
je n'ai pas d'actions dans cette maison, mais je peux vous dire que le correcteur est d'une autre trempe que celui de Word.

08 septembre, 2005 14:58  
Anonymous leonid a écrit...

Word n'aime pas la "dernière" dictée de Pivot. Moi qui aime tant les floes polaires...

Il n'est pas étonnant de voir que l'industrie n'a pas pour objectif d'instruire ou d'aider les jeunes à réflechir et corriger leurs erreurs, puisque ces derniers finiraient par se demander s'il est utile d'acheter tel ou tel gadget. Catastrophe. Mieux vaut privilégier la bêtise et maintenir ces futurs chomeurs en état de consommateurs végétatifs. Ou alors suis-je encore un de ces jeunes pessimistes adeptes du complot des mass medias...

-Hors sujet-
Puisque je parle de gadgets, M'sieur Fontenelle du commentaire plus haut: MS Speech Natural Truc s'occupe également du TTS ? Si c'est le cas, faudrait activer un peu; avec les nouvelles cartes sons, vousse afez le moyen te faire barler nos ordis autrement que pour faire plaisir à Thom Yorke. Reste à trouver l'utilité, si ce n'est l'accessibilité des mal voyants, encore leur faudrait-il trouver le menu démarrer pour lancer le programme désiré. Je suis un monstre.
-Fin du hors sujet-

03 décembre, 2005 04:18  
Anonymous Bianca Chareyre a écrit...

Génial, tout simplement génial!
Je suis orthophoniste et je recherchais, paradoxalement, comment servir des textes à fautes à mes patients .Et vous voilà, avec des fautes tellement semblables.
Merci pour cet outil !

14 avril, 2006 18:49  
Anonymous Anonyme a écrit...

Bonjour, je cherchais quelque chose, et du coup, ne me souviens plus, tellement ce site m'a sidérée. Mais on ne pourrait pas faire l'inverse ? Dépourrir les textes ?

19 août, 2006 18:10  
Anonymous Anonyme a écrit...

Je pense que tu n'as pas bien du lire le contenu du blog. Ce brave homme a développé un pourrisseur de texte afin de tester la réactivité et la justesse de correcteurs orthographiques (des dépourisseurs...)

06 septembre, 2006 17:29  
Blogger Jean Véronis a écrit...

Oops, pardon, je me sis noyé dans les commentaires et je vois que je n'avais jmais répondu. Dépourir les textes, ça revient à réaliser un correcteur orthographique, non? C'est infiniment plus compliqué. Imaginons un mot bien écrit avec des lettres de scrabble. Il suffit d'envoyer le tout en l'air et on est à peu près sur d'avoir un mot mal écrit. Mais si on a des lettres en vrac, c'est plus dur de trouver le mot initial... Et évidemment, plus le pourrissement est fort, plus le retour à la source est difficile. Les correcteurs orthographiques actuels (Word etc.) ont un comportement très insuffisant sur les textes d'élèves de primaire par exemple.

06 septembre, 2006 17:36  
Anonymous Abulfar a écrit...

Bonsoir,

Juste en passant : 6e et non 6ème.

07 octobre, 2006 00:15  
Anonymous Anonyme a écrit...

Moi j'aime bien l'idée du dépourisseur...

30 novembre, 2006 14:24  
Anonymous Thai Chat a écrit...

L'idée du correcteur en gros ;-p

25 mai, 2007 09:13  
Anonymous Caroline Sigouin a écrit...

Concernant les Québécois:

Le correcteur Antidote est effectivement bien meilleur que ceux qui viennent avec les logiciels de traitement de texte. Il est aussi beaucoup plus nuancé: il signale des risques d'erreur, fait des suggestions de correction, intervient au niveau orthographique, grammaticale, syntaxique, il prend en considération le registre de langue, la variété de français, et corrige même la ponctuation! Je me demande alors comment il serait possible de calculer son efficacité (taux de bruit, de silence, etc.)

Quant au Pourrisseur, il a tout qu'un accent français! He he he! En français québécois, on ne confond pas "considéré" et "considérait", par exemple. Ce ne sont pas des homophones chez-nous, où le "é" et le "è" sont deux sons bien distincts. On pourrait assurément trouver des exemples de ce genre pour bien d'autres variétés de français.

24 janvier, 2009 01:42  

Enregistrer un commentaire

mardi, juillet 05, 2005

Récré: Pourrissé vos texte

Vous êtes cultiver, lettré, vous soufrez de la diférence, de la moquerie de vos proche, de vos amis... Soyez come eux, fondez-vous dans la masse: écrivaiz en orthografe moche. Le grand profeseur Aixtal a le plaisir de vous présenter Orthobug, le premier programe qui pourri les texte. Très utile aussi si vous êtes étudiant ou lycéen: ne vous faitez plus repérer quand vous faites des copier-coller dans vos devboirs... Avec quelques faute discrète, vos plagiats seront entièrement crédible.

Absolument gratuit! Esayez tout de suite en colant votre texte ici (les balise HTML seront ignorait) :


Degré de pourrissement
Faible
Moyen
Fort

Actions

Devinette: ce porgramme est au départ tout à fait sérieux et a une vraie utilité. Laquele?


N.B.


Se pourisseur n'ait pas un gnérateur de lengage SMS... 1 jour il fodra que jajoute 7 option ;-)

55 Commentaires:

Anonymous jonath a écrit...

j'ai une idée pour la devinette :
avec ce programme, on pourrait envoyer des spams sans se faire repérer par les filtres (ainsi, "viagra" deviendrait "viaggra" ou "vaigra")

05 juillet, 2005 18:11  
Blogger Jean Véronis a écrit...

ah ah, oui, c'est une idée, et je crois d'ailleurs qu'elle est déjà un peu utilisé par les spammeurs! mais j'ai créé ce programme pour une autre raison (je n'encouragerais quand même pas le spam!)...

05 juillet, 2005 18:15  
Anonymous JChris a écrit...

Oh la bonne idée !!!
Manque juste l'option SMS pour gagner du temps pour les texto… Mais également utile pour les commentaires où le fait de rédiger est parfois mal perçu…
Attention, le signe trois points (…) est transformé en "â€"…
Sinon impeccable :-)

05 juillet, 2005 18:26  
Blogger Jean Véronis a écrit...

le signe trois points> je crois que c'est corrigé (ah, utf-8...). Merci!

05 juillet, 2005 18:41  
Anonymous jonath a écrit...

deux autres idées :

1) ça pourrait permettre de tester un correcteur orthographique

2) ça pourrait permettre de réaliser des études sur la lecture (est-ce que les lecteurs décèlent des fautes de frappes ou d'orthographe ? est-ce que cela perturbe leur lecture ?)

05 juillet, 2005 19:00  
Anonymous Sabin a écrit...

Cest éfaran !


Chapeau, monsieur Véronis ! :-)
Pourquoi pas l'option "caser du SMS par moments comme par manque de vigilance" ? ;-)

Quant à la fonction du programme... Peut-être permettrait-il, utilisé en sens inverse, de réparer les fautes d'orthographe les plus souvent commises, et de traiter ainsi ultra-rapidement un texte même très long ? Idéalement, un prof pourrait ainsi éviter de devenir fou furieux en devant lire un texte rédigé par un étudiant à l'orthographe approximative ?

05 juillet, 2005 19:04  
Blogger all a écrit...

Un korrectheur d'aurtögraf ?


[je ne sais pas si ça vous intéresse mais vous étiez Blog du Jour sur Blog du Jour]

05 juillet, 2005 19:10  
Anonymous Anonyme a écrit...

Réponse à votre devinette :

Tenter de repérer pourquoi les élèves (les gens ?) font des fautes, quelles sont leurs faiblesses ? Ceci afin d'élaborer des méthodes d'apprentissage (ou de réapprentissage) de l'orthographe.

La même version après un passage dans votre moulinette :

Réponse a vore devinette :

Tenter de reperer pourquo les eleves (les jns ?) font des fotes, queles sont leurs faibleses ? Ceci afin d'elaboer des métodes d'aprentissage (ou de réaprentissage) de l'orthografe.


Terrible ! :')

05 juillet, 2005 19:36  
Anonymous Samuel D a écrit...

c tro for se blog de jean véroniss ime fé tro kifé à chaqfoi !

05 juillet, 2005 22:39  
Anonymous Stuart Mudie a écrit...

Merci, Jean. Mais en fait, écossais que je suis, je n'ai besoin d'aide pour écrire mal en français !

05 juillet, 2005 23:28  
Blogger Luc a écrit...

Pour la devinette : une vraie utilité "sérieuse" serait de dégrader un texte tout en le gardant lisible de façon à passer au trvers de filtres automatiques. Les e-mails et textes electroniques sont de plus en plus "obeservés" par des sys tèmes d'analyse automatiques. De cette façon, un texte peu passer "en dessous du radar", sans en plus attirer l'attention comme pourrait l'être un texte crypté. Façon habile de converser de divers sujets sans se faire repérer.

J'ai bon ?

06 juillet, 2005 06:36  
Anonymous Fred 'Chandon' a écrit...

Me fait penser au Débilitron dans le principe.
Mais très bonne initiative ! Enfin on pourra niveler par le bas !!!

06 juillet, 2005 08:57  
Anonymous Adrien a écrit...

J'ai plusieurs solutions quant à l'utilité de ce script:

1/ Faire poster des commentaires sur ce blog
2/ Concurrencer la traduction google , revendre le script, racheter des actions GOOG , faire une OPA sur google et racheter microsoft dans 2 ans
3/ Permettre de faire des pages html "similaires" tres rapidement (utile dans le referencement) --> le robot voit des pages différentes a chaque fois
4/ Montrer les talents de programmeurs de Jean
5/ Simulez des messages "humains" --> publicités / forum (désinformation/spam/...) / chat
6/ Rendre le texte obtenu difficilement 'trouvable'/référencable --> en tapant sur google les mots clés avec l'orthographe exacte on ne trouve rien , mais l'humain sait corriger, en lisant , le texte...
7/ Nous faire comprendre , tel un sage parlant en énigme, que nous faisons tous des fautes d'ortographes et qu'il serait temps de se relire ...

06 juillet, 2005 09:29  
Anonymous Delphine a écrit...

J'ai trouvé ! Je sais à quoi ça sert ! :D

Ca sert à remodeler ses commentaires pour les skyblogs afin de les harmoniser avec le style ambiant... :)

Mé sa mank de sms-stil, kan mm 1 pe.

06 juillet, 2005 09:42  
Blogger Jean Véronis a écrit...

all> Merci! je ne connaissais pas Blog du Jour (ça fait un peu penser à Un site par jour).

06 juillet, 2005 10:04  
Anonymous Clo-lo a écrit...

J'ai trouvé : ça sert à croire qu'on a bu, sans avoir bu. L'ivresse sans alcool et sans danger. Merci Jean

06 juillet, 2005 10:41  
Blogger Jérôme Charron a écrit...

Utilité de ce programme: Générer toutes les formes "mal" orthographiées (utilisant les fautes de frappes et d'orthographes courantes chez l'utilisateur) d'un mot afin de pouvoir faire correspondre ces termes à leur version lemmatisé. Ainsi, dans le cadre d'un outil de recherche full-text, une recherche sur "mot-heure deux rechaircheux" sera reformulée en "moteur de recherche" (le même principe est utilisé lors de l'indexation bien entendu).

Dans le cadre de Frutch, mais principale préoccupation est d'intégrer une indexation/recherche multilingue dans Nutch. J'ai encore pas mal de boulot, mais je serais très intéresser par la suite pour récupérer votre algorithme, afin de l'intégrer.
(OpenSource?)

06 juillet, 2005 11:10  
Anonymous Anonyme a écrit...

Pourrissement efficace!
Certaines appostrophes se transforment en "’" -> peut-être un problème d'encodage...

AN.

06 juillet, 2005 11:33  
Blogger GerFaut a écrit...

Excelent !
L'utilité ? encore un moyen démagogique de plus pour des parents dépasés de se mettre au nivo de leur ado de service et, peut-être, d'ariver enfin à comuniquer ! ;-))
Le but ltime ? parler en verlan avec des fotes ! Ca, ce serait très fort ! :-))

Traduction :
Excellent !
L'utilité ? encore un moyen démagogique de plus pour des parents dépassés de se mettre au niveau de leur ado de service et, peut-être, d'arriver enfin à communiquer ! ;-))
Le but ultime ? parler en verlan avec des fautes ! Ca, ce serait très fort ! :-))

06 juillet, 2005 12:12  
Anonymous Jchris a écrit...

Hop, en mode "blet" (plus sympa que pourri :-) :
Merci pour là corection du ..., et bo boluot qui a dégà l'enorme avantagede nous faire marer...

06 juillet, 2005 12:26  
Blogger Jean Véronis a écrit...

OpenSouce (Jérome)> Hélas pour l'instant c'est plutôt caca-source (vite fait, mal écrit, etc.)... Mais j'essaierai de faire mieux (après les vacances!).

06 juillet, 2005 20:40  
Blogger Luc a écrit...

Bon, alors on donne tous notre langue au chat.
C'est quoi, la réponse à la devinette ?

07 juillet, 2005 21:29  
Blogger Jean Véronis a écrit...

Luc> Ah oui, c'est vrai, j'aurais dû mettre un petit mot ici, mille excuses! La réponse est dans le billet suivant. C'est Jonath qui a deviné. Mais je dois dire que les autres suggestions étaient excellentes (je vais peut-être me faire de l'argent chez les spammeurs!). Le plus tordant est peut-être la réponse de Clo-lo. Simulateur de dactylographie en état d'ivresse...

07 juillet, 2005 21:38  
Blogger Serge Bibauw a écrit...

Ce commentaire a été supprimé par un administrateur du blog.

07 juillet, 2005 22:39  
Blogger Serge Bibauw a écrit...

Ce commentaire a été supprimé par un administrateur du blog.

07 juillet, 2005 22:40  
Blogger Serge Bibauw a écrit...

Dans le même ordre d'idée, je vous suggère d'aller faire un tour le petit programme de démonstration du Cental (Université de Louvain) qui transcrit un texte français en « langage SMS ». Le but est ici de montrer l'extrême variabilité des formes rencontrées pour un même mot à travers les SMS (dans le cadre d'une collecte de 75 000 SMS effectuée fin de l'année passé par le Cental - voir SMS pour la science) : Traduction français-SMS.

07 juillet, 2005 22:49  
Anonymous Anonyme a écrit...

Est-ce que l'on peut comprendre les "skyblogs" avec ce même système ?

09 juillet, 2005 21:54  
Anonymous Anonyme a écrit...

il faut utiliser ce programme à l'envers pour permettre de corriger les fautes d'orthographe sur un texte pourri.
il faut donc commencer par l'enregistrer sur un CD, puis, comme les lecteurs CD n'ont pas la marche arrière, il suffit d'insérer son CD tête en bas, et le tour est joué.

15 juillet, 2005 16:34  
Anonymous Anonyme a écrit...

Pas mal, mais pour un effet encore plus balaise, il faut passer deux ou trois fois à travers le pourrisseur, et alors là, ça fait de l'effet sur les forums, on se sent plus à l'aise.
Merci pour cet outil.

18 juillet, 2005 23:31  
Anonymous Anonyme a écrit...

En passant...
Je dirais que cela sert à prouver tout le plaisir que procure un texte écrit sans fautes...;-)
L'orthographe et la grammaire sont des contraintes..qui servent au plaisir!

22 juillet, 2005 01:24  
Anonymous Anonyme a écrit...

Et si les mots que l'on veut pourrir sont déjà écrity avec une othographe déplorable, est ce que ce petit programme peut les rendre encore pires?
Voyages Voyages Voyages Voyages Voyages Voyages Voyages Voyages Voyages Voyages Voyages Voyages Voyages Voyages Voyages Voyages Voyages Voyages Voyages Voyages Voyages Voyages Voyages Voyages

27 juillet, 2005 14:24  
Anonymous Anonyme a écrit...

Oups exusez moi je viens de voir les dernières lignes de mon messsage précédent. Elles étaient pas destinées pour ce commentaire désolé.

27 juillet, 2005 14:27  
Anonymous Anonyme a écrit...

J'ai testé un rapport officiel envoyé au ministre de l'intérieur. Le texte d'origine est déjà rigolo, mais pourri, ça donne une proportion intéressante. Par contre, ce qui a gâché mon plaisir, c'était "sollicité", qui conservait ses 2 "l".
Là où j'ai bien ri (essayez, vous m'en direz des nouvelles), c'est de copier-coller plusieurs fois mon texte pourri, puis re-pourri,... Le Ministre n'a qu'à bien se tenir.
Une suggestion: le programme pourrait prendre en compte les accents régionaux du genre "Monsieur le Ministre" deviendrait "msieul minis"

28 juillet, 2005 21:23  
Anonymous Anonyme a écrit...

Bonjour,
Pour créer du SMS il y a le Traducteur de langage SMS de l'Université de Louvain
http://glossa.fltr.ucl.ac.be/~demo/index.php?service=1

29 octobre, 2005 01:58  
Anonymous jc a écrit...

Il y a une faute d'orthographe sur cultiver

10 novembre, 2005 21:50  
Anonymous Spoooky a écrit...

Dire que monsieur Jean Veronis est au programe de ma maitrise en TAL (Toulouse) et qu'il s'amuse a inventer un pourriseur de texte... Pourquoi n'est-ce pas ce truc, qu'ont nous aprend, hmm?

(je parie que tout le monde clique sur "pourrisement fort"...)


(j'adore le "voici votre texte pourri"... sympa !)

28 novembre, 2005 00:48  
Blogger Dan a écrit...

Ce blog est passionnant. Je m'intéresse bocoup aux technologies du langaj depuis quelques minutes et je ferai connaitre ce blog qui nous perzet enfin de mal éc rire car nous somes épuisés de perfections quotidienes qui lassent le lecteur malgré son ebaubissement.

29 janvier, 2006 10:22  
Anonymous le Rige a écrit...

Je pense que ce programme est destiné à rétablir le contact entre les générations. En effet, on ne peut plus s'adresser aux jeunes sans passer par le support écrit, (MSN ou SMS). C'est déjà un handicap pour le vieux, qui ne sait pas toujours user avec dextérité de ses petits doigts.

Mais si d'aventure, le jeune tente de rentre en communication avec le vieux, ce dernier devra être en mesure de parfaitement comprendre ce que tente de lui dire le jeune. Et pour maintenir ce dialogue naissant, le vieux devra pouvoir user du même langage que lui. L'utilisation d'une orthographe cohérente et/ou d'une grammaire respectueuse apparaîtrait comme la marque de la caste dirigeante (à savoir les parents) : un véritable camouflet ! Le jeune se fermerait comme une huître à ce qu'il imagine, dans son neurone rebelle, être une remontrance parentale ou leçon de morale.

Bref, ce petit programme est peut-être la dernière chance qu'ils vous restent pour que vos enfants acceptent, plus tard, de payer vos retraites.

21 février, 2006 14:38  
Anonymous wasted a écrit...

Votre programme n'est pas vraiment efficace. Essayez cet extrait de Mauriac :

"Dans une détente délicieuse, je m'épanouissais. Je me rappelle ce dégel de tout mon être sous ton regard, ces émotions jaillissantes, ces sources délivrées."

08 mars, 2006 11:59  
Anonymous michèle a écrit...

je suis persuadée que nombre de mes élèves ne verraient même pas où est le problème ! De toute façon, leurs parents s'expriment comme les jeunes qu'ils ne sont plus pour avoir l'air d'être au parfum, et mâchant leur chewing gum, répondant sur leurs téléphones portables "ah ben, j'peux pas j'suis avec la prof de français, démerde-toi, à plus", ponctuent l'entretien, de "il est chiant", il nous emmerde" on a beau l'y engueuler, il nous y dit pas ses notes" et "soyez ferme, madame, ne lui laissez rien passer" , "Tiens, vous avez la même bague que moi, elles sont chouettes, non ? "... C'est pour un nombre certain fort mal barré... Mais je suis entrée en résistance depuis des années en continuant d'enseigner le français...

17 mai, 2006 13:26  
Blogger youpyoup a écrit...

Le texte d'introduction est il passé aussi par l'orthobug ? ;)

"Vous êtes cultiver, lettré..."

cultivé et non pas cultiver ...

26 septembre, 2006 11:41  
Anonymous Anonyme a écrit...

salut, je voulais savoir pourquoi je vois régulièrement écrit "m'a tuer" et non pas "m'a tué"

je vois pas le sens que ça peut avoir

23 octobre, 2006 14:32  
Blogger cfm_reggae a écrit...

Ben, en fait il faudrait une journée OBLIGATOIRE (plus importante que la japd je pense de toute façon), où on te martèle les regles du et/est a/à ou/où é/er c'est/sait et t'as un test a la fin de la journée si tu as tout bon, tu peux rentrer, sinon t'y restes un jour de plus ^^ Et ainsi de suite !

* songe a a reconvertir dans la politique * (joke !!)

18 avril, 2007 05:59  
Anonymous Thai Chat a écrit...

C'est fou les programmes qu'on développe !

25 mai, 2007 09:12  
Blogger jdevriendt a écrit...

La phrase imputrescible existe !
J'ai demandé :
"j'aime le son du cor, le soir, au fond des bois, et c'est mon droit !"

Jamais le générateur ne m'a endommagé le texte...C'est injuste, je vais faire vieux jusqu'à la fin de mes jours.

01 juin, 2007 04:39  
Anonymous Anonyme a écrit...

g trouvait que le pourisseur ne pourrissez pas assait les texte pour être réalistent. Il hait très en dessat de ceux qu'on lient habituèlement sur les forum : il suffient de cherché naimporte ou.

25 octobre, 2007 20:26  
Anonymous Anonyme a écrit...

C'est absolument génial pour faire travailler l'orthographe ! J'ai un élève de 5eme à faire travailler en français (je suis une scientifique pur, et donc n'y connais rien, mais je ne fais pas vraiment de faute).
Donc comment lui faire travailler son orthographe, en utilisant le pourrisseur puis en lui faisant corriger.

ah ah c'est géniallissime, merci beaucoup !

16 décembre, 2007 20:35  
Anonymous Anonyme a écrit...

la dictée la dictée la dictée !!!
http://www.ladictee.fr

29 mars, 2008 23:35  
Anonymous martin a écrit...

non c'est la dikté la dikté, la dikté

bon ok ladictee.fr

08 avril, 2008 07:56  
Anonymous Laurène (laurenebnd@gmail.com) a écrit...

C'est excellent... Merci Jean Véronis, sans vous j'aurais eu du mal à rédiger mon mémoire... (cf: corpus discours 2007). Votre blog est une source d'inspiration pour les étudiants en communication politique. Après en avoir discuté avec Pascal Marchand, je pense me mettre à l'analyse textuelle. En tout cas, bravo en général, votre site est intelligent et ludique.
Une grande fan !

24 mai, 2008 19:02  
Anonymous greg a écrit...

J'adore votre humour et prends toujours autant de plaisir à vous lire, bonne continuation

28 avril, 2009 23:00  
Blogger maniette a écrit...

Passer cette page par un des philtres du baragweb de Gilles Esposito Farèse, fautif de plagiat par anticipation mais avec d'autres options, donne un résultat amusant:

http://www2.iap.fr/users/esposito/baragweb.php?url=http%3A%2F%2Faixtal.blogspot.com%2F2005%2F07%2Frcr-pourriss-vos-texte.html&option=13

19 juillet, 2009 13:11  
Blogger Jean Véronis a écrit...

Excayllant !

19 juillet, 2009 13:39  
Blogger marinette a écrit...

Trop drôle et bien défoulatoire!
J'en ai fait une de mes chroniques hebdomadaires dans le journal suisse Le Matin Dimanche, elle est ici:
http://amotsdecouverts.bleublog.lematin.ch/

10 octobre, 2009 09:11  
Blogger Jean Véronis a écrit...

Oui, G aperssu sa. S'est jeanti, Marinnete !

10 octobre, 2009 09:19  

Enregistrer un commentaire

samedi, juillet 02, 2005

Lexique: Nuage de mots d'aujourd'hui

J'ai poursuivi toute la semaine la petite expérience que j'avais commencée dimanche dernier: chercher quels mots des fils RSS du Monde étaient absents du Trésor de la Langue Française (dictionnaire monumental de 16 volumes, 23000 pages, 100 000 articles!). Comme celui-ci a été rédigé en gros sur 30 ans, avec un dernier volume publié en 1994, il nous donne une image de la société des années 60-90. En négatif, les mots qui n'y figurent pas nous donnent une image de la société d'aujourd'hui...

Au cours de la semaine, 93 mots sont apparus dans les fils du Monde, et ne figurent pas comme entrée dans le TLF (quelques-uns sont mentionnés dans le corps du texte, comme pour auto, mentionné dans l'entrée AUTOMOBILE). Les fils comportaient 4400 mots différents pour la semaine, et les mots inconnus constituent donc un peu plus de 2% du tout.

Je vous ai concocté le résultat façon TagCloud (la taille représente la fréquence dans Yahoo pages francophones). Certains de ces mots sont manifestement des oublis du TLF (grenoblois, isérois), mais le reste me semble effectivement donner une image du paysage lexical récent...


19 Commentaires:

Anonymous LudovicD a écrit...

Quel le TLF, 'terminé' en 1994 donc, ignore le mot "Tutsis" - amère coïncidence...

03 juillet, 2005 14:58  
Anonymous Sabin a écrit...

C'était très intéressant, tiens :)

03 juillet, 2005 15:29  
Anonymous Sabin a écrit...

En revanche, j'aimerais suggérer une modification de l'article : remplacer le "TLF" par son nom complet avec une brève explication. Sans cela, j'ai peur que ceux découvrant votre article (j'ai bien envie d'envoyer l'URL à pas mal de monde) ne comprenne pas un mot et se décourage...

03 juillet, 2005 15:30  
Blogger Jean Véronis a écrit...

Sabin> Oui, bonne idée, merci!

03 juillet, 2005 19:36  
Anonymous Anonyme a écrit...

Le hasard ayant beaucoup d'humour je trouve amusant que le mot "cannabis" se retrouve à côté de "chiite". ^^....

03 juillet, 2005 19:42  
Anonymous gb a écrit...

Et ce décalage pourrait être encore plus criant si vous aviez pris une source moins académique que le journal des énarques ;) Je ne pense pas seulement aux skyblogs, je pense bêtement à la langue orale, même celle des locuteurs cultivés.
Vous avez mille fois raison, les mots qui manquent donnent en creux une image du paysage lexical récent ; mais surtout, les mots qui manquent donnent la preuve que le TLFi présente une image totalement déformée du lexique réel. C'est déjà un dictionnaire historique terriblement poussiéreux. Ce ne serait pas grave (car les dictionnaires historiques sont de beaux outils) si c'était clairement dit, or ce n'est pas le cas : au contraire, fait avec un ordinateur, il était vendu comme le dictionnaire de la modernité, et il faudrait relire les textes de cette époque où l'on se voulait dynamique pour voir que la montagne a accouché d'une souris... Ce ne serait surtout pas grave si les dictionnaires ne servaient pas d'autorités à ceux qui exigent des preuves de l'existence des mots, alors même qu'en se posant la question ils y ont répondu.
Le TLFi c'est un ossuaire ; on y trouve infinement plus de lexique mort que de lexique vivant (lexique de un an du journal le Monde - lexique du TLFi). Ce n'est pas un Trésor, c'est un Musée, comme on en sait si bien les faire pousser en France.
J'avais pensé pour ma part faire une recherche sur le vocabulaire érotique du TLFi (et sur le lexique argotique/familier) ; gageons qu'il est très chaste en la matière, et, rebelote, qu'à ce titre encore, c'est un dictionnaire du XIXe siècle.
Et ceci vaut pour les usuels (PLI, Bob) : je rapporte une citation ancienne à laquelle vous avez redonné son actualité, qui montre qu'il n'y a rien de nouveau sous le soleil sélectif des lexicologues, qui semblent avoir pour devise d'ignorer par la langue qui se fait : « [un sondage a été fait en 1967 sur le lexique (initiale B) du Nouvel Obs et du Monde, sondage que l'on a confronté aux entrées du Grand Larousse encylp. et du Petit Robert] Pour le premier échantillon - Nouvel Observateur - sur 574 mots testés, 249 soit 43% ne figurent dans aucun des deux dictionnaires-témoins. Pour le second échantillon - Le Monde - sur 136 mots testés, 86 soit 63%, manquent dans les dictionnaires. Ce sondage était certainement trop limité pour être tout à fait représentatif. Il a pourtant confirmé ce que tous les observateurs attentifs savaient : les nomenclatures des dictionnaires les plus récents demeurent très en-deçà de l'usage réel de la langue écrite » (Gilbert, Les arch. du fr. contemp., Lang. fr., 2/69)

Une note bien intéressante.

04 juillet, 2005 04:29  
Blogger Boris New a écrit...

Bravo pour cet image cette photo du paysage lexical récent. (même si j'ai l'impression qu'il pourrait y en avoir plus comme mail, email, télécharger, etc) Cela m'a permis de vérifier que sur ces 93 mots, 45 sont dans la nouvelle et troisième version de Lexique (ce qui me paraît un score correct vu que Lexique s'appuie sur des corpus censés représenter l'usage de la langue).

04 juillet, 2005 09:56  
Blogger Vicnent 31415 a écrit...

avec un accent quelque peu provocateur je le reconnais, mais, à quoi peut-il bien servir, ce dictionnaire de 23000 pages, s'il est remplit de mots (et locutions) que l'on n'utilise plus, et aux abonnés absents des mots de "presque" tous-les-jours ??
Ques des mots comme duffle coat, je veux bien, mais pour ce qui est de Internet par exemple, ça me laisse coi !

04 juillet, 2005 12:02  
Anonymous Sabin a écrit...

Attention, on ne vit pas qu'au présent, on vit au présent et en même temps dans le passé. On prend dans le passé son histoire, sa culture, ses références, son éducation. On y prend aussi trois millénaires de littérature dont cinq siècles de littérature dans un français qu'on est capable de comprendre. Pour moi ce sont autant de bonnes raisons d'être content d'un TLF, même si personnellement il ne m'a vraiment servi qu'à une occasion :-)

04 juillet, 2005 19:08  
Anonymous Thierry a écrit...

gb : "Ce n'est pas un Trésor, c'est un Musée, comme on en sait si bien les faire pousser en France."

Pour toi, "Musée", c'est péjoratif ???

(je pose la question avec une certaine taquinerie, mais sans méchanceté)

04 juillet, 2005 19:16  
Anonymous gb a écrit...

Pas du tout ;) Une proposition pour lui donner un (sous-)titre moins déceptif.
Mais je ne crache pas dans la soupe : un aussi bon dictionnaire historique en ligne, et gratuit, c'est une bien belle chose ; bien mieux que les pdf illisibles de gallica (lisez si vous le pouvez le dico des proverbes de Quitard pour voir ce que je veux dire). Disons qu'entre le projet de départ et le résultat d'arrivée, avec dix ou vingt ans de boulot et tout le gratin des lexicologues, il y a quelque chose de décevant, passée la première joie : c'est déjà daté, pas suivi, pas mis à jour. D'une certaine façon, en privilégiant le passé sur le présent, et en ignorant résolument l'avenir, l'équipe a fait l'inverse de ce qu'il fallait faire. Mais quand on te donne un cheval, même une rossinante...

04 juillet, 2005 19:46  
Blogger Candide a écrit...

Sans vouloir faire le pédant, est-il vraiment étonnant de ne pas trouver "Jamaïquaine"?
Avez-vous cherché "Jamaïcaine" ?

09 juillet, 2005 09:15  
Blogger Jean Véronis a écrit...

Candide> Les deux orthographes sont correctes... Mais il n'y a pas d'article "jamaïcain" non plus. Les deux formes apparaissent chacune une fois ailleurs dans le texte du TLF, dans un exemple pour "jamaïcain" et dans le suffique "-ain" pour "jamaïquain". C'est amusant, le TLF a bénéficié de l'informatique de façon tout à fait pionnière pour l'analyse du corpus de textes (Frantext) sur lequel il est basé, mais personne n'a pensé apparemment à utiliser l'ordinateur pour la construction du dictionnaire lui-même (et par exemple pour les contrôles internes de cohérence et de complétude). C'est pour cela que l'informatisation, postérieure à la publication papier, a été longue et douloureuse. Les premiers tomes étaient composés au plomb... Mais ne jetons pas la pierre, je ne sais pas comment j'aurais moi-même vu les choses dans les années 60!

09 juillet, 2005 09:31  
Anonymous Yannick a écrit...

Dans le T.L.F.I., le mot oxymore n'a pas sa propre entrée ! Il se retrouve seulement dans l'entrée d'alliance : « Alliance de mots (ou oxymore) ». Ne trouvez-vous pas cela curieux (et dommage) ?

27 juillet, 2005 11:08  
Blogger Jean Véronis a écrit...

Yannick> Oui, bien dommage. Il y a des tas de petites incohérences comme ça. Le problème est que le TLF n'était pas informatisé (même s'il était basé sur un corpus de textes informatisés, Frantext)... Il n'est devenu TLFi que bien plus tard. On pourrait maintenant le retravailler et l'améliorer, mais, vu l'état de dégénérescence du CNRS, je n'y crois pas trop...

27 juillet, 2005 13:07  
Anonymous Cedric a écrit...

Merci pour cet article très interessant. Je prend toujours autant de plaisir a vous lire.

02 septembre, 2005 15:00  
Anonymous sarak a écrit...

bonjour,
un commentaire qui n'a pas tellement de rapport avec votre étude sur les mots parus dans les fils RSS du Monde, mais plutôt avec les mots employés à tort et à travers : je vous signale un texte à la fois amusant et triste, qui dénonce les errances lexicographiques dans l'Education nationale

cordialement

07 septembre, 2005 11:02  
Anonymous jean-Luc Benoit a écrit...

Bonjour,
C'est dommage de donner comme qualité première d'un dictionnaire l'exhaustivité d'une nomenclature. C'est effectivement l'argument commercial qui fait vendre la dernière édition de tel ou tel dictionnaire. Mais ça marche ! Et chaque éditeur de faire la liste des mots nouveaux entrés comme gage de la qualité de sa dernière parution. Je n'ai rien contre cette façon d'agir.
Mais on peut avancer également un argument selon lequel un dictionnaire est autre chose. Il est une oeuvre littéraire qui donne le reflet d'un époque. Par sa nomenclature évidemment incomplète et qui semble évidemment obsolète, il estle témoin incomparable d'une manière de vivre et de penser. Le TLF est à classer à côté du Littré, à côté des différentes versions du dictionnaire de l'Académie.
Qui songerait à dire que le Littré est bon à mettre au rebut parce que je n'y trouve pas "fils RSS par exemple"? Ce serait stupide, naturellement.
Voilà pour la nomenclature. Mais il y a d'autres éléments d'appréciations.
Aussi important me semble-t'il est le contenu de l'article et la manière dont chacun est illustré. Lorsque je lis un article, vais-je avoir une idée bien précise non seulement de la chose définie (justesse de la définition ?) mais aussi de la manière dont les sens sont enchâssés les uns dans les autres.(bonne analyse sémantique) Vais-je avoir une idée précise des domaines dans lequel ce mot est employé ? (conditions d'emploi, registres de langue). Vais-je avoir une idée précise de ses collocations,(constructions, mots associés, place des mots associés,etc.)
Enfin, le dictionnaire est un témoin de son temps, comme un roman et il porte aussi la marque de son auteur. Parcourez le Grand Dictionnaire universel du XIXe siècle et vous verrez à la première page transparaître la pensée et les opinions de Pierre Larousse. C'est un régal ! A lire absolument...
L'argument de la richesse, voire de l'exhaustivité de la nomenclature me semble témoigner de cette idée répandue qu'il est bon de posséder la totalité de l'objet de sa quête (les mots d'un dictionnaire) pour s'imaginer être en pleine possession de sa langue. La dominer en somme.
C'est illusoire et vain. Car comme le disait mon copain Mulder :"la vérité est ailleurs" !

09 septembre, 2005 16:06  
Blogger Calamuchons a écrit...

Bonjour,
Je trouve quand même triste que dans un exemple concernant le mot "squelette" il (le TLF)prend comme exemple l'expression :
"mettre un squelette à jour".
Il n'y a je croit que dieu le père qui puisse enlever ou ajouter ('update zoologique') un os, le pauvre humain se contente de le "mettre au jour"

28 novembre, 2009 20:44  

Enregistrer un commentaire