Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

lundi, mai 26, 2008

Handicap: Le scaphandre et le papillon (1)

Vous avez peut-être vu hier soir sur Canal+ le film Le Scaphandre et le Papillon, du réalisateur américain Julian Schnabel, qui a été primé à Cannes en 2007. Il faut dire que l'histoire est émouvante, la plupart d'entre vous la connaissent sans doute. Elle est tirée d'un livre portant le même nom, écrit ou plutôt dicté par Jean-Dominique Bauby (rédacteur en chef du magazine ELLE), cloué sur son lit d'hôpital par un "locked-in syndrome". Paralysie totale à la suite d'un accident vasculaire cérébral : plus rien ne fonctionnait chez lui sauf les clignements de paupières, qui sont devenus sa machine à écrire... L'histoire de cet emmuré vivant qui arrive à écrire un livre avait ému la France entière (c'était en 1997 me semble-t-il).



Je connaissais évidemment la méthode, qui avait été largement relatée dans la presse à l'époque. Son orthophoniste (jouée dans le film par Marie-Josée Croze), lui récitait l'alphabet et Bauby clignait des paupières à la lettre qu'il voulait choisir. Simple. Mais long !

L'orthophoniste avait alors eu l'idée astucieuse de classer les lettres par fréquence décroissante. Tous les joueurs de Scrabble savent qu'en français certaines lettres sont plus fréquentes que d'autres. Le E est sans conteste la plus fréquente. Il y en a beaucoup dans le jeu mais elles ne rapportent guère de points. A l'inverse, les K, W, X, Y et Z sont peu fréquents, mais rapportent beaucoup. C'est évidemment très important : je ne sais pas si vous avez essayé de jouer (en français) avec un Scrabble anglais, mais bonjour la galère !


Si j'étais au courant de la méthode, je n'avais aucune idée de l'ordre exact des lettres utilisé. L'orthophoniste-Marie-Josée Croze explique dans le film qu'elle a bricolé avec des collègues pour calculer la fréquence des lettres en français. Comment, on ne sait pas exactement, mais ça donne l'ordre qui est sur la photo :

ESARINTULOMDPCFBVHGJQZYXKW

Quand j'ai vu la planchette avec cet ordre apparaître, ça m'a tout à fait surpris, car la deuxième lettre après le E est normalement le A. Après, les avis divergent.

Par exemple sur Wikipedia on trouve l'ordre suivant :

EAISTNRULODMPCVQGBFJHZXYKW

Sur le site Apprendre-en-ligne celui-ci :

EASINTRLUODCPMVGFBQHXJYZKW

Le Scrabble ne donne pas vraiment un ordre, mais si on se sert du nombre de pièces pour chaque lettre (13 E, 9 A, 8 I, 6 N, 6 O, 6 R etc.), on obtient l'approximation suivante (entre crochets les ex aequo) :

EAI [NORSTU] L [DM] [BCFGHPV] [JKQWXYZ]

Le Scrabble est donc d'accord avec le A en seconde position. Je ne sais pas à partir de quelle source les statistiques du Scrabble français ont été compilées (ça remonte à 1955, je ne savais pas encore lire...) mais l'original anglais avait été réalisé à partir d'une étude statistique du New York Times.

J'ai fait moi-même un petit calcul sur 2 millions de mots issus du journal Le Monde, et voici ce que j'obtiens :

EASNIRTULODCPMVFGQBHXJYKZW

Toujours le A en second. Le reste varie, selon le type de texte (et selon leur taille), mais le début, E, A est assez stable. C'est du moins ce que je raconte à mes étudiants chaque année...

Enfin, je ne leur raconte pas tout à fait ça. L'histoire est plus compliquée ! L'ordre ci-dessus suppose que l'on ait supprimé les accents et la cédille (c'est-à-dire qu'on ait transformé É en E, etc.). Si l'on calcule la fréquence des caractères sans faire cette opération, on obtient un ordre assez différent. Le E est toujours gagnant, mais le S prend pas sur le A (vous aurez compris que c'est à cause du À très fréquent sous forme de préposition, qui vient alors se décompter du A tout court...).

Voici les listes que je donne à mes étudiants dans mon cours :

ESAITNRULODMCPVÉQFGBHÀXÈYÊZÇÔÙÂÛŒKWÏËÜÆÑ
ESAITNRULODCMPÉVQFBGHJÀXÈYÊZÂÇÎÙÔÛÏKËW

La première a été fournie par Engwall en 1984 (à partir de romans), la seconde par mon collègue Etienne Brunet en 1981 (à partir de littérature aussi).

Moi-même j'ai calculé la liste sur 2 millions de mots du Monde, comme précédemment, et voici ce que j'obtiens :

ESANIRTULODCPMÉVFGQBHÀXJÈYÊKZÇÔWÂÙÛÓËÎÏÜÖÄÆ

Vous voyez que le S passe en seconde position là aussi. La différence avec les listes de Brunet et Engwall tient très probablement à la différence entre types de textes.

Mais vous remarquerez que ma liste est étonnamment proche de la liste du Scaphandre ! La première rangée de huit lettres est presque identique à une permutation près (en gras). C'est particulièrement visible si on supprime les lettres accentuées de la liste (Le Monde est en haut, le Scaphandre en bas) :

ESARINTULOMDPCFBVHGJQZYKXW
ESANIRTULOMDPCFBVHGJQZYXKW

La liste du Scaphandre, bricolée par l'orthophoniste selon le film, s'appuie donc sur une fréquence de lettres très proche de la liste du Monde. La concordance me paraît difficile à imputer au hasard, quand on voit la variabilité des lettres même sur des corpus de très grande taille (comme ceux d'Engwall et Brunet). Je trouve impossible que la liste ait été "bricolée" par une orthophoniste lambda, même talentueuse, à partir de textes qu'elle aurait eu sous la main (forcément petits et forcément disparates). Voici par exemple la liste que j'obtiens à partir du Petit Prince :

EISTANRULOPDMCVJQBFGHXYZW

Vous voyez les variations flagrantes par rapport aux listes précédentes.

J'ai donc fortement l'impression que c'est sur le journal le Monde (qui était largement disponible à l'époque sous forme électronique, CD-ROM ou autre), que la liste a été calculée. Et très probablement, ceux qui ont compilé la liste ont fait une erreur logique, ignorant les lettres accentuées au lieu de les désaccentuer et de les intégrer dans le calcul...

Alors ? Quelqu'un en sait-il plus ? Mon hypothèse est-elle fausse ? (si oui, il va quand même falloir m'expliquer comment une telle similitude peut-être obtenue !)

Question subsidiaire : l'ordre exact a-t-il vraiment beaucoup d'importance ? Si par exemple l'orthophoniste du Scaphandre avait tout simplement pris l'ordre des lettres du Scrabble, y aurait-il eu beaucoup de différence dans la pratique ?

C'est la période des exams de fin d'année. Vous avez quatre heures pour y réfléchir...

En tout cas, si quelqu'un connait l'orthophoniste, je serais heureux d'être mis en contact. La vraie, pas Marie-Josée (encore que...).


En savoir plus


Je suis tombé après coup (voir commentaires) sur cet de Bernard G., qui nous parle de tout ça, fait le lien entre le Scaphandre, les imprimeurs et Georges Perec. A lire absolument :

Libellés :


51 Commentaires:

Blogger Henri C a écrit...

La problématique du scrabble et de la dictée par clin d'oeuil est différente. dans un cas on doit constituer des mots d'au moins 2 caractères. Donc les "à" "d'" par exemple n'apparaissent pas dans le scrabble alors que la personne qui voudrait dicter un texte doit également exprimer ces mots d'un caractères.
L'espace et les ponctuations seraient également nécessaires à la dictée...

26 mai, 2008 21:43  
Blogger Gaby a écrit...

Cela me rappelle beaucoup les algorithmes de tri. Dans un premier temps on cherche le plus petit de la liste pour l'ajouter à la liste triée. Bref, la méthode la plus lente...
Une simple dichotomie aurait permis d'augmenter considérablement l'efficacité. Un clignement, les lettres de droite, deux celles de gauche. Pause et on continue.
Il faudrait ensuite trouver l'arbre le plus efficace en français et le comparer avec la méthode "Croze".

Au boulot! ;)

26 mai, 2008 22:04  
Blogger Jean Véronis a écrit...

Henri> Oui, vous avez raison sur la différence entre le Scrabble et la dictée (et donc les fréquences dans un texte). Donc la deuxième lettre du Scrabble devrait être un S, pas un A...

Je ne sais pas trop comment faisait l'orthophoniste pour la ponctuation. Elle devait deviner, et faire à sa façon, je suppose.

26 mai, 2008 22:09  
Blogger Jean Véronis a écrit...

Gaby> Vrai. On trouve la bonne lettre dans un ensemble de 26 lettres en 5 coups au plus (et bien moins en moyenne) ( 5 = Log2 (32) ). Du coup on pourrait ajouter l'espace, et quelques ponctuations.

Petit hic : comment mémoriser tout ça ?

26 mai, 2008 22:11  
Anonymous alphoenix a écrit...

Et dire que moi, lorsque je suis sorti j'étais tout retourné et loin de penser à ces histoires. Je me suis d'abord demandé comment il bavait et perdait sa lèvre du bas. Sinon, c'est pas faux que la méthode dichotomique serait mieux. Ou alors la même machine que le mathématicien, qui détecte la position de l'oeil, s'il pouvait les bouger...

26 mai, 2008 22:14  
Blogger Gaby a écrit...

Au final on retrouverait une sorte de morse optimisé pour les clignements. Et cela n'est pas insurmontable à apprendre!

Je pensais plus à une répartition par division, il faudrait 50% des lettres de chaque côté (en apparition bien entendu). Il pourrait il y avoir 7 niveau pour atteindre le W, mais combien de temps gagné sur les lettres du milieu!

26 mai, 2008 22:27  
Blogger Jean Véronis a écrit...

Gaby> La méthode dichotomique paraît praticable si on montre les lettres sur une planchette, mais dans le film l'orthophoniste récite (ce qui va très vite). Comment adapter la chose à la recherche dichotomique ? Il y a peut-être moyen, mais ça ne me vient pas...

26 mai, 2008 22:39  
Blogger Jean Véronis a écrit...

Alphoenix> Les techniques de détection des mouvements oculaires commençaient à exister dans les labos à l'époque. Je m'étais d'ailleurs demandé pourquoi l'hôpital ne s'était pas procuré un prototype. Bizarre. Ca aurait drôlement soulagé l'orthophoniste (et Bauby !).

26 mai, 2008 22:41  
Blogger Méchant Kiki a écrit...

Il existe un logiciel libre (Dasher) basé sur ce principe de fréquence. L'idée de l'auteur est d'arriver à écrire aussi vite qu'à la main rien qu'en suivant les mouvements occulaires. C'est assez bluffant.

http://www.inference.phy.cam.ac.uk/dasher/

26 mai, 2008 23:03  
Anonymous Christophe Jacquet a écrit...

Plutôt que la méthode dichotomique simple dont parle Gaby (qui correspond au parcours d'un arbre de décision pour le décodage d'un code binaire de longueur fixe), il aurait été possible d'utiliser un code à longueur variable (type code de Huffman). Dans ce cas, on parcourt toujours un arbre de décision, mais les lettres les plus fréquentes reçoivent des codes plus courts (largement plus courts que log(n)).

Effectivement, le code Morse est un bon exemple de code à longueur variable (même si ce n'est pas un code de Huffman), qui aurait peut-être été adapté à ce cas précis...

Je ne sais pas comment à été établi le code Morse international, mais il semble qu'il tienne compte de la fréquence des lettres dans une langue occidentale (anglais probablement) : les lettres les plus courtes sont E et T (1 symbole), puis I, A, N, M (2 symboles), etc.

26 mai, 2008 23:18  
Blogger Vicnent a écrit...

Jean, avec 2 millions de mots, on ne doit pas être très loin du top en terme de TCL : si tu refais le test sur libé ou lefigaro, tu penses vraiment que tu aurais un résultat très différent de celui obtenu sur lemonde.fr ?(toujours sur 2 millions de mots)

J'allais dire Huffman également pour l'autre méthode.

26 mai, 2008 23:29  
Blogger Vicnent a écrit...

TCL évidemment.

26 mai, 2008 23:31  
Anonymous narvic a écrit...

J'ai gardé un souvenir très ancien en mémoire, du temps de mon enfance (il y a une trentaine d'années), lorsque je m'intéressais à la cryptologie (à l'époque je ne connaissais pas vraiment le mot, j'appelais ça des "codes secrets").

Un petit livre sur le sujet, destiné à des adolescents et qui m'avait passionné, indiquait une méthode de décryptage de certains codes basée sur votre propos et qui proposait une fréquence des lettres différentes.

Je l'ai gardée en mémoire, car la formule est plus facile à mémoriser que les vôtres :;-). Ça donnait ENARSITUOL.

Je ne sais d'où ça vient, ni quelle était la méthode. C'est juste un souvenir d'enfance... :-)

27 mai, 2008 00:33  
Blogger TOMHTML a écrit...

Il y a tout de même une sacré différence entre Le Monde (et autres journaux) et des romans. Pourquoi ? En général, dans les romans, on parle au présent du narrateur, alors que dans les articles de journaux on parle de ce qui s'est passé la veille => on parle au passé => passé composé => "a dit", "a réalisé", "a voté", ...

Lors d'un exercice en cours de maths, j'avais eu l'occasion de rédiger une application pour compter les caractères (désaccentués) et il n'y avait pas la même proportion dans les articles du Figaro (et consors) que dans les textes de Victor Hugo (et consors).

Dans les ensembles de romans, j'ai souvenir que les premiers caractères étaient ESAN.

Je vous laisse méditer là dessus.

27 mai, 2008 07:16  
Blogger Daniel a écrit...

La lettre S est-elle à sa place en deuxième ou troisième position ?
Dans un grand nombre de cas elle marque le pluriel et n'a pas besoin d'être 'récitée' celui qui écrit la met automatiquement.

27 mai, 2008 08:00  
Blogger Jean Véronis a écrit...

Méchat Kiki> Merci pour le lien sur Dasher. C'est un des systèmes auxquels je pensais quand je disais que des prototypes de systèmes d'écriture assistée basés sur les mouvements oculaires commençaient à exister dans les labos. Je crois que Dasher a été annoncé en 2000 (à la conf UIST 2000), mais David J Ward a commencé à y travailler plus tôt (dans le cadre de sa thèse). De mémoire, il me semble qu'il a réalisé un premier proto justement en 1997, car je me souviens qu'à l'époque la coïncidence avec la méthode assez rustique du Scaphandre m'avait frappé. J'ai un regret, de ne pas avoir alerté l'hôpital de Bauby : je me suis dis à l'époque que s'ils avaient rejeté ce type de technique (même hautement expérimentale), c'est qu'ils avaient une raison (ergonomique ou autre),mais maintenant je le regrette. Aussi incroyable que ça puisse paraître, ils n'étaient peut-être pas au courant. En tout cas, je ne sais pas jusq'uà quel point le film reflète la réalité, mais le dialogue sur le bricolage artisanal de Marie-Josée Crozer me le laisse penser... Peut-être que la vraie orthophoniste nous lira un jour : je serais très intéressé à en savoir plus.

En tous cas amis lecteurs, allez voir la démo de Dasher, c'est effectivement bluffant (on peut simuler le mouvement de l'oeil avec la souris).

27 mai, 2008 09:02  
Blogger Jean Véronis a écrit...

Christophe Jacquet> Oui, tout à fait : un arbre de décision peut-être largement optimisé par rapport à une simple recherche binaire. Je n'ai pas fait le calcul (qui ne serait pas très compliqué), mais on doit pouvoir fortement diminuer le "temps" moyen de parcours de l'arbre (tout en allongeant, bien entendu, le cas le plus défavorable, au de-là de log2(n)).

Je ne sais pas comment Samuel Morse a procédé pour concevoir son alphabet. Il est clair qu'il reflète au moins approximativement les fréquences de l'anglais. Mais Morse a-t-il procédé de façon intuitive (on avait connaissance de ces questions à travers la cryptographie depuis assez longtemps) ou bien a-t-il analysé un corpus de texte ? Peut-être que des lecteurs savent...

C'était vers 1835 (premier message en 1844, le fameux "What has God wrougth ?"). On cite toujours les premiers travaux d'analyse statistique de grands corpus comme datant de la fin du XIXe siècle (Kaeding, 1897 pour l'allemand, Estoup, 1902,pour le français, dans le cadre de la mise au point de la sténographie), mais il existait peut-être des travaux bien plus anciens (dans le cadre de la cryptographie).

27 mai, 2008 09:26  
Blogger bob a écrit...

Si on veut conserver la méthode mais l'améliorer, on pourrait contextualiser l'occurrence de la lettre. Par exemple, après un "e", il y a pas mal de chance d'avoir une consonne plutôt qu'une voyelle, faire des statistiques sur celle qui a le plus de probabilité d'apparaître suivant les deux lettres employées précédemment. Combiné avec un dictionnaire et a un affichage dynamique de l'ordre des mots, il y a possibilité de faire des choses intéressantes.

Problème, cela demande beaucoup d'apprentissage de la part de l'utilisateur.

Un système de code peut être bien plus efficace, avec notamment des raccourcis pour les mots les plus usuels. Ou alors, un mélange des deux pourrait être intéressant.

27 mai, 2008 09:39  
Blogger arnul a écrit...

Une hypothèse "externe", disons: le monde de l'imprimerie. Je me souviens vaguement d'un cours sur l'histoire de l'édition où l'on disait que les imprimeurs disposaient les lettres dans la casse par ordre de fréquence. Je me souviens bien que les trois premières étaient E S A, la suite je ne sais plus. Ce serait intéressant de vérifier cela, pour voir si l'ordre, avant nos machines, avait été calculé de manière empirique. Peut-être cette orthophoniste a t elle téléphoné à son éditeur qui lui même a téléphoné à un imprimeur etc. tout simplement.

27 mai, 2008 09:55  
Anonymous Vincent² a écrit...

Bonjour,

Un truc con sinon : on sépare les premières lettres des autres. Je pense que l'ordre s'en trouve modifié : si le "s" marque le pluriel, alors il se trouvera moins souvent que les autres en premier. On peut aussi intégrer des mots simples comme "et", "à", ... Je pense que le plus simple (mais ça demande confirmation par l'expérience), c'est d'avoir une liste de mots qui se répètent et de lettres, un truc comme 100 "bouts" de mots (je ne suis pas linguiste). Il choisit alors ce qu'il veut par la méthode du diviser pour régner.

Sinon, la méthode syllabique est aussi pas mal je pense.

A part ça, il n'est pas dit que la liste du film soit la même que celle utilisée "pour de vrai".

A bientôt.

P.S : 2 semaines d'interruption ! Tu nous snobes parce que ton livre marche bien ?

27 mai, 2008 10:19  
Blogger Q a écrit...

J'ai l'impression que quel que soit les textes analysés on retrouve toujours des mêmes groupes de lettres dans le même ordre, d'abord E, puis S, puis A, puis [NIRT] dans le désordre, puis [ULO], puis [DCPM], etc...

Est-ce qu'il existe des "sauts" dans les statistiques, qui permettraient de dégager des groupes constants de lettres équivalentes entre elles en terme d'occurrence, quel que soit le texte ? Ca mettrait tout le monde d'accord...

27 mai, 2008 10:20  
Anonymous Nico7 a écrit...

Et les statistiques du bouquin "Le Scaphandre et le Papillon" ? Il me semble que ça s'impose, juste pour vérifier si le classement des lettres proposé était optimal (tout en vérifiant si le classement des lettres raconté est le même que dans le film)?
"Une orthophoniste lambda" n'aurait que des textes "petits et disparates" sous la main? Et la littérature médicale spécialisée, peut-être déjà sur disquettes à l'époque?
Juste une hypothèse parmi d'autres, mon cher Watson ;-)

27 mai, 2008 11:58  
Anonymous peyu a écrit...

Bonjour,
Juste une question: dans la liste de lettres que vous donnez à vos étudiants, la dernière lettre est le "Ñ".

Cette lettre existe en français? Je pensais qu'elle existait seulement en espagnol...

27 mai, 2008 12:02  
Anonymous sandiet a écrit...

Vous allez peut-être pouvoir répondre à une question essentielle (si, si !) que je me pose depuis des lustres et à laquelle tous mes profs de français n'ont jamais su donner de réponse satisfaisante.

Pensez-vous que la fréquence d'apparition des lettres non omises dans La Disparition de Perec est globalement la même que dans la langue écrite courante ?

27 mai, 2008 13:16  
Anonymous Stéphane a écrit...

@peyu.

Dans Wiktionary, il est fait mention d'un seul et unique mot :

Le tilde n'est pas présent dans l'alphabet français à part dans le nom cañon (qui peut s'écrire aussi canyon. Dans la pratique, c'est la seconde orthographe qui est la plus utilisée.

http://fr.wiktionary.org/wiki/tilde

Au delà de ceci, certains mots repris tels quels dans la presse (el niño, señor...) justifie sûrement sa présence non ?

27 mai, 2008 13:28  
Blogger Jean Véronis a écrit...

Vicnent> Non, en fait même avec des échantillons aussi grands en apparence, on ne converge pas. Il faudra que je fasse le calcul avec d'autres journaux à l'occasion, mais je suis sûr qu'on n'aura pas plus de 7 ou 8 lettres identiques dans le début du classement. C'est ce qui se passe avec les deux listes de Brunet et d'Engwall, toutes deux sur de grands corpus de littérature...

Ca tient à l'incroyable variabilité du langage d'une part, et au fait qu'il se caractérise par des distribution extrêmement asymétriques. Le phénomène est renforcé par le fait que nous regardons l'ordre et pas la fréquence : il suffit d'un chouya dans les frécuens pour changer l'ordre.

En théorie, il est vrai (comme le dit le théorème central limite que tu cites), que tout cela convergerait, même sur l'ordre, avec des très très grands corpus. Mais c'est la théorie.

En pratique, la question qui se pose est : avons-nous des corpus assez grands pour observer cette convergence ? La réponse est très certainement non en ce qui concerne les corpus homogènes (journalisme, littérature).

Reste le Web. Seul Google peut répondre. Mais même-là j'ai des doutes. Le corpus est plus grand, mais la variablité aussi.

Quadrature du cercle textuel ?

Beau sujet pour thésards du XXIe siècle.

27 mai, 2008 13:41  
Blogger Jean Véronis a écrit...

Bon sang ! c'est dingue ce que billet génère comme commentaires. Et pour parler de stats, c'est fou, non ?

J'ai pris du retard dans mes réponses, manifestement, alors tant pis pour l'ordre, je réponds à la dernière, qui est facile :

Peyu> dans la liste de lettres que vous donnez à vos étudiants, la dernière lettre est le "Ñ". Cette lettre existe en français? Je pensais qu'elle existait seulement en espagnol... -- Tout dépend de ce qu'on entend par "français". Dans tout texte de quelque ampleur se trouve des mots comme cañon, qui sont certes importés mais n'en sont pas moins français. Le TLF donne cette orthographe comme parfaitement admise, avec canyon et canon, en citant Blaise Cendrars : un étroit cañon, tout planté de chênes verts...

27 mai, 2008 13:51  
Blogger Jean Véronis a écrit...

Fou, fou, fou, comme je disais ci-dessus. Je n'avais pas trmié ma réponse à Peyu que Stéphane avait déjà répondu.

Qu'est-ce vous avez aujourd'hui ? y'a rien faire au boulot ? Ou alors c'est l'addiction : il suffit que je n'écrive pas de 15 jours, et vous voilà en manque grave. Quand le dealer de mots revient c'est la grosse défonce !

En touts cas, merci. Ca fait plaisir (et on n'a pas abordé l'aspect humain, handicap et tutti, mais c'est aussi un sujet qui me tien à coeur...)

27 mai, 2008 13:54  
Blogger TOMHTML a écrit...

Dépendance 2.0 ?
Ou article très intéressant, ça aide aussi.

27 mai, 2008 14:06  
Anonymous Vincent² a écrit...

c'est fout ce qu'on peut faire avec un seul oeil. Alors avec deux...

On pourrait tenter des expériences. Je suis partant.

au fait, il ne faut pas oublier l'intélligence de l'orthophoniste, qui peut zapper des lettres, comme le "a" après le "e".

27 mai, 2008 14:21  
Blogger Jean Véronis a écrit...

Narvic> ENARSITUOL ? Tiens tiens :

http://www.google.fr/search?q=ENARSITUOL

Pas totalement inconnu. Donc, il doit effectivement y avoir une histoire là-dessous. Je serai curieux de la connaître !

Au fait, j'en protite pour noter la rapidité d'indexation des commentaires dans Google. Le commentaire de Narvic y est déjà (et contribue ainsi à la propagation de ce nouveau mot "ENARSITUOL" !)

27 mai, 2008 14:28  
Blogger Jean Véronis a écrit...

Désolé pour les coquilles diverses et variées, vu la masse des commentaires, j'essaie de répondre vite, mais mes doigts (ou mes neurones ?) ne suivent pas...

27 mai, 2008 14:36  
Blogger Jean Véronis a écrit...

TomHTML> différence entre Le Monde (et autres journaux) et des romans -- oui ! différences de temps, d'auxiliaires, de personnes, etc. Beaucoup de J dans la littérature (à cause de J), beaucoup de Z (surtout dans les dialogues, à cause de la 2e personne) et ainsi de suite : beaucoup de W dans les documents de la SNCF (non, je déconne -- encore que !)...

Les différences tiennent parfois à pas grand-chose. Si le I arrive en 2e position dans le Petit Prince, c'est à cause de ces deux mots, "petit" et "prince", qui contiennent chacun un I ! Si on les enlève, le I passe à la troisième position (derrière le S, dû à la seconde personne des dialogues). le P est plus fréquent aussi à cause de ces deux mots qui lui font gagner 3 places...

Dingue, non? Si Saint-Ex s'était douté qu'on allait faire ça avec son texte, il aurait égorgé son mouton ! (dans une baignoire)

27 mai, 2008 15:16  
Blogger Jean Véronis a écrit...

Daniel> La lettre S est-elle à sa place en deuxième ou troisième position ? -- C'est vrai que dans toute la discussion qui précède, on ne tient pas compte du fait que l'orthophoniste peut deviner la fin des mots (Vincent² y fait allusion un peu plus loin). Vous me coupez un peu l'herbe sous le pied, je comptais en parler dans la suite de ce billet. Tenir compte de la prédictibilité des mots est certainement une façon majeure d'améliorer la méthode !

27 mai, 2008 15:31  
Blogger Jean Véronis a écrit...

Bob> contextualiser l'ordre des lettres -- c'est un peu la même idée, au fond. Mais évidemement, "dictionnaire et a un affichage dynamique de l'ordre des mots" ça implique de la technologie (écran, caméra), ce qui est tout à fait possible "de nos jours" (et existait déjà en prototype à l'époque, voir plus haut).

27 mai, 2008 15:35  
Blogger Jean Véronis a écrit...

Arnul> les imprimeurs disposaient les lettres dans la casse par ordre de fréquence -- oui, c'est vrai : les typographes utilisaient ESARTINULOC.

Et devinez quoi, en tapant ce mot sur Google, je tombe sur un billet de Bernard G., un fidèle lecteur, qui commente souvent ici, qui décrit tout ça, nous renvoie à Georges Perec... et au Scaphadre et au Papillon !

Je ne peux que recommander la lecture de son excellent billet, en regrettant seulement de ne pas l'avoir lu avant d'écrire le mien (mais je vais ajouter le lien).


Quant à l'ordre des imprimeurs, vous verrez dans le billet de Bernard G. que son origine n'est pas tout à fait claire, mais de toute façon, il ne ressemble que de loin à celui du Monde. La similitude entre l'ordre de Scaphandre et celui du Monde ne peut pas être un hasard (étant donnée la variabilité extrême dont on parlait plus haut).

Donc l'orthophoniste a eu accès à une version informatisée du Monde, ou (assez probablement) a fait appel à des gens, thésards ou autres, qui y avaient accès dans un labo quelconque et lui ont sorti la liste de fréquences (avec un bug). Parce que ce n'était pas évident de traiter une grosse masse de données pour extraire des fréquences (avec quel programme, etc.). A moins que l'orthophoniste n'ait été une "geek" avant l'heure, mais bon...

J'ai eu moi-même assez souvent des demandes d'orthophonistes de listes de fréquences diverses et variées (mots, bigrammes, etc.), que j'ai d'ailleurs parfois mises sur mon site ici.

Qui sait, c'est peut-être moi, finalement, sans le savoir, qui ait propagé ce truc-là, dans les années 90 !!! Aaaargh... Pincez-moi, ça devient un film de SF !

27 mai, 2008 15:50  
Blogger YayaPop a écrit...

Bonjour,

Un documentaire avait été réalisé du vivant de Jean Dominique Bauby dans l'hôpital de Berck par Jean Jacques Beineix je crois.

Il avait été diffusé sur France 2 ou 3 et on y voyait l'orthophoniste.

Si cela vous donne une piste pour la retrouver...

27 mai, 2008 16:02  
Blogger arnul a écrit...

Fascinant, revoilà Perec.

Alors s'il s'avère que la suite
ESANIRTUL
est hyper fréquente, alors peut-être ses anagrammes sont-ils de fait nombreux.

Il me semble que c'est le cas. il y a autour de 5000 suites de mots possibles ( en français ) avec seulement 9 lettres.

Je ne les cite pas toutes ici, alors voici une petite sélection récréative ( si ça fait sens c'est pas ma faute, c'est les astres )

Salut, Rien,
Latin User,
Sel Taurin,

Un Sale Tri
Est Un Rail,
Train Seul,
Laser In Ut,
Reluisant.

Ta Lune, Sir.
t'as rien lu

27 mai, 2008 16:41  
Blogger Danilo a écrit...

@NARVIC: En colonie de vacances "Arsène Lupin", du côté d'étretat, le moniteur qui faisait une initiation à la cryptologie nous enseignait le ENARSITUOL.
Ça remonte à la fin des années 80, mais je n'ai aucune idée de l'origine.
En dehors de la cryptographie, c'est utile aussi pour le jeu télé "la roue de la fortune" :)

Pour la partie "deviner la fin des mots", la plupart de nos téléphones savent le faire, avec le logiciel d'écriture de SMS.

27 mai, 2008 17:14  
Anonymous Dominique a écrit...

Moi, je me demande ce que peut être le sujet du (2) qui est annoncé par le (1). Il n'y a même pas un petit "teaser" pour faire (im)patienter... Difficile de deviner la suite.

27 mai, 2008 22:22  
Blogger Jean Véronis a écrit...

Vincent²> Oui, il y a tout un tas de méthodes possibles, et bien plus optimales en théorie. En pratique, cependant tout dépend du média utilisé. Si l'on récite par coeur une liste, sans support, il faut que ce soit très simple. Si l'on se sert d'une planchette, ça peut être un peu plus compliqué, mais à peine. Un écran d'ordinateur permet évidemment plus de souplesse (mais est difficile à utiliser dans certaines situations, et avec certains types d'affection)...

P.S : 2 semaines d'interruption ! Tu nous snobes parce que ton livre marche bien ? -- Le bouquin a effectivement généré pas mal de "service après-vente" : interviews, télés, etc., ce qui prend pal mal de temps. Et puis je vous ai fait quelques infidélités en écrivant ailleurs (par exemple la série de billets pour le Monde).

Mais surtout j'ai fait beaucoup de travail de recherche ces derniers temps (sur les mécanismes de buzz en particulier), et on peut dire que j'y passe mes jours et mes nuits, ou presque. C'est passionnant...

28 mai, 2008 09:40  
Anonymous blop a écrit...

Beaucoup plus rapide que de faire tout l'alphabet et plus facile a retenir : prendre un telephone portable, le mettre en mode sms-dictionnaire (c-a-d avec une reconnaissance automatique des mots) et c'est parti. "1234567890" a chaque lettre, ca suffit...

28 mai, 2008 12:18  
Anonymous Franck Poirier a écrit...

L'ordre des lettres calculé par Jean "esanirt..." est exactement le même que celui qu'on avait calculé dans la thèse d'Igor Schadle (2003)... sur le même corpus du Monde.
On trouve effectivement beaucoup de variantes pour l'ordre fréquentiel des lettres.
Sur le site Lexique.org, la fréquence des lettres calculée est par exemple "esaintr...".
La meilleure référence reste sans doute le "Manuel des castors juniors" qui donne "esantir..." !
L'ordre le plus courant est celui du clavier fréquentiel aussi appelé clavier "esarin" (comme on dit "azerty"). Il es intéressant de remarquer que les deux premières lettres sont la marque du féminin et du pluriel.
On peut bien sûr citer Dasher comme clavier virtuel, personnellement je le trouve vite fatiguant. Je me permettrai d'indiquer le clavier Sibylle développé dans la thèse de Igor Schadle et utilisé en pratique par des IMC et des LIS.
Un dernier mot, pour communiquer, l'ordre le plus approprié est certainement "ejarin" qui remonte le "j" en 2e position, lettre fortement utilisée en communication usuelle avec les mots "j" et "je".
C'est donc semble-t-il le clavier "ejarin" qui serait le meilleur pour un clavier fréquentiel simple (il existent bien d'autres claviers plus performants, mais ce n'est pas le but de ce commentaire de faire un état de l'art sur le sujet).

31 mai, 2008 16:10  
Anonymous vincent a écrit...

un rappel, pour ceux qui cherchent des

OUTILS SIMPLES DE COMMUNICATION AVEC 1 VICTIME LIS :

http://alis-asso.fr/ewb_pages/c/communiquer_sans_parole.php

ça peut servir, les personnels médicaux ne savent souvent pas eux-même comment communiquer !!!

01 juin, 2008 00:09  
Blogger EL JAMIL SOUFIANE a écrit...

Salut,

Cet article est très intéressant. Devinez avec quoi je l'ai lu... Simplement avec un ordinateur équipé d'une synthèse vocale et si je le voulais, j'aurais pu le lire avec une plage braille pour renforcer le tout. Tout ca pour dire àVincent² que l'on peut faire beaucoup de choses sans utiliser aucun oeuil lol. Heureusement que les nouvelles technologies sont là pour nous aider à avoir une communication plus aisée.

07 juin, 2008 22:57  
Blogger Jean Véronis a écrit...

Franck> Merci pour ton mot! je ne savais pas que le Manuel des Castors Juniors avait abordé la question!

Je connais le travail d'Igor, que j'avais eu le plaisir de rencontrer il y a quelques années. J'ai en parlé hier avec Jean-Yves Antoine à Avignon. Si j'arrive à avoir quelques copies d'écran et un peu de doc (et si le temps le permet!), je parlerai peut-être de Sibylle, qui est effectivement un système fort intéressant.

Quand au J... j'ai fait des essais et j'ai eu quelques surprises (à suivre dans un prochain billet)..

11 juin, 2008 10:41  
Blogger Jean Véronis a écrit...

Vincent> un grand merci pour le lien vers les outils de communication. Je mets le lien en version cliquable ici :

http://alis-asso.fr/ewb_pages/c/communiquer_sans_parole.php

11 juin, 2008 10:42  
Blogger Jean Véronis a écrit...

El Jamil Soufiane> Merci de votre témoignage. Oui, on peut faire beaucoup de choses, même avec un handicap ! Et c'est vrai que les nouvelles technologies peuvent faciliter énormément les choses. Il faut développer la recherche dans ce secteur !

11 juin, 2008 10:44  
Anonymous Raph a écrit...

C'est amusant parce que dans mes souvenirs de lecture de jeunesse, Pif poche, Okapi ou, plus tard, Jeux et Stratégies, la séquence de lettres que j'ai toujours gardée en mémoire est : ESANTIRULO.
J'ai toujours des exemplaires de ces revues, si j'ai le temps je pourrais jeter un oeil...

20 juin, 2008 12:20  
Anonymous Dr Jay Kill a écrit...

En l'espèce, appliqué au cas de la méthode d'orthophonie dans le Scaphandre et le Papillon (diffusé sur Arte ce mercredi 13 juin), se baser uniquement sur la fréquence des lettres apparaît absurde : quand un patient s'exprime, il a parfois besoin d'utiliser des pronoms personnels : "Je" ou "Mon/ma" Avec la méthode employée, le J et le M sont relégués loin... Ils devraient occuper pourtant les 2 premières places... A quoi songent les praticiens ??

14 juin, 2012 16:49  
Anonymous Olivier a écrit...

ENARSITUOL

Bonjour

J'ai aussi retenu cet ordre, mais je me souviens de son origine : Il s'agissait d'un petit livre édité pour les scouts où on trouvait comment fabriquer des pièges, récupérer de l'eau etc, et également les bases du cryptage et décryptage.

28 janvier, 2013 01:09  

Enregistrer un commentaire