Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

vendredi, février 11, 2005

Lexique: Yahoo et les yahoourts


A Henri, grand amateur d'informatique,
de langues et de yaourts,
et qui a eu la mauvaise idée de nous quitter trop tôt.

J'espère que le paradis n'est pas virtuel, et que tu nous y attends.



Le petit billet de Langue sauce piquante sur le yaourt a évidemment déclenché mon réflexe pavlovien habituel : me jeter sur Google en salivant (malgré ses petits soucis en maths) pour chercher la fréquence des différentes orthographes : yaourt, yoghourt... Mais j'ai aussitôt ressenti comme un flottement m'envahir : quelles sont au juste les orthographes possibles pour yaourt ? Le TLFI en donne trois en vedette : yaourt, yogourt, yoghourt, mais cite dans le texte tout un tas d'orthographes utilisées par des auteurs ou données par d'autres dictionnaires au fil du temps : yoghourt, yogourth, yoghourth, yohourt, yohourth, yahourt, yahourth, yagourt, yogourt, yoghourt, yoourt. Pour trouver la fréquence des différentes orthographes sur Internet sans pédaler dans le yaourt, il faudrait déjà avoir un moyen de les lister correctement.

Un peu de réflexion : il y a sept parties, on va dire graphèmes, dans ce mot, et chacune peut avoir des variantes. Je serai généreux en acceptant de commencer le mot par y ou i (on verra bien si iaourt, etc. sont attestés ou pas sur Internet). On peut résumer la combinatoire sous forme d'un tableau (je marque -0- pour les graphèmes facultatifs) :

1234567
iagourth
yoghoou

-0-


hu




-0-




Cela fait 2 x 2 x 4 x 3 x 1 x 1 x 2 = 96 possibilités. Il n'y a plus qu'à écrire le programme correspondant...

Oui, mais il y a des trucs pas nets qui nagent dans le yaourt. Ma belle logique sort des formes comme yaurt, ou yourt que j'ai bien du mal à prononcer en deux syllabes... Là, il m'a fallu un p'tit Yop pour me remonter ! Mon programme doit donc respecter la logique phonologique du français, et générer séparément les deux syllabes du mot, avec une règle gérant l'hiatus à leur rencontre : a+o ça fait deux syllabes, mais a+u ou o+u ça n'en fait qu'une. Dans ce cas, le g, gh ou h n'est plus facultatif, il faut l'insérer absolument pour rendre le mot correctement lisible : yagurt ou yahurt, par exemple. Maintenant que la situation est clarifiée, il suffit d'écrire quelques lignes de code, et voilà le résultat :

ya-yo-ia-io-
yagoourtyogoourtiagoourtiogoourt
yagoourthyogoourthiagoourthiogoourth
yaghoourtyoghoourtiaghoourtioghoourt
yaghoourthyoghoourthiaghoourthioghoourth
yahoourtyohoourtiahoourtiohoourt
yahoourthyohoourthiahoourthiohoourth
yaoourt
iaoourt
yaoourth
iaoourth
yagourtyogourtiagourtiogourt
yagourthyogourthiagourthiogourth
yaghourtyoghourtiaghourtioghourt
yaghourth
iaghourth
yahourt
iahourt
yahourthyoghourthiahourthioghourth
yaourtyohourtiaourtiohourt
yaourthyohourthiaourthiohourth
yagurtyogurtiagurtiogurt
yagurthyogurthiagurthiogurth
yaghurtyoghurtiaghurtioghurt
yaghurthyoghurthiaghurthioghurth
yahurtyohurtiahurtiohurt
yahurthyohurthiahurthiohurth

Cela fait 80 possibilités, si je n'ai pas bugg(h)é ! Il n'y a plus qu'à vérifier tout ça sur... eh bien, sur Yahoo (pages francophones), ça s'impose !

FormeSingulierPlurielTotal%
yaourt1120004940016140074,8
yogourt2610021802828013,1
yahourt134001960153607,1
yoghourt295085338031,8
yogurt343010935391,6
yoghurt117057517450,8
yaourth113012912590,6
yagourt11181190,1
yogourth7318910,0
yaghourt618690,0
yogurth342360,0
yahourth103130,0
yaoourt11
110,0
iogurt6170,0
iogourt6
60,0
yohourt4150,0
yagourth4
40,0
iagourt2
20,0
yaghurt1120,0
yagurt1120,0
iaourt1
10,0
ioghurt1
10,0
yahoourt1
10,0
yahurt1
10,0
yoghoourt
110,0
yohurt
110,0
Total16050855251215759100

Il y a 26 formes attestées, et les gagnants sont yaourt, yogourt et... yahourt, pas du tout yoghourt que nous donne le respectable TLFI (cette forme n'arrive qu'en quatrième position).

Et si l'on autorisait l'étirement du oooooooooooo ? La "netlangue" s'amuse beaucoup avec ça pour marquer des émotions : biiizzzz ! je t'aiiime ! etc. Joue-t-elle aussi avec la nourriture ? Je n'ai évidemment pas testé l'infinité des séquences. Seul le dieu Godgle pourrait peut-être, et encore. Je me suis limité à trois o consécutifs. Résultat : pas de yahooourts, ni de yoghooourts, sur le Net, rien du tout. Manque total d'émotion pour les produits laitiers. Il faudrait peut-être lancer une marque ? Yahooourt ! ça sonne bien. Et comme il n'y en a pas sur Internet, nous serions premiers sur tous les moteurs ;-) On pourrait se faire un sacré beurre.

Quelle complexité tout de même pour un seul mot ! Il faudrait peut-être éviter d'importer n'importe quoi à l'avenir, ou alors demander une directive européenne qui normalise les orthographes... En tous cas, je crois que je vais boire du petit lait en lisant vos commentaires. "Il nous fait tout un fromage pour un yaourt", etc. Allez-y, ne vous gênez pas, je n'en ferai pas un flan ; les commentaires, c'est comme le lancer de petits suisses à la cantine, ça défoule (mais ça salit moins!).

Exercices pour la semaine prochaine


1. Exercice à 0% : parmi toutes ces formes, lesquelles sont reconnues par les correcteurs orthographiques A) de Google, B) de Yahoo, C) de MSN, D) de votre traitement de textes favori ? Que concluez-vous ?

Exemple :






Avantage Google.

2. Exercice au lait entier, pour les experts seulement : qui trouvera la plus petite expression régulière qui génère cet ensemble de séquences (et celles-là seulement)?

12 Commentaires:

Anonymous kefyr a écrit...

Non là franchement y déblog...

11 février, 2005 12:49  
Blogger Jérôme Charron a écrit...

Vous faites dans ce billet, un peu la même "gymnastique" que celle que je réalise parfois lorsque je ne suis plus tout à fait certain de l'orthographe d'un mot: Je lance une recherche avec les deux orthographes envisagées et je retiens celle pour laquelle le moteur a retourné le plus de résultats (c'est pas joli, joli...).

Mais le Web peut-il aujourd'hui être perçu comme un corpus de l'état actuel des langue? (comme vous le mentionnez dans votre billet, la "netlangue" est souvent déformée, mal orthographiée, ...)

Les langues bougent, évoluent, mais le Web n'en serait-il pas un reflet déformé?

11 février, 2005 14:05  
Blogger Marianne a écrit...

Votre blog est toujours un régal... surtout quand on y parle de yaourt !
A ce sujet, on trouve même quelques yaoort et yahoort. Mais avec aussi peu d'occurrences, difficile de savoir si ce n'est pas juste une faute de frappe.
Pour l'expression régulière, je cherche...

13 février, 2005 21:25  
Blogger Jean Véronis a écrit...

Merci d'apprécier le menu !

J'ai éliminé les finales en -oort, car, selon moi, elles sont assez imprononçables en "ourt". Il y a me semble-t-il vraiment une association "oort" = flamand = prononciation "ort". D'ailleurs une recherche sur "yahoort" m'avais donné des pages en langues étrangères (même avec une recherche francophone) et quelqu'un qui s'est crée un pseudo "yahoort" par jeu de mot... Mais bon, on peut les inclure si on veut, il y en a de toutes façons pas beaucoup.

Pour l'expression régulière, hé hé... pas facile, hein ?

13 février, 2005 21:35  
Anonymous Sabin a écrit...

Allez hop, un petit commentaire laitier de plus : yayourt, 218 résultats, qui dit mieux !

Merveilleux billet que celui-ci, félicitations :)

14 février, 2005 14:29  
Blogger Jean Véronis a écrit...

En réponse à Jérôme :

Je lance une recherche avec les deux orthographes envisagées et je retiens celle pour laquelle le moteur a retourné le plus de résultatsVous connaissez ce petit outil sympa : GoogleFight ?

Mais le Web peut-il aujourd'hui être perçu comme un corpus de l'état actuel des langue?Oui, tout à fait. La linguistique a manqué pendant longtemps de données d'observation. Avec le Web elle a une masse de données gigantesque à disposition et c'est fascinant. Bien sûr, ça n'est pas simple, il y a de multiples pièges -- ne serait-ce que les instruments d'observations (Google par exemple), qui sont imparfaits. Mais c'est la même chose dans les sciences "dures": les astronomes ont dû améliorer leurs téléscopes, etc. Mes travaux sur Google, les comptes, etc. sont un essai de compréhension et d'étalonnage des outils...

Les langues bougent, évoluent, mais le Web n'en serait-il pas un reflet déformé?

Je ne sais pas. Je crois que le Web nous donne un instantané de l'état de la langue, avec de multiples couches, depuis l'ultra-formel littéraire, juridique, etc. jusu'à l'hyper-relâché (forums, etc.). Le problème est de démêler le tout. Mais c'est un peu comme l'astronome qui observe le ciel... C'est très compliqué ; il y a de tout là-haut, et ça n'est pas l'astronome qui choisit l'ordre ou le désordre. Il ne peut qu'affiner ses instruments pour essayer de voir de mieux en mieux, et trier, catégoriser, modéliser. C'est ce que j'essaie de faire, modestement, avec le langage.

14 février, 2005 16:51  
Anonymous Anonyme a écrit...

{i,y}a{g,gh,h,-o-}{ou,oou}rt{h,-o-}U{i,y}{a,o}{g,gh,h}urt{h,-o-}U{i,y}o{g,gh,h}{ou,oou}rt{h,-o-} ???

15 février, 2005 18:08  
Blogger Jean Véronis a écrit...

Bel essai ! Je recopie l'expression façon Unix (egrep) de façon à pouvoir tester avec ma liste que j'ai mise dans un fichier (et a contrario avec la liste des cas que l'expression devrait rejeter : yaurt, yourt, etc.).

((i|y)a(g|gh|h)?(ou|oou)rth?|(i|y)(a|o)(g|gh|h)urth?)|((i|y)o(g|gh|h)(ou|oou)rth?)

ou encore mieux :

[iy]a(g|gh|h)?(ou|oou)rth?|[iy](a|o)(g|gh|h)urth?|[iy]o(g|gh|h)(ou|oou)rth?

L'expression reconnaît bien les 80 séquences correctes, et filtre les 16 autres.

Score : 76 caractères (dans le format Unix/egrep).

Il me semble qu'on peut gagner encore un peu en factorisant le début et la fin :

[iy](a(g|gh|h)?(ou|oou)|(a|o)(g|gh|h)u|o(g|gh|h)(ou|oou))rth?


62 caractères...

Peut-on faire mieux ? Je ne sais pas, le problème est ouvert... Si on ne peux pas réduire plus, c'est quand même horriblement compliqué pour un seul petit mot !

18 février, 2005 13:54  
Anonymous Fuligineuse a écrit...

Mais quel délice ce blog... avec des vrais morceaux de graphèmes dedans... et des concepts bien brassés...
Je ne peux pas résister à la tentation d'ajouter un proverbe grec :
"Maintenant que la mer est devenue du yaourt, nous on n'a plus de cuillères !"

20 février, 2005 16:05  
Anonymous Anonyme a écrit...

y'a mieux, 51 caractères !!!

[iy](ag?h?(o?ou)|[ao](g|gh|h)u|o(g|gh|h)(o?ou))rth?

25 février, 2005 11:46  
Blogger Jean Véronis a écrit...

Ah oui, bravo "Anonymous" ! bien joué...

Qui dit mieux ?

25 février, 2005 12:44  
Anonymous Anonyme a écrit...

a propos de l'exercice à 0%, google dit que "...Google est prêt à réagir à toute autre pratique malhonnête – par exemple, abuser les utilisateurs en enregistrant la version volontairement erronée de sites Web populaires (Yahoort, Gougol, Adobi...)".
cf leurs conseils aux webmasters.

07 avril, 2005 21:15  

Enregistrer un commentaire