Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, septembre 11, 2007

Lexique : Sarkosyl et autres sarkotrucs

Mon ami Louis-Jean Calvet m’envoie ce matin un de ces mails dont il a le secret et qui ont l’art de me détourner des choses urgentes et importantes que je suis en train de faire (ou celles que je crois telles...) pour me lancer sur une piste tout à fait loufoque qui va me faire perdre deux heures en cogitations débridées... Ce qui montre bien, finalement, que toutes les choses urgentes et importantes que je devais faire ne l’étaient pas tellement. Un jour, je vous raconterai un conte persan : l’histoire du roi de Serendip (ancien nom de Ceylan, l’actuel Sri-Lanka), qui envoie ses trois fils à la recherche de ce qui existe de plus beau sur terre. Une vraie chose urgente et importante, mais les trois princes se laissent distraire constamment par des évènements inattendus qui leur font découvrir de magnifiques trésors, matériels ou spirituels qu’ils ne cherchaient pas... L’écrivain anglais Horace Walpole en a tiré vers 1750 le mot serendipité. Ca ne vous dit rien ? C’est devenu un mot à la mode pour ne pas dire qu’on est un peu dilettante...

Toujours est-il que Louis-Jean me demandait si j’avais une liste des mots qui commencent par sarko. Car c'est en train de devenir un préfixe. Vous avez sans doute déjà entendu ces expressions : sarkoland, sarkospam, sarkoshow, etc.

Seulement voilà : comment établir une telle liste? Interroger le dieu Godgle n’est pas une bonne idée, car comme la Pythie de Delphes, il ne comprend que les questions fermées (et de temps à autre fournit aussi des réponses confuses...). Pas besoin d’offrir un sacrifice sanglant, ni de s’asperger d’eau froide en entrant dans l’adyton, mais on ne peut en gros que demander « Ô grand Godgle, est-ce que le mot sarkotruc existe ? ». On ne peut pas lui dire « Sois gentil, si ça n’encombre pas trop tes serveurs, donne-moi la liste de tous les mots qui commencent par sarko... ».

le dieu godgle


Heureusement, il y a d’autres moteurs, placés moins haut dans le panthéon du Web, mais qui possèdent néanmoins de beaux talents. Ainsi, le moteur Exalead nous offre non seulement une interface bien plus agréable que celle de Google (qui en est resté un peu au Web 0.1...), mais aussi des fonctions de recherche plus évoluées. En cliquant sur « Recherche avancée », vous pourrez découvrir une possibilité assez sous-exploitée, à mon avis, mais qui dans le cas présent va nous être d’un grand secours : la recherche par expression régulière. Si vous êtes un geek, vous savez bien sûr de quoi il s’agit. Sinon, vous pouvez comprendre ça de façon très intuitive. Le point « . » signifie « n’importe quel caractère ». Par exemple, li.n correspond à lien, lion (et aussi lian, libn, licn, etc.). L’étoile signifie « le caractère précédent répété 0 à n fois ». Par exemple, hello* correspond à hell, hello, helloo, hellooo, etc.

La requête
signifie donc n’importe quel mot qui commence par sarko, suivi d’un nombre quelconque de caractères quelconques, c’est-à-dire tous les mots qui ont pour préfixe sarko-.

Vous pouvez essayer. Problème. Les mots sarko et sarkozy sont si fréquents qu’ils cachent tous les autres. C’est à peu près tout ce que vous allez réussir à obtenir. C’est là qu’entre en jeu une deuxième fonction (que connaissent tous les moteurs) : l’exclusion (signe « - » devant un mot). Si je demande
j’obtiens les pages qui contiennent sarkoland, sarkostique, etc. Mais, à nouveau, ces mots « cachent » les autres. Il suffit donc de continuer de façon itérative. J’exclus les mots rencontrés dans la première page de résultats (ceux qui sont en caractère gras), et ainsi de suite, jusqu’à épuisement du moteur...

Évidemment, je n’ai pas fait ça à la main. J’ai écrit un petit programme qui traite la chose automatiquement. Ça m’a permis de récupérer 80 mots qui commencent par sarko-. Je ne sais pas si c’est exhaustif, car on dirait qu’Exalead n’accepte pas plus de 80 mots dans zone de requête. Mais je dois avoir récupéré les plus fréquents.

On y trouve des fautes d’orthographe (sarkosy est incroyablement courant !), des dérivés (sarkosyste(s), sarkozysme, sarkozien(nne)) avec leur propres fautes d’orthographe éventuelles (sarkosiste), et des néologismes souvent assez drôles : sarkoland, sarkostique, sarkophage, sarkoshow, sarkolene, sarkoleon, etc.


FreqFreq+SarkozyMotp
66589776658977sarkozy1.0000
1156718638144sarko1.0000
17616374394sarkosy1.0000
8069517187sarkozys1.0000
643578213sarkozi1.0000
4742419933sarkoland1.0000
4386025282sarkostique1.0000
4334333658sarkozyste1.0000
2869323500sarkozystes1.0000
2826919396sarkozysme1.0000
2733910195sarkophage1.0000
2630110sarkoidose0.0000
2410126sarkom0.0000
2226729sarkophag0.0000
208538170sarkozix1.0000
20364225sarkon0.0000
198471495sarkoy0.0000
163411612sarkos0.2874
156974899sarkotusors1.0000
139088361sarkoziste1.0000
127858991sarkozienne1.0000
1162110427sarkoshow1.0000
91713178sarkoz1.0000
828770sarkor0.0000
78454929sarkozien1.0000
74474209sarkosi1.0000
69132240sarkome1.0000
549868sarkou0.0000
53224915sarkozynews1.0000
52952627sarkolene1.0000
50974748sarkoisation1.0000
49583387sarkozie1.0000
481533sarkot0.0000
46903717sarkofrance1.0000
43573488sarkospam1.0000
4326121sarkocity0.0000
42603179sarkoblog1.0000
36641637sarkosiste1.0000
35203425sarkozyblog1.0000
30172183sarkoleon1.0000
26481616sarkosyste1.0000
2594211sarkoman0.0006
25801088sarkonapartisation1.0000
233341sarkosyl0.0000
230391sarkomaa0.0000
21311862sarkonneries1.0000
19811917sarkominus1.0000
177054sarkocircus0.0000
1636688sarkophobe1.0000
1448418sarkory1.0000
1293655sarkopipo1.0000
1230713sarkosie1.0000
1213532sarkosien1.0000
11530sarkoth0.0000
1121544sarkophobie1.0000
1055206sarkoattitude1.0000
1002168sarkocirque1.0000
880309sarkonazi1.0000
781757sarkononmerci1.0000
77319sarkov0.0000
487319sarkorama1.0000
41567sarkopin1.0000
373259sarkothon1.0000
364179sarkochienchien1.0000
312209sarkosego1.0000
29723sarkobot0.1126
28244sarkomenteur0.9988
24885sarkosette1.0000
23035sarkocide0.9952
215114sarkologie1.0000
18132sarkoadit0.9995
13159sarkoa1.0000
12968sarkoier1.0000
10427sarkoistes1.0000
800sarkospame0.0002
346sarkoraptor0.9519
314sarkoetalors0.8068
204sarkoresistant0.9568
190sarkoaffichmur0.1351
20sarkoali0.8100


Je suis tombé sur des mots qui m’ont surpris. Par exemple, sarkosyl, que je ne connaissais pas. Non, ce n’est pas le médicament que prend le président (ça, c’est le Lexomyl) . Sarkosyl est le joli diminutif du N-Lauroylsarcosinate de sodium, ou si vous préférez (?) du N-MÉTHYL-N-(1-OXODODÉCYL)GLYCINATE DE SODIUM, C15H28NNaO3



Il paraît que c’est un truc qui fait mousser, pour les shampoings ou les crèmes à raser. J’avais bien remarqué que Sarko était fantastique pour faire de la mousse et nous raser. Je sais enfin ce qu’il prend comme produit !

Mais vous me connaissez. Je ne pouvais pas me satisfaire de cette petite blague à deux sous. Il fallait que je systématise, que je mathématise, bref que je plombe cette petite découverte par ailleurs fort amusante. Y avait-il dans toute cette liste d’autres mots qui étaient de vrais mots, peu fréquents, évidemment, mais pas liés au grand Mousseux ? Comment faire ? En plus de dilettante, je suis paresseux (ça va souvent ensemble) et je n’allais pas me taper la série des 80 clics pour aller voir...

Petite idée. Prenons un des ces mots, mettons sarkotruc. S’il est lié au grand Mousseux, il doit apparaître fréquemment dans des pages où le nom Sarkozy apparaît aussi. Essayons : sarkoland = 47424 en tout, dont 19933 pages qui contiennent aussi sarkozy. 42%, pas mal. À l’inverse, des mots qui n’ont rien à voir avec Sarkozy ne devraient pas se trouver dans les mêmes pages que ce mot. Sauf que, pour toutes sortes de raison, cela arrive quand même : spam, pages de nouvelles qui contiennent à la fois les deux mots par hasard, etc.

Tout est donc question de fréquences. Du coup, tout en m’amusant (merci Louis-Jean) j’ai trouvé une excellente idée d’exercice pour mes cours de statistiques. Je vous la fait simple, je sens que j’ai déjà perdu beaucoup de monde au cours de ce billet... On a vu que sarkoland était associé à sarkozy dans 42% des cas. Quelle serait la fréquence moyenne des pages contenant sarkozy pour n’importe quel mot sarkotruc ? Je n’en sais rien du tout, mais je me suis fixé un seuil volontairement assez bas, 10%.

J’ai ensuite calculé pour tous les mots (automatiquement, toujours) le nombre de pages qui contiennent à la fois le mot en question et sarkozy (deuxième colonne dans la table). J’ai ensuite appliqué une loi mathématique moins médiatisée que le nombre d’Or, pi et tout ça, mais tout de même assez merveilleuse : la loi binomiale. Je ne rentre pas dans les détails, sous peine de perdre mon dernier lecteur (vous, apparemment : merci !), mais la dernière colonne de ma table donne la probabilité qu’il y a ait aussi peu de pages contenant à la fois les deux mots (sarkomuche et sarkozy, faut suivre !), étant donnée une proportion théorique de 10%... Pour la plupart des mots, cette probabilité est de 1 (ou quasi modo), mais pour d’autres mots elle est voisine de 0.

Ces mots-là sont donc suspects : ce sont de bons candidats à l’indépendance, probablement des mots qui n’ont rien à voir avec Sarkozy. J’ai fixé un seuil arbitraire de probabilité à 0,1, et voilà. Les mots suspects sont automatiquement marqués dans les lignes en couleur plus foncée dans la table.

Ça m’a permis de faire d’autres découvertes :

sarkoïdose : c’est le nom allemand de la BBS (sarcoïdose en français). Arrêtez, les geeks, ça ne veut pas dire Bulletin Board System. Cela veut dire maladie de Besnier-Boeck-Schaumann, autre nom de la lymphogranulomatose bénigne. Vous ne connaissiez pas ? Je vous avoue que moi non plus, mais Wikipedia m’informe que c’est une affection qui touche surtout les blacks (tiens, tiens : là où il y a du sarko...).

sarkom : C’est le nom du sarcome en allemand, à nouveau (et aussi dans d’autres langues, comme le suédois).

sarkophag : Allemand, toujours : sarcophage.

sarkoth : Une créature bizarre de World of Warcraft.

etc.

Les moteurs de recherche au service de l’exploration lexicale... Amusant, non ? Les gens d’Exalead pourraient nous proposer assez facilement une fonction qui permettrait d’afficher la liste de tous les mots qui commencent par (ou finissent par) un préfixe donné. Je suis sûr que ça aurait un franc succès.

Mais il faudrait que je m’arrête de donner des idées gratis, moi. Je ne m’enrichirais jamais avec ma serendipité si je continue comme ça. Les princes du Serendip pouvaient se permettre, eux, mais moi je ne suis qu’un pauvre universitaire mal payé !


Lire la suite


30 Commentaires:

Anonymous jm a écrit...

Billet encore une fois très divertissant :)
Merci!

11 septembre, 2007 14:25  
Anonymous peter bang a écrit...

Je voulais signaler à notre blogueur préféré que Serendipity (le mot d'origine en anglais) a donné son nom à un logiciel qui permet de créer... son blog. Parenthèse brève et pertiente.

11 septembre, 2007 15:31  
Anonymous Dominique a écrit...

Vous avez traité les mots soudés, dans lesquels sarko- fonctionne comme un préfixe agglutiné et on a surtout des dérivés ou des mots-valises. Mais il existe aussi les mots composés où sarko- est considéré comme un élément formant. Par exemple, si l'on prend sarko-compatible (terme souvent présent dans les discours politiques et dans la presse), cela ne fonctionne plus vraiment : il est difficile de recenser ce genre d'expressions puisque le signe div (-, trait d'union ou moins) élimine le terme suivant dans une recheche Google. Mais il existe peut-être une astuce pour recenser les mots composés de la sorte.

11 septembre, 2007 16:33  
Anonymous Anonyme a écrit...

Bravo! quoique sérieux, fait rire

11 septembre, 2007 16:58  
Anonymous YR a écrit...

La sarkoïdose est très connue des fans de la série télé Dr [H]ouse, puisque cette maladie est évoquée à peu près dans un épisode sur deux...

J'ai beaucoup ri la première fois que je l'ai entendu !

11 septembre, 2007 17:38  
Blogger Jean Véronis a écrit...

Dominique> Je n'ai pas d'astuce pour traiter ces composés. Le problème vient du fait qu'Exalead, comme tous les moteurs, enlève le trait d'union, et considère les deux mots comme des mots isolés. La requête "sarko-.*" est donc équivalente à "sarko .*" et en fait, Exalead ignore ".*" qui voudrait dire n'importe quel mot. Donc c'est équivalent à "sarko" tout court. Pas bon.

On pourrait imaginer poser les 26 requêtes "sarko-a.*", "sarko-b.*",... mais à nouveau ce 'nest pas bon, puisque le rait d'union est ignoré et qu'on récupère les pages qui contiennent "sarko" suivi d'un mot commençant par "a", "b", etc. et pas forcément avec un trait d'union.

Dommage...

11 septembre, 2007 17:41  
Anonymous Marie-Aude a écrit...

Je garde sarkophage :) mangeur de sarko

Merci pour cette bonne humeur, ça fait du bien que vous soyez rentré de vacances.

11 septembre, 2007 18:07  
Anonymous jean-christophe courte a écrit...

Excellent…!

11 septembre, 2007 18:33  
Anonymous Thomas vO a écrit...

pour faire le rabat-joie, "expression régulière" est une mauvaise traduction de l'anglais "regular expression". en français, on dit "expression rationnelle".

comme punition, je propose que vous en fassiez le thème de votre prochain billet ;)

11 septembre, 2007 19:14  
Blogger Jean Véronis a écrit...

Thomas> On me fait régulièrement ;-) ce commentaire. Mais je ne vois pas pourquoi c'est incorrect. J'ai appris comme ça quand j'étais étudiant, et "expression régulière" était bien plus fréquente que "rationnelle". Je ne crois pas que ce soit une traduction. "Régulier" veut dire "qui suit des règles" et ça me parait tout à fait adéquat. Je ne vois pas d'ailleurs en quoi "regular" serait correct en anglais et pas en français... Alors, je vais perséverer diaboliquement.

Mais je ferai peut-êtr un billet là-dessus un de ces 4, puni ou pas !

11 septembre, 2007 19:28  
Anonymous Gral a écrit...

Il manque Sar-cossard... Normal : Sarko n'aime PAS les cossards !

11 septembre, 2007 20:31  
Anonymous christophe a écrit...

Juste pour défendre Google... Ils n'en ont pas besoin mais bon ;)
On peut se mitonner une page d'accueil plutôt sympathique avec igoogle :
http://www.google.com/ig

Encore qu'il est peut-être nécessaire d'avoir un compte google pour ça ?

Pour ce qui est des requêtes avec des expressions régulières, ça n'intéresserait pas grand monde, à part 3 geeks et 2 universitaires... Z'ont peut-être pas envie de s'enquiquiner...

11 septembre, 2007 21:06  
Anonymous Dominique a écrit...

Il existe encore des constructions assez invraisemblables comme le mot-valise "Sarhélikozy", une sorte de machine à brasser du vent que j'ai vue chez Sarkostique. Le nom est découpé en tranches sans plus aucun souci de la cohérence.

11 septembre, 2007 21:10  
Anonymous b.poiraud a écrit...

Toujours passionnant ! Mais dommage que les mots n'y soient pas tous. J'avais inventé sarkotryste dont l'orthographe fait penser à la fois à sarko(z)y et à tr(i)ste.

http://www.journal-la-mee-2.info/article.php3?id_article=20754

et puis je vais utiliser sarkozappeur la prochaine fois. En raison de son extraordinaire faculté de zapper d'un événement à l'autre dans le grand spectacle du monde !

Bravo pour vos articles. J'apprends plein de choses !

11 septembre, 2007 23:08  
Blogger TOMHTML a écrit...

Thomas vo > "expression REGULIERE" car elle suit une "REGLE", tout est correct ;-)

Merci Jean, je ne connaissais pas cette fonctionnalité d'Exalead

11 septembre, 2007 23:47  
Anonymous Anonyme a écrit...

Sarkozetoujours

12 septembre, 2007 09:52  
Anonymous Le Monolecte a écrit...

Il y a aussi les formes avec un "h" comme sarkhostan ou sarkhôme...

12 septembre, 2007 10:19  
Anonymous Jean Marie a écrit...

J'ai vu hier dans un article Cesar Cosi.

Difficile de trouver une requête qui vous sorte ça !

Et pourtant cela correspond à peu près à l'une des facette du personnage.

12 septembre, 2007 10:36  
Anonymous Dominique a écrit...

@le Monolecte : sans compter des jeux de mots comme ceux qui commencent par tsarko- ou starko-. Mais ce qui peut brouiller les pistes dans ce cas, c'est que ces formes existent dans les langues slaves. Il n'empêche, starko-hutchien pourrait désigner une certaine fébrilité policière devant les caméras.

12 septembre, 2007 10:53  
Anonymous Anonyme a écrit...

c'est vraiment intéressant le préfixe sarko on pourrait y ajouter des suffixes à l'infini.
sarkophobe
sarkophile
enrichir la langue française est une bonne chose mais celà doit impliquer beaucoup de choses positives à mon avis.

selwan

12 septembre, 2007 12:04  
Blogger Frédéric Mahé a écrit...

Bonjour,
j'ai le plaisir de vous annoncer que le conte des princes de Serendip est disponible sur Wikisource. Bonne lecture à tous.
http://fr.wikisource.org/wiki/Voyages_et_aventures_des_trois_princes_de_Serendip

12 septembre, 2007 12:18  
Anonymous Anonyme a écrit...

les phages sont des virus attaquant les bacteries, et des recherches sont en cours pour les utiliser dans la lutte contre les plus nocives et resistantes d'entre elles. A quand le développement d'un sarko-phage ??

12 septembre, 2007 12:26  
Blogger Jean Véronis a écrit...

Frédéric Mahé> Excellente nouvelle. c'est, je crois, le texte qui a servi d'inspiration à Horace Walpole. Comme quoi ceux qui râlent contre l' "anglicisme" "sérendipité" devraient être sereins et pas dépités ;-)

12 septembre, 2007 12:34  
Blogger Vola a écrit...

Billet croustillant: à la fois divertissant et instructif. (si j'avais vu une telle utilité à la loi Binomiale, j'aurais p-e plus bossé les stats :)) Je repasserai sur ce blog !
Bonne continuation,

12 septembre, 2007 13:12  
Anonymous Gavilan a écrit...

Par delà les mots les images : un sakozorus bellicosis qui a pendant quelque jours orné un mur près de Pigalle :
http://akiyo1fr.free.fr/racontars/index.php?2006/10/12/504-le-sarkozorus-bellicosis

12 septembre, 2007 21:34  
Anonymous Anonyme a écrit...

Je suis sarcotché !

13 septembre, 2007 07:40  
Anonymous Thomas vO a écrit...

@ Jean et tomhtml : je maintiens expressions rationnelles, car leur construction est basee sur les langages rationnels.

ceci dit, "qui suit une regle" me va mieux, mais c'est pas la premiere notion qu'on entend dans "reguliere"

(desole pour les accents)

13 septembre, 2007 09:00  
Anonymous tom-le-termite a écrit...

huhu.
pour autre mot qui sonne pareil, il y a : Sarcoptes scabei, l'acarien causant une maladie bien connue: la gale.

Sarcoptes... vous savez le petit teigneux et irritant.... ;)

tlt.

14 septembre, 2007 21:52  
Blogger bellegarde-webb a écrit...

A propos du terme expression régulière, oui Thomas, on devrait dire expression rationnelle, langage rationnel, mais on emploie encore à tord expression régulière et presque plus du tout langage régulier. On enseignait en utilisant expression régulière et langage régulier dans les années 70, après on s'est mis à employer rationnel. Il est à noter que l'on n'a jamais à ma connaissance parlé d'arbre régulier et toujours parlé d'arbre rationnel. On pourrait faire une étude en examinant les livres et les vieux polycopiés de cours. Souvent ce type d'anglicisme provient d'une erreur d'un ou plusieurs enseignants et chercheurs!

15 septembre, 2007 23:36  
Anonymous Anonyme a écrit...

http://fr.wikipedia.org/wiki/Maladie_de_Kaposi
(de quoi sarkozy est-il le diminutif???)
à noter que ce sarcome, surtout sa multiplication au sein de populations caucasiennes, fut un des premiers symptômes à attirer l'attention sur le VIH au début des années 80...
alors, symptôme révélateur d'une affection mortelle? (et dans ce cas laquelle, la peste du néolibéralisme, ou le choléra du populisme?)

20 mai, 2010 16:08  

Enregistrer un commentaire