Mon ami
Louis-Jean Calvet m’envoie ce matin un de ces mails dont il a le secret et qui ont l’art de me détourner des choses urgentes et importantes que je suis en train de faire (ou celles que je crois telles...) pour me lancer sur une piste tout à fait loufoque qui va me faire perdre deux heures en cogitations débridées... Ce qui montre bien, finalement, que toutes les choses urgentes et importantes que je devais faire ne l’étaient pas tellement. Un jour, je vous raconterai un conte persan : l’histoire du roi de Serendip (ancien nom de Ceylan, l’actuel Sri-Lanka), qui envoie ses trois fils à la recherche de ce qui existe de plus beau sur terre. Une vraie chose urgente et importante, mais les trois princes se laissent distraire constamment par des évènements inattendus qui leur font découvrir de magnifiques trésors, matériels ou spirituels qu’ils ne cherchaient pas... L’écrivain anglais Horace Walpole en a tiré vers 1750 le mot
serendipité. Ca ne vous dit rien ? C’est devenu un mot à la mode pour ne pas dire qu’on est un peu dilettante...
Toujours est-il que Louis-Jean me demandait si j’avais une liste des
mots qui commencent par sarko. Car c'est en train de devenir un préfixe. Vous avez sans doute déjà entendu ces expressions :
sarkoland, sarkospam, sarkoshow, etc.
Seulement voilà : comment établir une telle liste? Interroger le
dieu Godgle n’est pas une bonne idée, car comme la Pythie de Delphes, il ne comprend que les questions fermées (et de temps à autre fournit aussi des
réponses confuses...). Pas besoin d’offrir un sacrifice sanglant, ni de s’asperger d’eau froide en entrant dans l’
adyton, mais on ne peut en gros que demander « Ô grand Godgle, est-ce que le mot
sarkotruc existe ? ». On ne peut pas lui dire « Sois gentil, si ça n’encombre pas trop tes serveurs, donne-moi la liste de tous les mots qui commencent par
sarko... ».
Heureusement, il y a d’autres moteurs, placés moins haut dans le panthéon du Web, mais qui possèdent néanmoins de beaux talents. Ainsi, le moteur
Exalead nous offre non seulement une interface bien plus agréable que celle de Google (qui en est resté un peu au
Web 0.1...), mais aussi des fonctions de recherche plus évoluées. En cliquant sur « Recherche avancée », vous pourrez découvrir une possibilité assez sous-exploitée, à mon avis, mais qui dans le cas présent va nous être d’un grand secours : la
recherche par expression régulière. Si vous êtes un geek, vous savez bien sûr de quoi il s’agit. Sinon, vous pouvez comprendre ça de façon très intuitive. Le point « . » signifie « n’importe quel caractère ». Par exemple,
li.n correspond à
lien, lion (et aussi
lian, libn, licn, etc.). L’étoile signifie « le caractère précédent répété 0 à n fois ». Par exemple,
hello* correspond à
hell, hello, helloo, hellooo, etc.
La requête
signifie donc n’importe quel mot qui commence par sarko, suivi d’un nombre quelconque de caractères quelconques, c’est-à-dire tous les mots qui ont pour préfixe sarko-.
Vous pouvez essayer. Problème. Les mots sarko et sarkozy sont si fréquents qu’ils cachent tous les autres. C’est à peu près tout ce que vous allez réussir à obtenir. C’est là qu’entre en jeu une deuxième fonction (que connaissent tous les moteurs) : l’exclusion (signe « - » devant un mot). Si je demande
j’obtiens les pages qui contiennent sarkoland, sarkostique, etc. Mais, à nouveau, ces mots « cachent » les autres. Il suffit donc de continuer de façon itérative. J’exclus les mots rencontrés dans la première page de résultats (ceux qui sont en caractère gras), et ainsi de suite, jusqu’à épuisement du moteur...
Évidemment, je n’ai pas fait ça à la main. J’ai écrit un petit programme qui traite la chose automatiquement. Ça m’a permis de récupérer 80 mots qui commencent par sarko-. Je ne sais pas si c’est exhaustif, car on dirait qu’Exalead n’accepte pas plus de 80 mots dans zone de requête. Mais je dois avoir récupéré les plus fréquents.
On y trouve des fautes d’orthographe (sarkosy est incroyablement courant !), des dérivés (sarkosyste(s), sarkozysme, sarkozien(nne)) avec leur propres fautes d’orthographe éventuelles (sarkosiste), et des néologismes souvent assez drôles : sarkoland, sarkostique, sarkophage, sarkoshow, sarkolene, sarkoleon, etc.
Je suis tombé sur des mots qui m’ont surpris. Par exemple,
sarkosyl, que je ne connaissais pas. Non, ce n’est pas le médicament que prend le président (ça, c’est le Lexomyl) .
Sarkosyl est le joli diminutif du N-Lauroylsarcosinate de sodium, ou si vous préférez (?) du N-MÉTHYL-N-(1-OXODODÉCYL)GLYCINATE DE SODIUM, C
15H
28NNaO
3Il paraît que c’est un truc qui fait mousser, pour les shampoings ou les crèmes à raser. J’avais bien remarqué que Sarko était fantastique pour faire de la mousse et nous raser. Je sais enfin ce qu’il prend comme produit !
Mais vous me connaissez. Je ne pouvais pas me satisfaire de cette petite blague à deux sous. Il fallait que je systématise, que je mathématise, bref que je plombe cette petite découverte par ailleurs fort amusante. Y avait-il dans toute cette liste d’autres mots qui étaient de vrais mots, peu fréquents, évidemment, mais pas liés au grand Mousseux ? Comment faire ? En plus de dilettante, je suis paresseux (ça va souvent ensemble) et je n’allais pas me taper la série des 80 clics pour aller voir...
Petite idée. Prenons un des ces mots, mettons
sarkotruc. S’il est lié au grand Mousseux, il doit apparaître fréquemment dans des pages où le nom
Sarkozy apparaît aussi. Essayons :
sarkoland = 47424 en tout, dont 19933 pages qui contiennent aussi
sarkozy. 42%, pas mal. À l’inverse, des mots qui n’ont rien à voir avec Sarkozy ne devraient pas se trouver dans les mêmes pages que ce mot. Sauf que, pour toutes sortes de raison, cela arrive quand même : spam, pages de nouvelles qui contiennent à la fois les deux mots par hasard, etc.
Tout est donc question de fréquences. Du coup, tout en m’amusant (merci Louis-Jean) j’ai trouvé une excellente idée d’exercice pour mes cours de statistiques. Je vous la fait simple, je sens que j’ai déjà perdu beaucoup de monde au cours de ce billet... On a vu que
sarkoland était associé à
sarkozy dans 42% des cas. Quelle serait la fréquence moyenne des pages contenant
sarkozy pour n’importe quel mot
sarkotruc ? Je n’en sais rien du tout, mais je me suis fixé un seuil volontairement assez bas, 10%.
J’ai ensuite calculé pour tous les mots (automatiquement, toujours) le nombre de pages qui contiennent à la fois le mot en question et
sarkozy (deuxième colonne dans la table). J’ai ensuite appliqué une loi mathématique moins médiatisée que le nombre d’Or, pi et tout ça, mais tout de même assez merveilleuse : la
loi binomiale. Je ne rentre pas dans les détails, sous peine de perdre mon dernier lecteur (vous, apparemment : merci !), mais la dernière colonne de ma table donne la probabilité qu’il y a ait aussi peu de pages contenant à la fois les deux mots (
sarkomuche et
sarkozy, faut suivre !), étant donnée une proportion théorique de 10%... Pour la plupart des mots, cette probabilité est de 1 (ou quasi modo), mais pour d’autres mots elle est voisine de 0.
Ces mots-là sont donc suspects : ce sont de bons candidats à l’indépendance,
probablement des mots qui n’ont rien à voir avec Sarkozy. J’ai fixé un seuil arbitraire de probabilité à 0,1, et voilà. Les mots suspects sont automatiquement marqués dans les lignes en couleur plus foncée dans la table.
Ça m’a permis de faire d’autres découvertes :
sarkoïdose : c’est le nom allemand de la BBS (
sarcoïdose en français). Arrêtez, les geeks, ça ne veut pas dire Bulletin Board System. Cela veut dire
maladie de Besnier-Boeck-Schaumann, autre nom de la lymphogranulomatose bénigne. Vous ne connaissiez pas ? Je vous avoue que moi non plus, mais
Wikipedia m’informe que c’est une affection qui touche surtout les blacks (tiens, tiens : là où il y a du sarko...).
sarkom : C’est le nom du sarcome en allemand, à nouveau (et aussi dans d’autres langues, comme le suédois).
sarkophag : Allemand, toujours : sarcophage.
sarkoth : Une créature bizarre de
World of Warcraft.etc.
Les moteurs de recherche au service de l’exploration lexicale... Amusant, non ? Les gens d’Exalead pourraient nous proposer assez facilement une fonction qui permettrait d’afficher la liste de tous les mots qui commencent par (ou finissent par) un préfixe donné. Je suis sûr que ça aurait un franc succès.
Mais il faudrait que je m’arrête de donner des idées gratis, moi. Je ne m’enrichirais jamais avec ma serendipité si je continue comme ça. Les princes du Serendip pouvaient se permettre, eux, mais moi je ne suis qu’un pauvre universitaire mal payé !
Lire la suite
4 Commentaires:
Après Colombe, Hélène ?
Décidément, j'aurais dû être professeur...
Sérieusement, on peut podcaster la chose ?
Bonjour chez vous
Jean Meyran
L'émission sera, je pense, visible en direct sur le site de Public Sénat, et ensuite, j'ai vu qu'il y a un lien "archives" sur la fiche de l'émission, donc j'espère qu'elle sera disponible en podcast...
Est-il possible de vous intéresser à la sémantique et la richesse des discours et propos, des 3 princiapaux ex-candidats.
Est-ce un simple algorithme de comptage ou classification ? Ou bien est-ce plus compliquer de voir si un langage est pauvre ou riche ?
Ben on va regarder ça...
Enregistrer un commentaire