Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, septembre 26, 2007

Télé: Déshabillons-les

Prolongement du blog sur les ondes.... Je vous donne rendez-vous dans la nouvelle émission bi-mensuelle de Public Sénat, jeudi de 18h45 à 19h30. Présentée par Hélène Risser, l'émission se veut « une mise à nu des ressorts dont usent les politiques pour convaincre, mettre en scène et parfois dissimuler ».




J'y tiendrai une chronique régulière sur, comme vous pouvez l'imaginer, les mots des politiques. Ce jeudi 27 septembre, ma chronique portera sur l'utilisation du « je » par Nicolas Sarkozy et les présidents de la Vè. Le reste de l'émission sera consacré à un dossier sur Bertrand Delanoë.

JEUDI 27 SEPTEMBRE - 18h45

REDIFFUSIONS
  • Vendredi 28 Septembre - 04h30
  • Vendredi 28 Septembre - 14h00
  • Vendredi 28 Septembre - 22h00
  • Samedi 29 Septembre - 05h30
  • Samedi 29 Septembre - 23h40
  • Dimanche 30 Septembre - 12h00
  • Dimanche 30 Septembre - 20h00
  • Lundi 1 Octobre - 03h55
  • Lundi 1 Octobre - 10h35
  • Dimanche 7 Octobre - 10h35

Fiche de l'émission ici.

N'hésitez pas à commenter après visionnage. Une nouvelle émission, surtout sur une petite chaîne sans grands moyens, ça demande des réglages !



A lire



Voir la vidéo



4 Commentaires:

Blogger JMeyran a écrit...

Après Colombe, Hélène ?

Décidément, j'aurais dû être professeur...

Sérieusement, on peut podcaster la chose ?

Bonjour chez vous

Jean Meyran

27 septembre, 2007 14:22  
Blogger Jean Véronis a écrit...

L'émission sera, je pense, visible en direct sur le site de Public Sénat, et ensuite, j'ai vu qu'il y a un lien "archives" sur la fiche de l'émission, donc j'espère qu'elle sera disponible en podcast...

27 septembre, 2007 14:42  
Anonymous Anonyme a écrit...

Est-il possible de vous intéresser à la sémantique et la richesse des discours et propos, des 3 princiapaux ex-candidats.
Est-ce un simple algorithme de comptage ou classification ? Ou bien est-ce plus compliquer de voir si un langage est pauvre ou riche ?

01 octobre, 2007 21:39  
Blogger Tafar a écrit...

Ben on va regarder ça...

02 octobre, 2007 08:08  

Enregistrer un commentaire

lundi, septembre 24, 2007

Sarko: Grand chef à plumes (3)

Dernier volet de cette histoire de plumes (voir début: 1, 2)... Je vous avais promis de regarder comment se présentent les choses chez les autres candidats (les principaux, du moins, car je manque de matériau pour les autres, à part Arlette Laguiller, dont j'ai déjà parlé ici).

Voici donc les arbres de Ségolène Royal, François Bayrou et Jean-Marie Le Pen :



Les représentations sont conformes à ce qu'on connaît de la situation. L'arbre de Bayrou est intéressant, car, non seulement, il corrobore ce qu'on sait de lui, à savoir qu'il tient lui même le stylo, mais il montre aussi que la technique capte les aspects stylistiques et pas seulement thématiques. Bayrou a en effet, comme les autres, prononcé des discours sur des thématiques diverses au cours de sa campagne (voir dans la base Discours 2007). Le Pen semble aussi avoir une écriture composite, ce qui confirme sa mise sous tutelle stylistique pendant cette campagne. Quant à Royal, c'est elle qui a l'arbre le plus complexe, à part Sarkozy, bien sûr. La presse s’est fait l’écho à plusieurs reprises du côté collaboratif et collectif de son écriture. Les idées et les formules émergeaient paraît-il de groupes de réflexion, étaient discutées, retenues ou non par la candidate, fusionnées avec les siennes. Rien d'étonnant chez Ségolène Royal, qui a fait de la « démocratie participative » l’un des thèmes mêmes de sa campagne. Des cercles successifs étaient chargés de faire remonter des éléments et des notes de synthèses. « Elle travaille comme Mitterrand, avec plusieurs cercles en compétition, à géométrie variable, expliquait “un proche” dans Libération (10 février 2007). Elle identifie des personnes ressources, demande une note ou des éléments. Puis la synthèse se fait au plus près d'elle. » On sait que le dernier cercle comportait au moins une plume principale, Sophie Bouchet-Petersen, ex-trotskyste, théoricienne de la démocratie participative et d’après le Figaro (27 février 2007), auteur des formules chocs telles qu'ordre juste, et « réservoir d’idées de Ségolène Royal », mais d’autres noms ont circulé, comme celui d’Érik Orsenna...

En tout cas, ces représentations arborées sont fascinantes. Je vous les livre bien sûr à titre expérimental. Tout cela est à confirmer, recroiser, affiner, corroborer... Mais n'est-il pas intéressant de faire sortir les idées émergentes des laboratoires au plus près de l'actualité ? Les circuits classiques de la publication scientifique, sans doute bien plus contrôlés et bien plus sérieux (?) demandent des mois, et souvent des années avant que les résultats des recherches soient connus du public.

12 Commentaires:

Anonymous Anonyme a écrit...

et la "palme" va à Bayrou...

24 septembre, 2007 14:43  
Anonymous Anonyme a écrit...

Joli monsieur Bazile ^^
monsieur Veronis, je trouve vraiment fascinant ce que vous faites. Utilisez des procédés très technique, pas toujours facile à comprendre mais qui font ressortir quelque chose de très humain.
Je me demande ce que feraient les gens de ces informations. On peut attendre d'un chef d'Etat qu'il puisse de lui même produire des textes donnant son point de vue. Enfin je ne suis pas un spécialiste, mais c'est tres interessant tout ca merci ^^

24 septembre, 2007 18:56  
Anonymous Anonyme a écrit...

Bonjour très intéressant (comme d'habitude), je dirais même fascinant.

Une petite question pratique :
Avec quel logiciel générez vous ces arbres ?

25 septembre, 2007 08:35  
Blogger Jean Véronis a écrit...

L'analyse des textes et le calcul des distances sont faits par des ligiciels "maison". Je fais le tracé des arbres en détournant le logiciel SplitsTree, qui est fait pour les biologistes.

25 septembre, 2007 08:43  
Anonymous Anonyme a écrit...

Merci Monsieur Véronis,

C'est assez fascinant de voir ces "arbres", comme une image de pensées.

Vous faites là un travail passionnant.

25 septembre, 2007 09:22  
Anonymous Anonyme a écrit...

Bonjour,

Comme toujours superbe travail, merci d'être de retour...

Néanmoins quelques petites questions d'un biologiste !

- comment faite vous pour "rooter" votre arbre, autrement dit d'où vient sa racine ? D'un discours très ancien ? D’un texte sans rapport avec la campagne ?

- Quelle méthode utilisez-vous ? neigbourg joining ou UPGMA, combien d'itération ?

- dernière questions, souvent on met une notion de distance entre les différentes séquences, est-ce possible ici ?

Bon Courage !

Laurent

PS : je connais mal SplitsTree, mais Dendroscope est pas mal pour s'amuser avec la représentation des arbres...

25 septembre, 2007 13:56  
Anonymous Anonyme a écrit...

bonsoir,

merci pour ces arbres, qui sont effectivement parlants (oui, il y a bien longtemps de cela, les arbres parlaient... et ceux-là s'en souviennent ;-)
Cependant, vos arbres sont étiquetés avec une date, mais la proximité chronologique n'est pas visualisée.
Etant donné que les arbres sont essentiellement unidimensionnels, mais représentés en 2D, est-ce qu'il serait possible de changer la représentation pour percevoir le temps ?

Par exemple tracer le même arbre dans un espace (temps, distance lexicale) ?
Cela dit, c'est peut-être complètement incongru comme suggestion...

26 septembre, 2007 22:59  
Blogger Jean Véronis a écrit...

Anonyme biologiste> J'avais oublié de répondre à votre commentaires, mille excuses. Parfois je m'y perds...

Je n'aime pas trop les représentations enracinées, car elles me semblent introduire un biais, à moins qu'il y a ait une raison particulière de créer une racine. Mais ça choque les gens de voir un arbre sans racine, et on me réclame constamment la forme enracinée (voir ici et ici. Je laisse SplitsTree choisir le premier taxon, et il se trouve que c'est le plus ancien...

La méthode que j'utilise est UPGMA, mais je suppose qu'on pourrait expérimenter différents algorithmes.

Quant à la notion de distance entre séquences, je ne vois pas bien à quoi vous faites allusion (je ne suis pas biologistes). A la base, tout le processus est basée sur la distance des textes pris deux à deux...

02 octobre, 2007 17:49  
Blogger Attac 49 a écrit...

Bonjour,

1 question / 1 demande

question :
Savez-vous/pensez-vous que ce type de technique soit utilisé pour authentifier des messages et communiqués anonymes ou non ?
(Ce message est-il vraiment de Ben Laden, du FLNC, etc ?)

demande :
Dans une société où l'on sépare méthodiquement littérature et sciences dures dont les mathématiques (avec les classiques bac bien distincts), comment fait-on pour générer des gens comme vous qui naviguent dans ces deux univers, ou mieux qui ne voient qu'un seul univers (!) ?

03 octobre, 2007 11:15  
Blogger Jean Véronis a écrit...

Mickaël> Oui, ce type de technique est utilisé à des fins d'identification (éventuellement avec bien d'autres paramètres quand on traite de l'oral). Mais évidemment, plus les messages sont brefs, moins c'est fiable...

Et sur le deuxième point, je peux vous dire que j'ai toujours souffert de cette dichotomie imbécile. Le comble de l'absurde c'est qu'on met même les bons en lettres dans les filières scientifiques, car on utilise celles-ci de façon pervertie comme simple critère de sélection. On nage en plaine absurdité (et en pleine hypocrisie).

03 octobre, 2007 11:21  
Anonymous Anonyme a écrit...

Merci pour vos réponses

Effectivement je suis d'accord avec vous les racines ça change pas mal la représentation...

Pour la distance, c'était juste que souvent le logiciel rajoute une notion d'échelle (genre 1cm= 0.01) liée à la matrice calculée, mais je ne sais pas si c'est applicable a vos matrices à vous...
Et comme Je venais juste de me le faire remarquer par un referee pointilleux dans un papier...

Vous avez des banques de données de publication comme pubmed pour nous chez les linguistes ?

Bon courage

Laurent, le biologiste anonyme
...

03 octobre, 2007 15:24  
Anonymous Anonyme a écrit...

1) tout cela est bien beau 2) votre lecture nous honore !

09 novembre, 2007 23:10  

Enregistrer un commentaire

jeudi, septembre 20, 2007

Sarko: Grand chef à plumes (2)

Comme promis avant-hier (lire le début), j’ai soumis 129 discours de Nicolas Sarkozy à la torture informatique (ses 63 discours de campagne, mais aussi ses discours depuis 2004 présents sur le site de l’UMP, et les discours postérieurs à son élection jusqu’à la fin août). J’ai examiné la parenté lexicale entre les différents textes, dans le but de voir si on retrouvait, par ce procédé tout à fait indépendant, la même classification que par le comptage des anaphores.

J’ai déjà parlé de cette technique (voir ici), et je récapitule brièvement pour les nouveaux lecteurs. On peut facilement calculer une « distance » lexicale entre deux textes, comme une distance entre les différentes villes sur une carte. Prenons par exemple deux discours A et B. On extrait la liste des mots de A, celle des mots de B. Plus ces listes se recouvrent, plus les textes sont considérés comme proches. On peut ensuite en quelque sorte reconstituer la carte du territoire en partant des distances calculées sur toutes les paires de textes. La méthode est analogue à celle utilisée par les biologistes pour représenter les parentés entre organismes vivants à partir des séquences d'ADN (arbre phylogénétique).

Appliquée aux discours de Nicolas Sarkozy, la méthode produit l’arbre ci-dessous. Chaque feuille de l’arbre représente un discours, et les discours sont d’autant plus proches dans l’arbre qu’ils sont proches du point de vue lexical.


On voit que l’arbre comporte quatre grandes branches, deux grandes et deux petites, qui correspondent vraisemblablement aux contributions des différentes plumes. La grande branche en haut à gauche (entourée par une ellipse) peut être attribuée sans hésitation à Henri Guaino. Les textes qui s’y trouvent sont (à un discours près) datés à partir de mai 2006, ce qui correspond à l’entrée en fonction officielle d’Henri Guaino auprès de Nicolas Sarkozy (c’est lui qui a écrit le discours de Nîmes le 9 mai 2006). On y trouve les grands discours de campagne : Périgueux, la Porte de Versailles, etc.

L’exception est un discours du 12 mai 2005, un plaidoyer en faveur du projet de traité constitutionnel européen au Palais des Sports de Paris, à quelques jours du référendum. La presse n’a pas mentionné de contributions d’Henri Guaino aux discours de Nicolas Sarkozy avant mai 2006, mais une contribution ponctuelle n’est pas impossible. On ne peut, bien sûr, exclure une erreur de classification de mon algorithme (les « signatures » stylistiques ne sont pas aussi fiables que les empreintes digitales ou l’ADN !), mais d’autres indices (comme la présence importante d’anaphores) semblent confirmer une présence au moins partielle de la « patte » Guaino.

Si l’on se penche sur la question des anaphores, justement, on s’aperçoit que la proportion d’anaphores dans les discours (voir méthode d’estimation ici) conduit à peu près exactement à la même catégorisation. Seuls huit cas divergent. Sur 129, ce n’est pas si mal.... Dans trois cas (en rouge sur la figure), le vocabulaire est majoritairement celui d’Henri Guaino mais la proportion d’anaphores est plutôt faible, dans cinq autres cas (en bleu), c’est l’inverse : la proportion d’anaphores trahit la présence de Guaino, mais le vocabulaire diverge en partie de son univers lexical habituel. Et encore, en regardant dans le détail, on voit que ce sont des cas difficiles, que j’avais déjà signalés (voir ici) : on est en présence de discours composites, où plusieurs plumes ont manifestement prêté leur main, comme par exemple le discours de la rencontre « Femmes et égalité des chances » à la Mutualité le 06/04.

Il est très étonnant de voir que des catégorisations obtenues par des critères tout à fait indépendants convergent aussi bien ! Les quelques cas de divergences sont d'ailleurs instructifs puisqu'ils montrent que les méthodes se complètent et permettent de détecter des discours polyphoniques. Je n'ai utilisé ici que deux indices, parenté lexicale et anaphores. On peut facilement imaginer d'en combiner un plus grand nombre (proportion de verbes dans le discours, longueur de phrases, etc.)... Quel degré de fiabilité peut-on obtenir ? Peut-on détecter des segments de discours attribuables aux unes et aux autres ? Ces questions sont ouvertes.

Je vous montrerai dans la suite de ce billet à tiroirs, comment la situation se présente chez les trois autres principaux candidats. Il y a de la plume qui volète (presque) partout...



Lire la suite



Pour en savoir plus

  • Étienne Brunet, « Peut-on mesurer la distance entre deux textes ? », Corpus, Numero 2 La distance intertextuelle - décembre 2003, mis en ligne le 15 décembre 2004: http://corpus.revues.org/document30.html
  • Barthélémy J.-P. & Luong X. (1987). « Sur la topologie d’un arbre phylogénétique : aspects théoriques, algorithmes et applications à l’analyse des données textuelles », Mathématiques et Sciences humaines, 100 : 57-80.
  • Numéro spécial de la revue Corpus. La distance intertextuelle. En ligne : http://corpus.revues.org/sommaire52.html

9 Commentaires:

Anonymous Anonyme a écrit...

eh eh, assez ironique et bien vu de faire un parallèle entre les discours de sarko et "l'arbre de la vie" tendance ADN, vu le contexte politique actuel ! toujours aussi excellent et à propos ce blog...

20 septembre, 2007 18:51  
Anonymous Anonyme a écrit...

Je trouve ça assez étonnant que ce soit aussi flagrant. Ecrire un discours n'est pas écrire un roman où l'écrivain se met à nu. Dans un discours, je pensais plutôt que la plume devait davantage justifier son écriture en faisant disparaître son style.

21 septembre, 2007 08:29  
Anonymous Anonyme a écrit...

Bonjour,

approche comme toujours intéressante.Cependant, sur l'interprétation que vous faites de l'arbre je reste sceptique. L'arbre met en évidence les différenciations lexicales de chaque discours mais celle-ci est elle attribuable uniquement à des différences d'auteurs ou bien à un effet thématique éventuellement lié à la mise à l'agenda de thèmes politiques qui domineraient certaines périodes.

21 septembre, 2007 09:42  
Blogger Guillaume a écrit...

Bonjour,

C'est hors sujet mais j'ai été frappé hier soir par la description que Nicolas Sarkozy a faite du gouverneur de la banque centrale européenne, Jean-Claude Trichet : "M. Trichet est certainement un homme très respectable". Le "certainement" m'a "naturellement" fait penser au tic de langage du président précédent, surtout le contexte actuellement tendu entre les deux hommes.

Ceci n'a d'ailleurs pas échappé à Jean-Michel Aphatie qui en parle ce matin sur son blog...

http://blogs.rtl.fr/aphatie/index.php/post/2007/09/21/M-Trichet-est-certainement-un-homme-tres-respectable-21/09

Yogi

21 septembre, 2007 09:58  
Blogger Jean Véronis a écrit...

Lomig> Ah la la... Que c'est difficile d'avoir d'aussi bon lecteurs :-)

Vous posez une question cruciale. J'y ai réfléchi en détail. Aujourd'hui je ne peux pas, je suis dans mes soutenances de master, mais j'essaierai d'en reparler. Petit indice tout de même : l'anaphore, elle, n'a aucun comportement thématique. or, elle se trouve corrélée de façon très étroite à la parenté lexicale...

21 septembre, 2007 10:42  
Anonymous Anonyme a écrit...

Bonjour !

A noter aussi que Guaino s'inspire des auteurs Grecs sur certains discours comme celui controversé de Dakar au Sénagal.

22 septembre, 2007 11:31  
Anonymous Anonyme a écrit...

Bonjour,
Site passionnant : merci !
Professeur de lettres, une chose m'inquiète à double titre, comme citoyenne et comme professionnelle du langage... on dirait que des analyses comme celles livrées ici sont largement méconnues... ou volontairement ignorées... ou inconsciemment mises de côté...
Continuez votre travail !
CM

26 septembre, 2007 08:30  
Anonymous Anonyme a écrit...

Reste à mettre lien à jour ("Lire la suite") vers le chapitre III !

14 octobre, 2007 11:31  
Blogger Jean Véronis a écrit...

Merci!

14 octobre, 2007 12:16  

Enregistrer un commentaire

mardi, septembre 18, 2007

Sarko: Grand chef à plumes (1)

Les temps ont bien changé depuis celui du général de Gaulle qui mettait un point d’honneur à écrire lui-même tous ses discours. Il s’aidait sans doute des notes de ses collaborateurs, mais il tenait seul la plume. Il faut dire que le style de campagne a lui aussi changé. Finie l’époque où une campagne présidentielle se faisait en deux mois avec quelques brèves apparitions télévisées et quelques meetings publics. Désormais, il faut tenir la scène au jour le jour sur le terrain et —surtout— dans les médias. A la moindre baisse de rythme, on parlera de trou d’air.

La dernière campagne a été exceptionnellement longue. Pour ne parler que de la période de septembre 2006 à mai 2007, ce ne sont pas moins de 175 discours que les quatre grands candidats ont prononcés en public dans les différentes villes de France (y compris outre-mer), dont 63 pour Nicolas Sarkozy à lui tout seul. Au cours du seul mois d’avril, le futur président a prononcé à lui tout seul 18 grands discours publics, sans parler, évidemment, des nombreuses conférences de presse, interviews, visites et réunions qui ont agrémenté son agenda. Cela représente plus d’un discours majeur tous les deux jours, soit en un mois 680 000 caractères, 114 000 mots, 5800 phrases… L’équivalent d’un beau roman.

Comment un homme (ou une femme) politique normalement constitué peut-il se livrer à un tel exercice intensif d’écriture tout en se déplaçant constamment d’un point à l’autre du territoire et en honorant le reste de son agenda (et parfois au passage des fonctions de ministre d'État...) ? La réponse est simple : pour la plupart d’entre eux, ce sont des collaborateurs qui écrivent les discours. Seul François Bayrou a, pendant cette campagne, écrit ses discours lui-même. Tous ses collaborateurs l’attestent. Cela ne veut pas dire, bien entendu, qu’il ne s’aide pas de leurs notes, et qu’il ne leur soumette pas des brouillons. Un autre homme politique connu pour produire lui-même ses discours était Jean-Marie Le Pen, dont le talent oratoire lui permettait d’ailleurs très souvent de les improviser en public. Dans cette campagne, toutefois, sa parole a été mise sous contrôle. On craignait peut-être les dérapages : plus d’improvisations, et, bien que peu d’informations précises aient filtré, j'ai trouvé dans ses textes la trace de plusieurs mains.



Le phénomène n’est pas nouveau. D’autres personnages politiques ont eu recours à ce que l’on appelait auparavant des « nègres », et que l’on appelle désormais de façon politiquement plus correcte des « plumes ». Ce fut le cas, notamment, de Jacques Chirac lors de la campagne de 1995, et sa plume de l’époque, Henri Guaino, s’est habilement recyclée, puisque c’est lui qui a écrit les discours majeurs de Nicolas Sarkozy pendant la campagne (et d’autres depuis, comme le discours devant le MEDEF). La différence dans la dernière campagne, est que les plumes ne sont plus perçues comme des artifices vaguement inavouables et honteux : désormais, on les montre, elles ont même les honneurs de la presse et paradent sur les plateaux télé.

Je vais essayer de vous montrer dans la suite de ce billet comment on peut retrouver par des moyens automatiques les discours écrits par les différentes plumes. Cette recherche s’apparente à une recherche en paternité. Chacun de nous laisse dans ses textes des traces stylistiques qui lui sont personnelles et qui permettent, si ce n’est d’identifier un auteur à coup sûr, mais du moins d’émettre de fortes hypothèses... J’ai montré dans d’autres billets [1, 2, 3, 4, 5] comment l’anaphore (c’est-à-dire la répétition des débuts de phrases) trahit la plume d’Henri Guaino. C’est un indice, mais il y en a beaucoup d’autres : choix du vocabulaire, mots fétiches et tics de langage, longueur des phrases, utilisation des temps verbaux, de la ponctuation, etc.

Cette « signature » stylistique des textes a été utilisée depuis les années 1960 dans les recherches d’attribution d’auteur. Le cas le plus célèbre est sans doute l’étude de Mosteller et Wallace, qui en 1964, ont mis fin à des décennies de controverses sur l’attribution des célèbres Federalist papers, une série de 85 essais parus sous pseudonyme aux Etats-Unis à la fin du XVIIIè siècle et appelant les habitants de l’État de New York à ratifier la Constitution. Vous vous souvenez aussi peut-être de la controverse qui a entouré la révélation par mon collègue Dominique Labbé des ressemblances étonnantes entre certaines pièces de Molière et celles de Corneille. L’idée que Corneille servait de plume à Molière court depuis quelques décennies, mais, environnée de « preuves » statistiques, l’affaire a fait grand bruit (voir ici et ici)...

Sarkozy et Guaino ne sont ni Molière ni Corneille, mais vous allez voir dans la suite qu'on trouve des choses intéressantes dans leurs textes.


Lire la suite


13 Commentaires:

Anonymous Anonyme a écrit...

La suite ! La suite ! La suite ! ;)

18 septembre, 2007 10:32  
Blogger Jean Véronis a écrit...

Eh, du calme, ou alors je vais faire payer, moi aussi ;-)

18 septembre, 2007 10:36  
Anonymous Anonyme a écrit...

Une question me vient à l'esprit : Comment la, ou les "plumes" de N. Sarkozy, trouvent-elles le temps d'écrire tout ce qu'il dit ? Quand on regarde la liste des interventions sur le site de la Présidence, c'est tout bonnement ahurissant.

(Sans vouloir vous presser, j'attends moi aussi la suite avec impatience).

18 septembre, 2007 11:01  
Blogger zulunation a écrit...

A propos de " plume " cette autre citation du jour, de Robert Desnos cette fois : " Ma plume est une aile et sans cesse, soutenu par elle et par son ombre projetée sur le papier, chaque mot se précipite vers la catastrophe ou vers l'apothéose " ......

18 septembre, 2007 11:46  
Blogger JMeyran a écrit...

On dit comment teasing en français ?

On attend la suite avec impatience.

Au fait je suis abonné au site "arrêt sur images" et vous votre prix c'est combien ?

Bonjour chez vous

Jean Meyran

18 septembre, 2007 18:28  
Blogger Unknown a écrit...

L'art de nous faire attendre...la suite s'il vous plaît.

18 septembre, 2007 21:59  
Blogger Olivier Bonnet a écrit...

Bonjour Jean,
à propos, le fait de répéter un mot des dizaines de fois (25 fois "respect" - aux profs - et 30 fois "rupture" - devant le Medef, à chaque fois dans un discours d'une heure, soit le mot environ toutes les deux minutes) a-t-il un équivalent dans la propagande totalitaire ?
Amicalement

19 septembre, 2007 00:41  
Anonymous Anonyme a écrit...

Bonjour,
Billet comme toujours très intéressant, je me permets d'ajouter ce commentaire pour insister sur les objections à l'idée de Corneille nègre de Molière : http://www.crht.org/ressources/dossiers/
http://www.fabula.org/atelier.php?Auteur_et_Attribution
G. Forestier signale que les soupçons initiaux sont trop artificiels pour servir d'hypothèse de départ ; il me semble que vous-même procédez de la sorte avec votre indice d'anapohore (l'hypothèse selon laquelle Sarko a un nègre étant plus que probable, contrairement à Molière).

Bonne continuation !

19 septembre, 2007 10:14  
Blogger Jean Véronis a écrit...

Zog> Notez que je n'ai pas pris position dans la controverse Corneille-Molière. Je peux simplement attester que les observations et les calculs de Dominique Labbé sont totalement corrects (ils ont d'ailleurs été vérifiés par des experts indépendants). Il y a donc une parenté étonnante. Maintenant, comment l'interpréter ? Ca c'est une autre histoire, et je ne suis pas compétent.

Je ne comprends pas bien votre dernière phrase. En tout cas, le fait que Sarkozy ait des plumes, dont Henri Guaino, n'est pas une hypothèse. C'est un fait documenté et attesté, notamment par les intéressé eux-mêmes.

19 septembre, 2007 10:24  
Blogger Olivier Bonnet a écrit...

Suite de ma question : j'ai oublié l'exemple du mot "travail" martelé je ne sais plus combien de fois devant la majorité UMP reçue à Matignon au début du quinquennat...
Mais c'était une vraie question : cette technique a-t-elle déjà été utilisée dans une propagande totalitaire ?

21 septembre, 2007 13:30  
Blogger Jean Véronis a écrit...

Olivier> Bien sûr... Répétition, simplicité du vocabulaire, ce sont les fondement de toute propagande, totalitaire ou pas, depuis la nuit des temps !

23 septembre, 2007 19:50  
Anonymous Anonyme a écrit...

Bonjour M. Véronis! Je suis argentine et je suis en train de faire un petit projet de recherche à propos des discours de Sarkozy. Je veux me centrer sur ceux qui sont en rapport avec les "anciennes colonies". J'ai en trouvé quelques-uns, mais j'ai du mal à en trouver car, apparemment vouz n'utilisez pas les termes "colonies", "décolonisation", etc. Pourriez-vous m'aider en me disant s'il y a des discours de ce genre? Merci beaucoup! Natalia.

27 juin, 2010 02:32  
Blogger Jean Véronis a écrit...

Natalia> Vous pouvez chercher sur le site que j'avais mis en place en 2007 : Discours 2007. J'espère que ça vous aidera !

27 juin, 2010 09:40  

Enregistrer un commentaire

mercredi, septembre 12, 2007

Lexique: Ségobidules

Après le sarkodico (ici et ici), le ségodico... La ségomanie a été moins créative : je ne trouve que 250 termes candidats (contre 560 pour sarko-), et beaucoup d'entre eux sont liés à la ségosphère, qui, elle, a été largement plus active que la sarkosphère : on y trouve beaucoup de pseudos, de noms de blogs, etc. Il faudrait trier.

On trouve bien sûr les ségobourdes, qui ont fait beaucoup parler, ou le pas très gentil ségodiche... Il y en a que j'aime bien, comme ségozille (en pure perte, finalement), ou segosaurus (je croyais que c'était des éléphants)...

sego segoactu segoagriculturedossier segoaine segoalaniche segoanhcq segoanna segoanne segoapotre segoasevres segoatelier segoatitude segoattitude segobagodoigt segoballadurlene segobesac segobeurk segoblog segoblogs segobmal segoboboboy segobodium segoboss segobourdes segobox segobr segobricensis segobrida segobrige segobuzz segocaraibes segocduvent segocentraque segocentrique segocentrisme segocentrix segochat segoche segochienne segochou segocon segocratie segocreteil segodemago segodeputes segodiche segodin segodinde segodiversite segoeducdossier segoele segoelen segoene segoenforce segoenzo segoeolienne segoetarlette segoetsarko segoetsarkoenterite segoevista segofalloy segofan segofanatik segofans segofav segofavre segofb segoffiele segofi segofile segofin segofleur segofoot segoforum segofraise segofrangy segofun segogate segogo segogobobo segogoboo segogocr segogocratie segogogolene segogol segogolaine segogole segogolene segogolhaine segohaine segohandisite segohapouatier segohiphop segohoho segoiene segoilot segoinde segoinus segoisborn segoisiller segoiste segoistes segojalm segojavascript segojc segojct segojo segojournal segojournalisme segojoy segojp segojpg segojudee segojugeeparlessiens segojulie segokiki segokis segokita segokonne segokotlo segokungnuya segol segolaine segolaisne segoland segole segolen segolenades segolene segolenelefevre segoleneparis segolenepresidente segoleneroyal segoleneroyalblog segoleneroyale segolenistes segolisme segoliste segolistes segolo segomadit segomanes segomania segomaniac segomaniaques segomarin segomaton segomedy segooolene segoooo segoooooooo segooooooooo segoooooooooo segooss segoousarko segoparis segopat segopaysbasque segophere segophile segophiles segophilus segophobe segophobes segophobie segophonie segopine segoplay segopodcast segopolitik segopoly segopr segopshere segoq segoqf segoqui segorama segoreine segorene segorevoir segorose segoroyal segoroyale segoroyalmix segosansmoi segosarko segosarkoscope segosaurus segosem segosept segoshere segoshow segosie segosille segosphere segosphereest segospherepaca segospheres segostar segostop segostrausfab segosuperdemago segosy segotesbonne segotic segotour segotousegaux segotude segoubaly segougou segoulah segouonligne segourac segouret segouverner segovadere segovaderetro segovilaine segovincennes segow segoweb segoweek segowiki segowin segowoman segowonderwoman segowool segoworld segowowow segowtte segowwbj segoxxx segoyal segoyale segoyalene segoyan segoyas segoyene segoyer segoyin segoyo segoyoroso segoyoupitralalacleweekend segozap segozebest segozette segozille segozouk segozy segozysme segozyste

6 Commentaires:

Anonymous Anonyme a écrit...

En dehors de vos cours, proposez-vous des conférences au public ? Je vous lis assidument depuis quelques mois et j'apprécierais de vous voir et de vous entendre en chair et en os, ainsi que de croiser les nombreux commentateurs cultivés et plein d'esprit qui vous répondent.

Laurent.

12 septembre, 2007 15:39  
Anonymous Anonyme a écrit...

et sarkosyfantutte?
je l'ai utilisé une fois dans http://schlomoh.blog.lemonde.fr

13 septembre, 2007 00:02  
Blogger Jean Véronis a écrit...

Laurent> Non, pas de conférences, mais je cause dans le poste de temps à autre ;-)

13 septembre, 2007 07:50  
Blogger Julien a écrit...

Monsieur Véronis,

Je me demandais : et comment on fait si on cherche des mots qui se terminent par -sarko ? Il doit bien y en avoir des marrants aussi, ya pas de raison... supersarko, nabosarko, des choses comme ça.

Alors, je suis certainement pas très balèze, mais la syntaxe .*sarko ne fonctionne pas sur Exalead...

14 septembre, 2007 00:50  
Blogger Jean Véronis a écrit...

Julien> Effectivement, /.*/ en position initiale ne marche pas. Pas plus que /s.*sarko/, /su.*sarko/. On commence à récupérer des résultats à partir de /sup.*sarko/. Peut-être cela nous donne-t-il une indication sur la façon dont l'index est structuré (par préfixes justement). Il aurait besoin d'u moins trois caractères initiaux pour accéder à la bonne table. Mais d'un autre côté /su.*/ renvoie des résultats... Bizarre.

14 septembre, 2007 08:11  
Anonymous Anonyme a écrit...

Bonjour, une expression revient sans cesse à droite lorsque gêne ou bourde il y a, c'est "il n'y a pas de sujet tabou". Le décryptage du sarkotabou reste encore à faire...
Enée

16 septembre, 2007 19:10  

Enregistrer un commentaire

mardi, septembre 11, 2007

Lexique : Sarkosyl et autres sarkotrucs (suite)

Je suis dilettante, mais têtu. Ça me chagrinait de voir Exalead se bloquer à 80 mots (lire le début), et ma réponse au commentaire de Dominique m'a fait apercevoir une façon de contourner cette limite (sérendipité, quand tu nous tiens...). Il suffit de répéter la même procédure avec toutes les lettres de l'alphabet : sarkoa.*, sarkob.*, sarkoc.*, etc. C'est évidemment un peu long, mais ce sont les ordinateurs qui travaillent, n'est-ce pas ?

J'ai ainsi récupéré 640 mots, dont environ 560 sont de bons candidats selon mes critères statistiques. Je vous les livre ci-dessous sous forme de nuage. Comme toujours, les plus gros sont les plus fréquents. En tout petit, quasi illisibles, les mots qui ont une fréquence inférieure à 10 et qui sont souvent des fautes d'orthographe ou des choses sans intérêt.

On trouve des sarkomots qui manquaient, comme sarkomania ou sarkoboy. Il y a en a d'autres que je découvre et que j'aime bien : sarkouille, sarkoquin, sarkomence etc. Je vous laisse explorer. Nous voilà en bonne voie pour construire le sarkodico !

sarko sarkoa sarkoabyssales sarkoaction sarkoactu sarkoadds sarkoadit sarkoadmire sarkoadsl sarkoaffichmur sarkoafrique sarkoaguler sarkoah sarkoaimequitterouen sarkoairline sarkoairlines sarkoalcoloo sarkoalelysee sarkoalertepop sarkoali sarkoamalte sarkoameaux sarkoamericain sarkoardise sarkoardize sarkoasso sarkoator sarkoators sarkoattack sarkoattitude sarkoau sarkoaufouquets sarkoaul sarkoaupif sarkoavotreecoute sarkoay sarkoazy sarkobad sarkobalade sarkoball sarkobanlieues sarkobeark sarkobebefacho sarkoben sarkoberlus sarkobession sarkobeurk sarkobeuze sarkobigbrothers sarkobis sarkobises sarkobite sarkoblabla sarkoblaireau sarkobleu sarkobligation sarkoblog sarkoblogmilitant sarkoblogs sarkoblunkett sarkoboat sarkobole sarkobombing sarkobongo sarkobooo sarkoboules sarkoboutef sarkoboy sarkoboys sarkoboyz sarkobra sarkobradantesque sarkobranlette sarkobsedes sarkobud sarkoburger sarkoburp sarkobus sarkobusch sarkobuse sarkobush sarkobushgaymardjuppe sarkobyl sarkoc sarkocaine sarkocam sarkocast sarkocenseur sarkocensure sarkocephalie sarkocescu sarkochampion sarkochat sarkochichi sarkochie sarkochien sarkochienchien sarkochine sarkocho sarkochoc sarkochon sarkocialisme sarkocide sarkocirkus sarkocirque sarkocise sarkociser sarkocityinnafire sarkocktail sarkoclash sarkoclint sarkoco sarkocom sarkocompatible sarkocompatibles sarkoconcourt sarkocontresego sarkoconversion sarkocop sarkocoque sarkocorico sarkocratie sarkocu sarkocufiage sarkoculte sarkocuzy sarkod sarkodanger sarkodead sarkodecideurs sarkodelirante sarkodemago sarkodent sarkodesfans sarkodetracteurs sarkodette sarkodidat sarkodisco sarkodisney sarkodisque sarkodit sarkodjeunes sarkodoc sarkodocile sarkodolatre sarkodomo sarkodose sarkodrive sarkodromeeeeeeeeeeeee sarkoe sarkoebbels sarkoel sarkoencore sarkoensemble sarkoetalors sarkoetm sarkoey sarkoezy sarkoface sarkofacho sarkofachos sarkofaille sarkofan sarkofanatique sarkofans sarkoferatu sarkofeux sarkoff sarkofficiel sarkofidead sarkofie sarkofillon sarkofisc sarkoflash sarkoflic sarkoflika sarkofolie sarkofolies sarkofrance sarkofred sarkofree sarkogadget sarkogagne sarkogaimadienne sarkogalland sarkogamer sarkogang sarkogate sarkogayzistes sarkogegene sarkogenda sarkogene sarkogenetique sarkogenome sarkogie sarkogito sarkogm sarkognac sarkogne sarkognito sarkognome sarkogodwining sarkogogoland sarkogogos sarkogoldwining sarkogood sarkogoud sarkogourou sarkoguaino sarkoguignol sarkogyre sarkogyres sarkoh sarkoherent sarkoheroe sarkoheros sarkohisation sarkohitler sarkoho sarkohoho sarkohypnotiques sarkohypnotisme sarkoi sarkoidien sarkoidisation sarkoidolatre sarkoidolatres sarkoienne sarkoier sarkoil sarkois sarkoisants sarkoisati sarkoisation sarkoise sarkoisee sarkoiser sarkoisme sarkoiste sarkoistes sarkoisy sarkoiznogood sarkoj sarkojardiland sarkojatte sarkojenesaiskoi sarkojetaime sarkojeunisme sarkojevo sarkojimbo sarkojoconde sarkojogger sarkojojo sarkojok sarkojoli sarkojordy sarkojournalisme sarkojournalistes sarkojuif sarkojuly sarkojunior sarkojup sarkokaerch sarkokail sarkokamikaze sarkokarcher sarkokarcherigene sarkokelb sarkokette sarkokifetou sarkokiller sarkoking sarkokir sarkokit sarkokland sarkoko sarkokodile sarkokoko sarkokorico sarkokoriko sarkokos sarkokotte sarkokouac sarkokouch sarkokoz sarkokozy sarkokraut sarkokrodiles sarkoku sarkokus sarkoky sarkokziste sarkol sarkoland sarkolandes sarkolandesval sarkolatre sarkolatres sarkolatrie sarkolatries sarkolene sarkoleon sarkologie sarkomachin sarkomadit sarkomail sarkomance sarkomane sarkomania sarkomaniac sarkomaniak sarkomaniaque sarkomaniaques sarkomanie sarkomap sarkomaton sarkome sarkomedefland sarkomedia sarkomedias sarkomedie sarkomedien sarkomedy sarkomefiobe sarkomence sarkomensonge sarkomenteur sarkomeur sarkomic sarkominator sarkoming sarkomingout sarkominus sarkomito sarkomix sarkommence sarkommuniste sarkomobile sarkomythe sarkomzy sarkonabo sarkonain sarkonanisme sarkonaparte sarkonapartisation sarkonapoleon sarkonar sarkonard sarkonasse sarkonator sarkonaute sarkonaze sarkonazi sarkonazie sarkonaziens sarkonazisme sarkonaziste sarkonazy sarkonazyste sarkondy sarkonegger sarkonerie sarkoneu sarkonews sarkonique sarkoniquetamere sarkonite sarkonnard sarkonnards sarkonnerie sarkonneries sarkonnexion sarkono sarkonocchio sarkonogoud sarkonoiac sarkonon sarkononmerci sarkonorepublic sarkonsensus sarkonul sarkony sarkonzy sarkoo sarkooff sarkoogle sarkooland sarkoolisme sarkoon sarkooo sarkoooo sarkooooo sarkoooooo sarkooooooo sarkoooooooo sarkoooooooooo sarkooooooooooo sarkoooooooooooo sarkoooooooooooooooo sarkoooooooooooooooooooooooooooo sarkoosy sarkooupas sarkoozy sarkopen sarkophage sarkophages sarkophile sarkophobe sarkophobie sarkopin sarkopipo sarkopolice sarkopoly sarkopopulisme sarkopresident sarkoprout sarkoq sarkoqtf sarkoqueen sarkoquel sarkoqufie sarkoqui sarkoquie sarkoquin sarkoquiz sarkoquizz sarkoqy sarkorac sarkoradar sarkoradarland sarkoradars sarkoraf sarkorafchi sarkorama sarkorangina sarkorap sarkoraptor sarkoreff sarkoregne sarkoremove sarkoreno sarkorepublique sarkoresistance sarkoresistant sarkoreunion sarkorgasme sarkorick sarkoride sarkorock sarkoroidelentourloup sarkoroscope sarkorou sarkoroyal sarkoroyale sarkorsi sarkory sarkorzi sarkorzy sarkosades sarkosego sarkosette sarkoshow sarkosi sarkosie sarkosien sarkosiste sarkospam sarkostiq sarkostique sarkosy sarkosyste sarkosystes sarkotaz sarkotek sarkotekno sarkotesbeau sarkotheque sarkothon sarkotidien sarkotine sarkotique sarkotiques sarkotiquesanonymes sarkotisque sarkotop sarkotron sarkotrouille sarkotterie sarkotusors sarkotv sarkoty sarkotype sarkouest sarkouillette sarkoumane sarkounie sarkousette sarkouzi sarkouzy sarkoval sarkovals sarkoveau sarkoverdose sarkovictoire sarkoville sarkovillon sarkovirus sarkovitch sarkovite sarkovny sarkowalker sarkowanetc sarkowarrior sarkowboys sarkowitz sarkoworld sarkowskile sarkowsy sarkowzi sarkowzy sarkox sarkoxis sarkoxite sarkoxjr sarkoxx sarkoxy sarkoyal sarkoyale sarkoyang sarkoyasu sarkoydi sarkoyen sarkoyenne sarkoyeti sarkoyote sarkoyotte sarkoyquement sarkoys sarkoysation sarkoyses sarkoysme sarkoyste sarkoyt sarkoyvele sarkoyy sarkoyz sarkoz sarkozette sarkozi sarkozie sarkozien sarkozienne sarkoziste sarkozistes sarkozix sarkozy sarkozyblog sarkozynews sarkozys sarkozysme sarkozyste sarkozystes



Lire la suite


11 Commentaires:

Blogger Jean Véronis a écrit...

Commentaire pour Dominique: On trouve cette fois sarkocompatible (mais sans trait-d'union, évidemment.

11 septembre, 2007 21:53  
Blogger Benoît a écrit...

Vous êtes fou :D
Et le pire, c'est que j'ai tout lu !

Merci également pour les astuces concernant Exalead, ça offre pas mal de possibilités...

11 septembre, 2007 23:26  
Blogger BerryNaute a écrit...

Votre liste étant dense j'ai peut être manqué le 'blanc' ce qui donne SAR Ko
- SAR = Son Altesse Royale
- Titre pseudo religieux comme dans Sar Rabindranath Duval de Pierre Dac.

En tous les cas merci

12 septembre, 2007 09:07  
Anonymous Anonyme a écrit...

Parmi les peu fréquents, j'avais rencontré "Sarkomaton", vous savez, ce genre d'appareils photos fixes implantés au bord des routes, sur décision de l'ancien Ministre de l'Intérieur.
Toutes les personnes devant qui j'ai employé ce mot en ont immédiatement compris le sens.

12 septembre, 2007 09:57  
Blogger Jean Véronis a écrit...

Etonnant: au moment même où vous avez posté votre commentaire, j'étais en train de regarder les -matons. Et il y a aussi un incroyable "ségomaton", un genre de ségomobile qu'elle voulait envoyer à travers la France pour filmer les vraies gens...

12 septembre, 2007 10:02  
Blogger Vicnent a écrit...

"(sérenpidité, quand tu nous tiens...)" : c'est une contrepétrie ou une coquille ?? ;-)

12 septembre, 2007 11:28  
Blogger Jean Véronis a écrit...

Vicnent> Ah, je la fais tout le temps celle-là. C'est comme vicnent-vincent :-)

Ca doit être l'influence de stupidité, cupidité, rapidité, etc. Il n'y a pas de mots en -dipité !

12 septembre, 2007 11:34  
Blogger HC a écrit...

je ne connais pas la syntaxe des regexp d'exalead (chaque application a des règles différentes), mais dans les programmes sérieux (comme sed, emacs ou perl), on peut grouper un certain nombre de caractères.

il suffit donc d'entrer la requête "sarko[a-z].*"

12 septembre, 2007 11:50  
Blogger Jean Véronis a écrit...

Huvert> Oui, Exalead a la syntaxe "unix" et permet ça. Mais le problème n'est pas d'exprimer la requete (d'ailleurs /sarko[a-z].*/ fait à peu près la même chose que /sarko.*/ puisque les moteurs ignorent les accents et coupent aux caractères non alphanum). Le problème était de fractionner la tâche en 26 sous-tâches de façon à retourner moins de résultats à chaque fois (et avoir une liste d'exclusion < 80 mots)....

12 septembre, 2007 11:58  
Anonymous Anonyme a écrit...

Il en manque encore... Parmi les mauvais jeux de mots que j'ai moi-même employé parfois sur le web, on trouve par exemple plusieurs variantes d'une maladie nouvelle quoiqu'assez répandue dernièrement et absente de votre recensement : la sarkose, ou sarkoze, ou sarkosite aigüe ou encore sarkozite etc... Des recherches sur moteur de recherches montrent que je ne suis pas le seul à avoir diagnostiqué ces nouvelles affections ;-)

12 septembre, 2007 13:13  
Anonymous Anonyme a écrit...

Je viens justement de recevoir un diaporama dans lequel on montre la pléthore d'offres internet "box" (Freebox, etc). La dernière page montre un radar routier fixe, appelé la "Sarkobox".

13 septembre, 2007 11:46  

Enregistrer un commentaire

Lexique : Sarkosyl et autres sarkotrucs

Mon ami Louis-Jean Calvet m’envoie ce matin un de ces mails dont il a le secret et qui ont l’art de me détourner des choses urgentes et importantes que je suis en train de faire (ou celles que je crois telles...) pour me lancer sur une piste tout à fait loufoque qui va me faire perdre deux heures en cogitations débridées... Ce qui montre bien, finalement, que toutes les choses urgentes et importantes que je devais faire ne l’étaient pas tellement. Un jour, je vous raconterai un conte persan : l’histoire du roi de Serendip (ancien nom de Ceylan, l’actuel Sri-Lanka), qui envoie ses trois fils à la recherche de ce qui existe de plus beau sur terre. Une vraie chose urgente et importante, mais les trois princes se laissent distraire constamment par des évènements inattendus qui leur font découvrir de magnifiques trésors, matériels ou spirituels qu’ils ne cherchaient pas... L’écrivain anglais Horace Walpole en a tiré vers 1750 le mot serendipité. Ca ne vous dit rien ? C’est devenu un mot à la mode pour ne pas dire qu’on est un peu dilettante...

Toujours est-il que Louis-Jean me demandait si j’avais une liste des mots qui commencent par sarko. Car c'est en train de devenir un préfixe. Vous avez sans doute déjà entendu ces expressions : sarkoland, sarkospam, sarkoshow, etc.

Seulement voilà : comment établir une telle liste? Interroger le dieu Godgle n’est pas une bonne idée, car comme la Pythie de Delphes, il ne comprend que les questions fermées (et de temps à autre fournit aussi des réponses confuses...). Pas besoin d’offrir un sacrifice sanglant, ni de s’asperger d’eau froide en entrant dans l’adyton, mais on ne peut en gros que demander « Ô grand Godgle, est-ce que le mot sarkotruc existe ? ». On ne peut pas lui dire « Sois gentil, si ça n’encombre pas trop tes serveurs, donne-moi la liste de tous les mots qui commencent par sarko... ».

le dieu godgle


Heureusement, il y a d’autres moteurs, placés moins haut dans le panthéon du Web, mais qui possèdent néanmoins de beaux talents. Ainsi, le moteur Exalead nous offre non seulement une interface bien plus agréable que celle de Google (qui en est resté un peu au Web 0.1...), mais aussi des fonctions de recherche plus évoluées. En cliquant sur « Recherche avancée », vous pourrez découvrir une possibilité assez sous-exploitée, à mon avis, mais qui dans le cas présent va nous être d’un grand secours : la recherche par expression régulière. Si vous êtes un geek, vous savez bien sûr de quoi il s’agit. Sinon, vous pouvez comprendre ça de façon très intuitive. Le point « . » signifie « n’importe quel caractère ». Par exemple, li.n correspond à lien, lion (et aussi lian, libn, licn, etc.). L’étoile signifie « le caractère précédent répété 0 à n fois ». Par exemple, hello* correspond à hell, hello, helloo, hellooo, etc.

La requête
signifie donc n’importe quel mot qui commence par sarko, suivi d’un nombre quelconque de caractères quelconques, c’est-à-dire tous les mots qui ont pour préfixe sarko-.

Vous pouvez essayer. Problème. Les mots sarko et sarkozy sont si fréquents qu’ils cachent tous les autres. C’est à peu près tout ce que vous allez réussir à obtenir. C’est là qu’entre en jeu une deuxième fonction (que connaissent tous les moteurs) : l’exclusion (signe « - » devant un mot). Si je demande
j’obtiens les pages qui contiennent sarkoland, sarkostique, etc. Mais, à nouveau, ces mots « cachent » les autres. Il suffit donc de continuer de façon itérative. J’exclus les mots rencontrés dans la première page de résultats (ceux qui sont en caractère gras), et ainsi de suite, jusqu’à épuisement du moteur...

Évidemment, je n’ai pas fait ça à la main. J’ai écrit un petit programme qui traite la chose automatiquement. Ça m’a permis de récupérer 80 mots qui commencent par sarko-. Je ne sais pas si c’est exhaustif, car on dirait qu’Exalead n’accepte pas plus de 80 mots dans zone de requête. Mais je dois avoir récupéré les plus fréquents.

On y trouve des fautes d’orthographe (sarkosy est incroyablement courant !), des dérivés (sarkosyste(s), sarkozysme, sarkozien(nne)) avec leur propres fautes d’orthographe éventuelles (sarkosiste), et des néologismes souvent assez drôles : sarkoland, sarkostique, sarkophage, sarkoshow, sarkolene, sarkoleon, etc.


FreqFreq+SarkozyMotp
66589776658977sarkozy1.0000
1156718638144sarko1.0000
17616374394sarkosy1.0000
8069517187sarkozys1.0000
643578213sarkozi1.0000
4742419933sarkoland1.0000
4386025282sarkostique1.0000
4334333658sarkozyste1.0000
2869323500sarkozystes1.0000
2826919396sarkozysme1.0000
2733910195sarkophage1.0000
2630110sarkoidose0.0000
2410126sarkom0.0000
2226729sarkophag0.0000
208538170sarkozix1.0000
20364225sarkon0.0000
198471495sarkoy0.0000
163411612sarkos0.2874
156974899sarkotusors1.0000
139088361sarkoziste1.0000
127858991sarkozienne1.0000
1162110427sarkoshow1.0000
91713178sarkoz1.0000
828770sarkor0.0000
78454929sarkozien1.0000
74474209sarkosi1.0000
69132240sarkome1.0000
549868sarkou0.0000
53224915sarkozynews1.0000
52952627sarkolene1.0000
50974748sarkoisation1.0000
49583387sarkozie1.0000
481533sarkot0.0000
46903717sarkofrance1.0000
43573488sarkospam1.0000
4326121sarkocity0.0000
42603179sarkoblog1.0000
36641637sarkosiste1.0000
35203425sarkozyblog1.0000
30172183sarkoleon1.0000
26481616sarkosyste1.0000
2594211sarkoman0.0006
25801088sarkonapartisation1.0000
233341sarkosyl0.0000
230391sarkomaa0.0000
21311862sarkonneries1.0000
19811917sarkominus1.0000
177054sarkocircus0.0000
1636688sarkophobe1.0000
1448418sarkory1.0000
1293655sarkopipo1.0000
1230713sarkosie1.0000
1213532sarkosien1.0000
11530sarkoth0.0000
1121544sarkophobie1.0000
1055206sarkoattitude1.0000
1002168sarkocirque1.0000
880309sarkonazi1.0000
781757sarkononmerci1.0000
77319sarkov0.0000
487319sarkorama1.0000
41567sarkopin1.0000
373259sarkothon1.0000
364179sarkochienchien1.0000
312209sarkosego1.0000
29723sarkobot0.1126
28244sarkomenteur0.9988
24885sarkosette1.0000
23035sarkocide0.9952
215114sarkologie1.0000
18132sarkoadit0.9995
13159sarkoa1.0000
12968sarkoier1.0000
10427sarkoistes1.0000
800sarkospame0.0002
346sarkoraptor0.9519
314sarkoetalors0.8068
204sarkoresistant0.9568
190sarkoaffichmur0.1351
20sarkoali0.8100


Je suis tombé sur des mots qui m’ont surpris. Par exemple, sarkosyl, que je ne connaissais pas. Non, ce n’est pas le médicament que prend le président (ça, c’est le Lexomyl) . Sarkosyl est le joli diminutif du N-Lauroylsarcosinate de sodium, ou si vous préférez (?) du N-MÉTHYL-N-(1-OXODODÉCYL)GLYCINATE DE SODIUM, C15H28NNaO3



Il paraît que c’est un truc qui fait mousser, pour les shampoings ou les crèmes à raser. J’avais bien remarqué que Sarko était fantastique pour faire de la mousse et nous raser. Je sais enfin ce qu’il prend comme produit !

Mais vous me connaissez. Je ne pouvais pas me satisfaire de cette petite blague à deux sous. Il fallait que je systématise, que je mathématise, bref que je plombe cette petite découverte par ailleurs fort amusante. Y avait-il dans toute cette liste d’autres mots qui étaient de vrais mots, peu fréquents, évidemment, mais pas liés au grand Mousseux ? Comment faire ? En plus de dilettante, je suis paresseux (ça va souvent ensemble) et je n’allais pas me taper la série des 80 clics pour aller voir...

Petite idée. Prenons un des ces mots, mettons sarkotruc. S’il est lié au grand Mousseux, il doit apparaître fréquemment dans des pages où le nom Sarkozy apparaît aussi. Essayons : sarkoland = 47424 en tout, dont 19933 pages qui contiennent aussi sarkozy. 42%, pas mal. À l’inverse, des mots qui n’ont rien à voir avec Sarkozy ne devraient pas se trouver dans les mêmes pages que ce mot. Sauf que, pour toutes sortes de raison, cela arrive quand même : spam, pages de nouvelles qui contiennent à la fois les deux mots par hasard, etc.

Tout est donc question de fréquences. Du coup, tout en m’amusant (merci Louis-Jean) j’ai trouvé une excellente idée d’exercice pour mes cours de statistiques. Je vous la fait simple, je sens que j’ai déjà perdu beaucoup de monde au cours de ce billet... On a vu que sarkoland était associé à sarkozy dans 42% des cas. Quelle serait la fréquence moyenne des pages contenant sarkozy pour n’importe quel mot sarkotruc ? Je n’en sais rien du tout, mais je me suis fixé un seuil volontairement assez bas, 10%.

J’ai ensuite calculé pour tous les mots (automatiquement, toujours) le nombre de pages qui contiennent à la fois le mot en question et sarkozy (deuxième colonne dans la table). J’ai ensuite appliqué une loi mathématique moins médiatisée que le nombre d’Or, pi et tout ça, mais tout de même assez merveilleuse : la loi binomiale. Je ne rentre pas dans les détails, sous peine de perdre mon dernier lecteur (vous, apparemment : merci !), mais la dernière colonne de ma table donne la probabilité qu’il y a ait aussi peu de pages contenant à la fois les deux mots (sarkomuche et sarkozy, faut suivre !), étant donnée une proportion théorique de 10%... Pour la plupart des mots, cette probabilité est de 1 (ou quasi modo), mais pour d’autres mots elle est voisine de 0.

Ces mots-là sont donc suspects : ce sont de bons candidats à l’indépendance, probablement des mots qui n’ont rien à voir avec Sarkozy. J’ai fixé un seuil arbitraire de probabilité à 0,1, et voilà. Les mots suspects sont automatiquement marqués dans les lignes en couleur plus foncée dans la table.

Ça m’a permis de faire d’autres découvertes :

sarkoïdose : c’est le nom allemand de la BBS (sarcoïdose en français). Arrêtez, les geeks, ça ne veut pas dire Bulletin Board System. Cela veut dire maladie de Besnier-Boeck-Schaumann, autre nom de la lymphogranulomatose bénigne. Vous ne connaissiez pas ? Je vous avoue que moi non plus, mais Wikipedia m’informe que c’est une affection qui touche surtout les blacks (tiens, tiens : là où il y a du sarko...).

sarkom : C’est le nom du sarcome en allemand, à nouveau (et aussi dans d’autres langues, comme le suédois).

sarkophag : Allemand, toujours : sarcophage.

sarkoth : Une créature bizarre de World of Warcraft.

etc.

Les moteurs de recherche au service de l’exploration lexicale... Amusant, non ? Les gens d’Exalead pourraient nous proposer assez facilement une fonction qui permettrait d’afficher la liste de tous les mots qui commencent par (ou finissent par) un préfixe donné. Je suis sûr que ça aurait un franc succès.

Mais il faudrait que je m’arrête de donner des idées gratis, moi. Je ne m’enrichirais jamais avec ma serendipité si je continue comme ça. Les princes du Serendip pouvaient se permettre, eux, mais moi je ne suis qu’un pauvre universitaire mal payé !


Lire la suite


30 Commentaires:

Anonymous Anonyme a écrit...

Billet encore une fois très divertissant :)
Merci!

11 septembre, 2007 14:25  
Anonymous Anonyme a écrit...

Je voulais signaler à notre blogueur préféré que Serendipity (le mot d'origine en anglais) a donné son nom à un logiciel qui permet de créer... son blog. Parenthèse brève et pertiente.

11 septembre, 2007 15:31  
Anonymous Anonyme a écrit...

Vous avez traité les mots soudés, dans lesquels sarko- fonctionne comme un préfixe agglutiné et on a surtout des dérivés ou des mots-valises. Mais il existe aussi les mots composés où sarko- est considéré comme un élément formant. Par exemple, si l'on prend sarko-compatible (terme souvent présent dans les discours politiques et dans la presse), cela ne fonctionne plus vraiment : il est difficile de recenser ce genre d'expressions puisque le signe div (-, trait d'union ou moins) élimine le terme suivant dans une recheche Google. Mais il existe peut-être une astuce pour recenser les mots composés de la sorte.

11 septembre, 2007 16:33  
Anonymous Anonyme a écrit...

Bravo! quoique sérieux, fait rire

11 septembre, 2007 16:58  
Anonymous Anonyme a écrit...

La sarkoïdose est très connue des fans de la série télé Dr [H]ouse, puisque cette maladie est évoquée à peu près dans un épisode sur deux...

J'ai beaucoup ri la première fois que je l'ai entendu !

11 septembre, 2007 17:38  
Blogger Jean Véronis a écrit...

Dominique> Je n'ai pas d'astuce pour traiter ces composés. Le problème vient du fait qu'Exalead, comme tous les moteurs, enlève le trait d'union, et considère les deux mots comme des mots isolés. La requête "sarko-.*" est donc équivalente à "sarko .*" et en fait, Exalead ignore ".*" qui voudrait dire n'importe quel mot. Donc c'est équivalent à "sarko" tout court. Pas bon.

On pourrait imaginer poser les 26 requêtes "sarko-a.*", "sarko-b.*",... mais à nouveau ce 'nest pas bon, puisque le rait d'union est ignoré et qu'on récupère les pages qui contiennent "sarko" suivi d'un mot commençant par "a", "b", etc. et pas forcément avec un trait d'union.

Dommage...

11 septembre, 2007 17:41  
Anonymous Anonyme a écrit...

Je garde sarkophage :) mangeur de sarko

Merci pour cette bonne humeur, ça fait du bien que vous soyez rentré de vacances.

11 septembre, 2007 18:07  
Anonymous Anonyme a écrit...

Excellent…!

11 septembre, 2007 18:33  
Anonymous Anonyme a écrit...

pour faire le rabat-joie, "expression régulière" est une mauvaise traduction de l'anglais "regular expression". en français, on dit "expression rationnelle".

comme punition, je propose que vous en fassiez le thème de votre prochain billet ;)

11 septembre, 2007 19:14  
Blogger Jean Véronis a écrit...

Thomas> On me fait régulièrement ;-) ce commentaire. Mais je ne vois pas pourquoi c'est incorrect. J'ai appris comme ça quand j'étais étudiant, et "expression régulière" était bien plus fréquente que "rationnelle". Je ne crois pas que ce soit une traduction. "Régulier" veut dire "qui suit des règles" et ça me parait tout à fait adéquat. Je ne vois pas d'ailleurs en quoi "regular" serait correct en anglais et pas en français... Alors, je vais perséverer diaboliquement.

Mais je ferai peut-êtr un billet là-dessus un de ces 4, puni ou pas !

11 septembre, 2007 19:28  
Anonymous Anonyme a écrit...

Il manque Sar-cossard... Normal : Sarko n'aime PAS les cossards !

11 septembre, 2007 20:31  
Anonymous Anonyme a écrit...

Juste pour défendre Google... Ils n'en ont pas besoin mais bon ;)
On peut se mitonner une page d'accueil plutôt sympathique avec igoogle :
http://www.google.com/ig

Encore qu'il est peut-être nécessaire d'avoir un compte google pour ça ?

Pour ce qui est des requêtes avec des expressions régulières, ça n'intéresserait pas grand monde, à part 3 geeks et 2 universitaires... Z'ont peut-être pas envie de s'enquiquiner...

11 septembre, 2007 21:06  
Anonymous Anonyme a écrit...

Il existe encore des constructions assez invraisemblables comme le mot-valise "Sarhélikozy", une sorte de machine à brasser du vent que j'ai vue chez Sarkostique. Le nom est découpé en tranches sans plus aucun souci de la cohérence.

11 septembre, 2007 21:10  
Anonymous Anonyme a écrit...

Toujours passionnant ! Mais dommage que les mots n'y soient pas tous. J'avais inventé sarkotryste dont l'orthographe fait penser à la fois à sarko(z)y et à tr(i)ste.

http://www.journal-la-mee-2.info/article.php3?id_article=20754

et puis je vais utiliser sarkozappeur la prochaine fois. En raison de son extraordinaire faculté de zapper d'un événement à l'autre dans le grand spectacle du monde !

Bravo pour vos articles. J'apprends plein de choses !

11 septembre, 2007 23:08  
Blogger TOMHTML a écrit...

Thomas vo > "expression REGULIERE" car elle suit une "REGLE", tout est correct ;-)

Merci Jean, je ne connaissais pas cette fonctionnalité d'Exalead

11 septembre, 2007 23:47  
Anonymous Anonyme a écrit...

Sarkozetoujours

12 septembre, 2007 09:52  
Anonymous Anonyme a écrit...

Il y a aussi les formes avec un "h" comme sarkhostan ou sarkhôme...

12 septembre, 2007 10:19  
Anonymous Anonyme a écrit...

J'ai vu hier dans un article Cesar Cosi.

Difficile de trouver une requête qui vous sorte ça !

Et pourtant cela correspond à peu près à l'une des facette du personnage.

12 septembre, 2007 10:36  
Anonymous Anonyme a écrit...

@le Monolecte : sans compter des jeux de mots comme ceux qui commencent par tsarko- ou starko-. Mais ce qui peut brouiller les pistes dans ce cas, c'est que ces formes existent dans les langues slaves. Il n'empêche, starko-hutchien pourrait désigner une certaine fébrilité policière devant les caméras.

12 septembre, 2007 10:53  
Anonymous Anonyme a écrit...

c'est vraiment intéressant le préfixe sarko on pourrait y ajouter des suffixes à l'infini.
sarkophobe
sarkophile
enrichir la langue française est une bonne chose mais celà doit impliquer beaucoup de choses positives à mon avis.

selwan

12 septembre, 2007 12:04  
Blogger Frédéric Mahé a écrit...

Bonjour,
j'ai le plaisir de vous annoncer que le conte des princes de Serendip est disponible sur Wikisource. Bonne lecture à tous.
http://fr.wikisource.org/wiki/Voyages_et_aventures_des_trois_princes_de_Serendip

12 septembre, 2007 12:18  
Anonymous Anonyme a écrit...

les phages sont des virus attaquant les bacteries, et des recherches sont en cours pour les utiliser dans la lutte contre les plus nocives et resistantes d'entre elles. A quand le développement d'un sarko-phage ??

12 septembre, 2007 12:26  
Blogger Jean Véronis a écrit...

Frédéric Mahé> Excellente nouvelle. c'est, je crois, le texte qui a servi d'inspiration à Horace Walpole. Comme quoi ceux qui râlent contre l' "anglicisme" "sérendipité" devraient être sereins et pas dépités ;-)

12 septembre, 2007 12:34  
Blogger Vola a écrit...

Billet croustillant: à la fois divertissant et instructif. (si j'avais vu une telle utilité à la loi Binomiale, j'aurais p-e plus bossé les stats :)) Je repasserai sur ce blog !
Bonne continuation,

12 septembre, 2007 13:12  
Anonymous Anonyme a écrit...

Par delà les mots les images : un sakozorus bellicosis qui a pendant quelque jours orné un mur près de Pigalle :
http://akiyo1fr.free.fr/racontars/index.php?2006/10/12/504-le-sarkozorus-bellicosis

12 septembre, 2007 21:34  
Anonymous Anonyme a écrit...

Je suis sarcotché !

13 septembre, 2007 07:40  
Anonymous Anonyme a écrit...

@ Jean et tomhtml : je maintiens expressions rationnelles, car leur construction est basee sur les langages rationnels.

ceci dit, "qui suit une regle" me va mieux, mais c'est pas la premiere notion qu'on entend dans "reguliere"

(desole pour les accents)

13 septembre, 2007 09:00  
Anonymous Anonyme a écrit...

huhu.
pour autre mot qui sonne pareil, il y a : Sarcoptes scabei, l'acarien causant une maladie bien connue: la gale.

Sarcoptes... vous savez le petit teigneux et irritant.... ;)

tlt.

14 septembre, 2007 21:52  
Blogger Unknown a écrit...

A propos du terme expression régulière, oui Thomas, on devrait dire expression rationnelle, langage rationnel, mais on emploie encore à tord expression régulière et presque plus du tout langage régulier. On enseignait en utilisant expression régulière et langage régulier dans les années 70, après on s'est mis à employer rationnel. Il est à noter que l'on n'a jamais à ma connaissance parlé d'arbre régulier et toujours parlé d'arbre rationnel. On pourrait faire une étude en examinant les livres et les vieux polycopiés de cours. Souvent ce type d'anglicisme provient d'une erreur d'un ou plusieurs enseignants et chercheurs!

15 septembre, 2007 23:36  
Anonymous Anonyme a écrit...

http://fr.wikipedia.org/wiki/Maladie_de_Kaposi
(de quoi sarkozy est-il le diminutif???)
à noter que ce sarcome, surtout sa multiplication au sein de populations caucasiennes, fut un des premiers symptômes à attirer l'attention sur le VIH au début des années 80...
alors, symptôme révélateur d'une affection mortelle? (et dans ce cas laquelle, la peste du néolibéralisme, ou le choléra du populisme?)

20 mai, 2010 16:08  

Enregistrer un commentaire