Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, janvier 18, 2011

Lexique: Marinisme

J'adore assister à des naissances, si vous lisez ce blog depuis quelque temps vous le savez ! J'entends depuis quelques jours les mots mariniste, marinisme, y compris à l'instant dans l'émission C dans l'air sur la 5. Google/Twitter confirment :



Cette naissance, m'en rappelle une autre, celle du ségolisme... C'était il y a bien longtemps. Le mot a eu sa floraison flamboyante, puis s'est quelque peu fané. Nous verrons ce qu'il advient du marinisme !

Je me suis dans un premier temps demandé s'il n'y avait pas une fâcheuse propension à créer ces -ismes sur le prénom quand il s'agit d'une femme. Quand il s'agit d'hommes, on a plutôt du gaullisme ou du sarkozyme que du charlisme ou du nicolisme ! Regard paternaliste et condescendant sur un sexe resté faible dans les esprits politico-machistes ? Peut-être, mais il faut se méfier des raisonnements trop rapides. Bien que je sois convaincu que la place de la femme dans le monde politique (et dans le monde tout court) ne soit pas encore celle que toute une génération (la mienne) avait rêvé il y a quarante ans, dans ces deux cas, il aurait été bien difficile de créer un -isme sur le patronyme. Royalisme... hmm, douteux (bien que ça ait été utilisé). Quant à lepénisme, c'est largement pris.

Nous verrons ce qui se passe du côté de Martine Aubry. Pour l'instant elle ne semble pas déclencher de -isme, mais il sera difficile de faire du martinisme -- la connotation serait extrêmement étrange (à dire vrai le marinisme existait aussi, mais qui le sait ?). Reste l'aubrisme... Ca sonne mal, mais ça frémit quelque peu, ce qui prouve que finalement, si le sexe intervient sans doute dans le choix du mot support, d'autres facteurs viennent brouiller les cartes (rareté du prénom, préexistence du dérivé, etc.). Et puis, nous avons connu le thatchérisme, n'est-ce pas ? Le margarétisme est une espèce à ce jour inconnue (tiens, en écrivant cela je viens de la créer !).

*
* *

Je ne puis m'empêcher d'analyser le comportement de Google sur ces requêtes. Pour générer la figure du haut de la page, j'ai tapé marinisme. Or Google me donne aussi mariniste et marinistes pour le même prix. Cela fait quelque temps que Google a intégré (un peu plus tard pour le français que pour l'anglais) une reconnaissance de la « morphologie flexionnelle » (singuliers et pluriels), mais aussi, peu à peu, une reconnaissance plus complexe, celle de la « morphologie dérivationnelle» (les suffixes -isme, -iste, par exemple).

Rien de bien savant, me direz-vous, il suffit d'un bon dictionnaire qui recense les formes associées à chaque mot (j'en ai un très complet que je me suis créé au fil des années pour les principales langues, et que j'utilise dans mes outils).

Oui, mais. Il est bien improbable que mariniste/marinisme, ségoliste/ségolisme et encore pire, le quasi confidentiel couple aubriste/aubrisme existent dans un quelconque dictionnaire humainement constitué. Google s'en sort avec des listes de suffixes, et des calculs statistiques, et ce qui fait sa force c'est la masse incroyable de données sur laquelle les algorithmes peuvent « apprendre ». Et le résultat est assez époustouflant.

Mais bon, j'arrête, sinon on va m'accuser de véronisation des esprits. Tiens, vous avez remarqué que Google a associé véronisation et véroniser ? Dingue...

16 Commentaires:

Blogger Bernard G a écrit...

Vous nous suggérez là un jeu amusant. J'ai essayé avec Girard (par égocentrisme), j'ai fait Giradisme sur Google qui m'a renvoyé 2200 références (à René Girard, naturellement). Le mot n'est pas heureux mais cette formation semble naturelle et n'est pas réservé au politique. Si le proustisme (horrible il est vrai) n'existe pas, le flaubertisme se rencontre (1290 références sur Google) tout comme l'hugolisme (185 références).

18 janvier, 2011 23:27  
Blogger Jean Véronis a écrit...

C'est vrai qu'on est plus volontiers proustien que proustiste ! Du coup, on trouve aussi du proustianisme...

Vos exemple m'ont incité à chercher ce qui se passe pour Zola (pas facile, celui-là !). On trouve zolisme, zoliste (mais assez rares). On est plutôt zolien.

En revanche pas de zolianisme ! Voilà encore un mot que je viens de créer sur Google ;-)

19 janvier, 2011 09:06  
Anonymous Cochonfucius a écrit...

Pour le moment, le moteur rectifie

"cochonfucéen" en "confucéen".

Là, on n'est pas dans la morphologie, mais dans la distance d'édition.

20 janvier, 2011 14:09  
Anonymous Cochonfucius a écrit...

A peine ai-je écrit cela qu'il rectifie autrement ! Et ce coup-ci, la morphologie est en effet pertinente.

Affaire à suivre, comme on dit.

20 janvier, 2011 14:11  
Anonymous Cochonfucius a écrit...

Il y avait une faute d'accent :

comme ceci, ça illustre ce que je disais tout à l'heure.

20 janvier, 2011 14:14  
Anonymous muondo a écrit...

un blog excellent qui m'apprend toujours des choses remarquables,merci monsieur de votre talent

23 janvier, 2011 11:12  
Anonymous b, naïf a écrit...

Pas d'aubrisme ?
Bon, il y a des aubristes. Voire un charmant strausko-aubriste de chez Marianne 2

24 janvier, 2011 18:57  
Anonymous Anonyme a écrit...

En Allemagne, on ne parle pourtant pas d'Angelisme, ce serait curieux :) !

Ce qui renforce l'option "impact du prénom / nom" ... en tout cas pour les femmes.

Pour les hommes, il n'y a qu'un cas que je vois : l'emmanuelisme ... sauf que ça se rapporte bien à un prénom, mais au mien ! Autant pour l'Henryisme.

Emmanuel

02 février, 2011 17:22  
Blogger Olivier Bonnet a écrit...

Bonjour cher Jean,
Et que penses-tu de ma création, l'adjectif hortefesque ? Ça sonne rudement bien je trouve. J'utilise aussi fillonesque et bessonien. :D

11 février, 2011 16:05  
Blogger Esteban a écrit...

À ceux qui se reposent sur les nombres de résultats clamés par google en haut de la première page : ces chiffres sont vraisemblablement pipotés !

Il y a un an, sous le coup du doute, j'ai procédé à une expérience : j'ai créé une liste de bigrammes constitués à partir des noms et des adjectifs les plus fréquents de la base Lexique3. J'ai ensuite alimenté google avec mes bigrammes (rigoureusement placés entre guillemets) et n'ai conservé que ceux qui correspondaient à un nombre de résultats clamés en première page entre 11 (sur au moins deux pages) et 10 000 (pas plus de 100 pages car google refuse des les servir ensuite) (par défaut une page google = 10 résultats).
Ce que j'ai pu observé c'est que:
1. - le nombre de résultats clamés en première page ne correspond pas au nombre de résultats que peut visualiser l'internaute.
2. - et que ce nombre de résultats est systématiquement revu à la baisse et ce sur la dernière page.

Pour preuve, voici un graphe généré à partir des données que j'avais recueillies:
http://i57.photobucket.com/albums/g225/Phonatacid/GoogleFraud.jpg
1 courbe = 1 requête
X = n° de la page
Y = nombre de résultats clamés sur la page.

Alors c'est vrai il y a les erreurs d'algorithmes, des histoires de bases de données éparpillées au quatre coins de la terre dans différents serveurs etc, mais force est de constater que cette attitude semble être suffisamment mesquine et sournoise pour être reléguée au même plan que la bonne qui met la poussière sous le tapis.


J'ai aussi manuellement constaté que le même genre de pratique sévissaient (sévissent tjrs ?) chez alltheweb, peut-être même dans des proportions plus importantes (mais il a au moins le mérite de se laisser crawler sans sourciller).
Et ce genre de phénomène est tjrs observable sur google. Exemple.

Prenons un nom : chien
un adj (un adj acollocatif ^^) : ventriloque.
Cherchons "chien ventriloque" (entre guillemets) sur google

Page 1 : Environ 642 résultats
http://www.google.fr/#q=%22chien+ventriloque%22&hl=fr&prmd=ivns&ei=NwNaTYnMOcOShAen3-jJDQ&start=0&sa=N&fp=d2ace853aefbb4b5

Page 11 : environ 627 résultats
http://www.google.fr/#q=%22chien+ventriloque%22&hl=fr&prmd=ivns&ei=bQNaTd2mPMO7hAfD8_nEDQ&start=100&sa=N&fp=d2ace853aefbb4b5

Page 12 (la dernière) : 111 résultats
http://www.google.fr/#q=%22chien+ventriloque%22&hl=fr&prmd=ivns&ei=cANaTb_6Mse3hQfahqGKDQ&start=110&sa=N&fp=d2ace853aefbb4b5

15 février, 2011 05:49  
Anonymous Cochonfucius a écrit...

Un exemple similaire,

chien amnésique.

15 février, 2011 16:32  
Blogger Billards a écrit...

Je l'applique régulièrement pour vérifier la mise en place des liens en temps réel comme sur mon site de référencement
Référencement chronosite

15 février, 2011 20:13  
Blogger Esteban a écrit...

oui.

j'ai cherché "chien ventriloque" (plus productif en résultats) sur divers moteurs de recherche.

bing/yahoo/alltheweb (je crois qu'ils utilisent le même moteur) : le nombre de résultats clamés et accessibles sont à peu près comparables (à 1 ou 2 résultats près sur une requete qui en génère une 50aine)

exalead: sur les 50 et qqs résultats, seulement une 20aine sont accessibles. Cependant le nombre clamé n'est pas corrigé en dernière page comme le fait google.


*strokes chin*

15 février, 2011 20:16  
Anonymous Laurent de Boissieu a écrit...

Bonjour,
Une petite remarque: n'en déplaise à Google, "marinistes" et "marinisme" ne sont pas du tout équivalents.
Autant je parle bien (puisque je suis l'auteur du premier tweet cité) de marinistes (=partisans de Marine Le Pen), autant il me semblerait absurde, dans l'état actuel des choses, de parler de marinisme (=idéologie nouvelle fondée par Marine Le Pen).
Cordialement!

16 février, 2011 21:39  
Anonymous Vincent a écrit...

@ esteban,

Deux questions par rapport à votre remarque sur le nombre de référence retourné par Google.

Comment expliquez-vous cet écart?

Existe-t-il d'autres outils pour construire l'évolution dans le temps de ce nombre de référence à partir du date passée?
Par exemple, je veux obtenir l'évolution (à une fréquence donnée) du nombre de page web contenant "U2" depuis 2005 jusqu'à aujourd'hui.

21 février, 2011 10:45  
Blogger Esteban a écrit...

@ vincent

en espérant que tu reviennes sur cette page.

Première question: je dirais que cet écart - mais ça n'engage que moi et je dis vraiment ca à vue de nez - les nombres de résultats en première page sont bidonnés (de manière homogène je suppose, donc c'est peut être pas si grave), probablement un reliquat de l'époque ou google et tant d'autres moteurs de recherches se livraient à la guerre du plus grand nombre de résultats retournés.

Deuxième question:

Il y a plusieurs moyen.

d'une part trends par les labs de wikio
http://labs.wikio.net/fr/trends/
mais ca ne permet de remonter qu'à 2008 environ, et la recherche ne porte pas sur un item lexical quelconque présent dans les pages web mais sur une catégorie.
(dans ton cas : Culture - Musique - Pop Rock - U2)

Google insight for search (essentiellement à destination des marketers)
http://www.google.com/insights/search/#q=%22U2%22&cmpt=q
permet de remonter à 2004.

Google ngram viewer (plus pour les linguistes et les "culturonomiciens" ).
http://ngrams.googlelabs.com/
Google a crée un méga corpus sur la base des bouquins qu'ils ont scanés (un truc équilibré et tout et tout apparemment). On peut donc observer l'évolution des mots à l'échelle du siècle.
Mal adapté pour des périodes courtes telles que 2005-2011

Mon propre programme merdique qui va directement pomper les résultats sur la première page des moteurs de recherches, en se basant sur leur fonction "recherche dans un intervalle temporel" afin de construire de belle courbes. J'avais implémenté ca pour exalead, google et alltheweb. à l'heure actuelle, c'est plus ou moins cassé (google notamment a changé sa manière d'afficher les pages), mais je pourrais réparer ca rapidement je pense.
Bémol : google et exalead bloquent les requêtes automatiques, du coup faut être en mesure de changer d'ip (déco/reco généralement). Par contre tu risques de te faire DLMisé par ton FAI : considérer que ta ligne est instable et te délivrer un débit plus faible pour la stabiliser.


Je te recommande la lecture de "googleology is bad science" par kilgriff dans laquelle il soutient (avec raison) que se servir de google pour estimer des fréquences ce n'est pas scientifique. Mais lorsqu'on veut faire des études diachroniques avec une petit granularité, il n'y a pas bcp d'autres d'options.
Quoique:
le même kilgriff avait constitué des corpus web pour l'allemand et l'italien (DEWac et ITWac). Des trucs de pros, équilibrés et tt. L'opération prenait une dizaine de jours environ (5 pour crawler, 5 pour nettoyer), donc à la rigueur, avec assez d'espace disque, tu pourrais obtenir une granularité de 5 jours. Encore faudrait-il laisser tourner le programme plusieurs années et savoir répondre à qqs problèmes de méthodologie : comment traiter les pages qui disparraissent ? Comment considérer les pages qui ont changées ?



Voici qqs résultats que j'avais tirés grâce à mon programme
Corrélation entre "jean sarkozy" et le rarissime "népotisme" (peut être moins rare depuis)
http://i57.photobucket.com/albums/g225/Phonatacid/jeansarkozy-nepotisme.jpg?t=1298826145

Et une investigation lexicologique menée aux alentours de 4h du mat (attention, qqs conneries s'y sont glissées) dans laquelle je critiquais la décision de Robert (le dico, pas le pilier de bar) qt à l'insertion de certaines orthographes alternatives dans le cru 2009.
http://www.sendspace.com/file/abllw5

pour plus d'infos
es7teban.mo7ntec7ris7to@gmail.com (il n'y a pas de 7 dans mon adresse email, juste histoire d'éviter le spam)

27 février, 2011 18:14  

Enregistrer un commentaire