Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

samedi, avril 30, 2005

Texte: Hyper-constitution

Je présume que de nombreux internautes ont été comme moi frustrés de n'avoir accès au texte du Traité établissant une Constitution pour l'Europe que sous forme de fichier pdf. Résultat : 482 pages à lire à l'écran ou à imprimer, ce qui est pour le moins malcommode...

Diverses initiatives citoyennes ont essayé de rendre la chose plus lisible (voir le site NotreConstitution.net, ainsi que mon moteur de recherche). Mais mieux vaut tard que jamais : la semaine dernière, la Commission Européenne a rendu disponible sur le site Europa une version HTML en anglais, puis, mercredi, une version en français.


site europa

Je ne sais pas quels sont les plans de la Commission pour les autres langues. L'allemand a toujours son gros fichier pdf, et les autres langues sont encore moins bien loties, puisqu'elles n'ont droit qu'à une mise en ligne du Journal Officiel du 16 décembre 2004 dans lequel le texte est paru, sous forme de 50 fichiers pdf séparés (voir par exemple l'espagnol et l'italien). A vos clics (bonjour la tendinite !).

Mais je préfère la version réalisée par une collègue norvégienne, Brit Helle Aarskog de l'Unité de recherche textes et technologies de l'information à Bergen (non, la Norvège n'est pas encore dans l'Union ;-), et à laquelle j'ai très modestement contribué.

Site Brit Aarskog

Outre la présentation qui en est très agréable (avec une table des matières déroulable présente en permanence dans la partie gauche de l'écran), l'intérêt de cette version est que toutes les références croisées sont cliquables (et elles sont nombreuses !).

Donc plus de problème quand vous rencontrez un de ces articles qui vous obligeait à un feuilletage frénétique pour savoir de quoi on parlait. Il suffit maintenant de suivre le lien. Exemple :
ARTICLE III-395

1. Lorsque, en vertu de la Constitution, le Conseil statue sur proposition de la Commission, il ne peut amender cette proposition qu'en statuant à l'unanimité, sauf dans les cas visés aux articles I-55
et I-56, à l'article III-396, paragraphes 10 et 13, à l'article III-404 et à l'article III-405, paragraphe 2.

En bonus, Brit nous donne une "carte de contenu" (cliquable), qui résume le plan de tout le traité. Je ne donne qu'un extrait du début, et encore, en format réduit : la chose entière fait près d'un mètre de haut. Idéal pour décorer votre salon, ou toute autre partie de votre appartement (selon vos convictions). Attention avant de cliquer. La carte fait 1,4 Mo.

carte de contenu

J'aimerais pouvoir lier les résultats de mon moteur de recherche avec cette version hypertexte de façon qu'en cliquant sur les lignes de résultats on ait directement le bon article dans la version de Brit, mais il faudrait que les journées aient 35 heures...

6 Commentaires:

Blogger ---deleted--- a écrit...

Typo : "J'aimerai"+s

Désolé, ce n'est pas très constructif ! Merci pour ce texte, votre collègue norvégienne a fait un travail admirable.

01 mai, 2005 17:13  
Blogger Jean Véronis a écrit...

Merci François! Si, c'est constructif. Je déteste les coquilles... C'est corrigé.

01 mai, 2005 17:19  
Anonymous Anonyme a écrit...

Merci pour ces infos qui sont désormais aussi sur sur NotreConstitutionPointNet.

Juste un détail, chaque article sur NotreConstitutionPointNet comprend aussi des hyperliens vers les autres articles. Nous avons aussi la listes faisant référence à l'article courant (rétrolien)

Courage ;-)

02 mai, 2005 13:11  
Blogger Jean Véronis a écrit...

>Juste un détail, chaque article sur NotreConstitutionPointNet comprend aussi des hyperliens vers les autres articles.

Beavo (je n'avais pas vu)!


>Nous avons aussi la listes faisant référence à l'article courant (rétrolien)

Ca c'est super utile. J'étais en train de faire du moulinage de mon côté sur les rétroliens, avec un best-of des articles les plus cités. Je ne sais pas si j'en tirerai quelque chose de bloggable. Je crois que l'article le plus cité est le II-112 avec 23 rétroliens (sous réserve que je n'ai pas buggé). Mais toutes les citations sont dans l'acte final, ce qui expliquerait qu'il n'a pas de rétrolien chez vous. Apparemment vous n'avez pas indexé l'acte final ? (pourtant le traité semble dire au IV-442 qu'il en fait partie intégrante ?)


>Courage ;-)

Vous aussi !

02 mai, 2005 13:39  
Anonymous PiTiLeZarD a écrit...

Je vais prendre deux trois liens parce que ça me semble indispensable que les gens lisent la constitution avant de voter n'importe quoi ...

Toute initiative visant à clarifier le sujet est bienvenue :)

Merci pour ce billet ...

04 mai, 2005 08:21  
Anonymous Anonyme a écrit...

Jean, il nous manque encore quelques annexes et nos rétroliens comportent quelques bugs.
Comme fichier XML que nous a fourni Elie Nauleau Comportait pas mal de trous, nous sommes obligés de compléter à la main, et c'est très pénible!
Nous avons besoin de doigts et de cerveau pour les agiter!
Voir notre appel à l'aide...
http://notreconstitution.net/index.php/A%20l%27aide%21?
Courage, courage, encore et encore
OA

04 mai, 2005 11:39  

Enregistrer un commentaire

mercredi, avril 27, 2005

Web: Yes or "Non" to the Constitution ?



As many of you must have heard, there will be a referendum in France on May 29th about the project of European Constitution, and the debate is quite animated at the moment -- with a majority in favor of "Non" in the opinion polls, and desperate efforts from the French president Chirac, and others, to change that trend before the D Day.

I wondered whether the Web says more "Oui" or "Non", when it comes to the European Constitution. It is very easy to check with a search engine like Yahoo (search restricted to pages in French) :

QueryHits
"Constitution européenne" oui -non135 000
"Constitution européenne" -oui non521 000
"Constitution européenne" oui non643 000
"Constitution européenne" -oui -non528 000
"Constitution européenne"1 890 000

The first query returns the pages that contain the phrase "constitution européenne" (quotes are important!), the word oui, but not the word non (the minus sign is an exclusion operator). The second returns pages that contain "constitution européenne", non but not oui, etc... This is the good old Venn diagram that we (used to ?) learn in high school :

Diagramme de Venn

The total is not exact (it should be according to set theory), but search engines do approximations for Boolean queries. Yahoo actually does a quite reasonable job. The error is only about 3%. Google counts are completely bogus as I have shown before on this blog, and therefore it can't be used for this type of study.

If we look at the pages that contain oui or non, without containing the other word, we see that the non pages are 4 times more numerous than the oui pages.

This is a bit surprising, but we have to be careful since non is always more frequent than oui on the Web, all topics together. It happens in many languages (much more so in English as we will see below). Deep negativity of the human being, or hidden linguistic factors? This would be the topic of another post. The results for the Web as a whole are as follows :

QueryHist
oui -non13 500 000
-oui non
40 900 000
oui non12 800 000

Let's not jump too quickly to conclusions. The non pages are always more important than the yes pages (from now on, I will speak only about the pages that do not contain the opposite word), but on the web as a whole, they are only three times more numerous, as opposed to four on pages with "Constitution Européenne". Statisticians use a measure called "odds ratio", which is simply the division of one by the other. Here the odd ratio (in favor of non) is about 4/3, more exactly 3.9 / 3.0 = 1.27. In other words, one has 27% more chances to find a non than a yes when the Web speaks of "Constitution européenne".

One commentator on my French version of this post remarked that the numbers could be biased by the pages about the current opinion polls -- whose findings are in favor of non. Very interestingly, if we subtract the pages that contain poll (i.e. sondage in French), the odd ratio in favor of non is even greater since it jumps to 2.5 ! Vraiment non !

The comparison with the English-speaking Web is striking. Here are the results, still with Yahoo (English pages only this time) :

QueryHits
"European constitution" yes -no5 830
"European constitution" -yes no132 000
"European constitution" -yes -no128 000
"European constitution" yes no99 500
"European constitution"371 000

The total number of pages about "European Constitution" is surprisingly low! We have seen above that it was close to 1.9 million for French, and we know that the French pages are far less numerous on the Web. I made a quick estimate by querying Yahoo with 50 language-independent "words" (http, www, numbers, etc.), according to the technique I described here. The number of French Yahoo pages is about 5.7% of the number of English pages as of today (April 27th), as can be seen on the following diagram (I don't want to be too technical, but the slope of the regression line in pink gives the proportion).

correlation yahoo français-anglais
I would therefore expect 371 000 * 0.057 = 21 147 pages containing "Constitution Européenne" in French. Instead we found 1.9 million, i.e. 90 times more. The conclusion is clear : the debate is quite lively at the moment in France!

As far as yes and no are concerned, we can see that no is much more frequent that yes :
QueryHits
yes -no43 200 000
-yes no1 190 000 000
yes no163 000 000

This unbalance is much more pronounced than in French, since there are 28 times more no's than yes's (this is probably due to the different linguistic role of no in English : for example determiners such as aucun in "aucune loi" translate as no in English : "no bill"). In any case, no is only 23 times more frequent in the pages containing "European Constitution". The odd ratio is this time 1.22 (i.e. 22% more), but in favor of yes.

These amusing statistics thus reveal that France is already the "black sheep" of Europe, at least on the Web, to use President Chirac's own terms ;-)

3 Commentaires:

Anonymous Anonyme a écrit...

La constitution elle-même contient beaucoup de 'non' mais pas de 'oui'...

02 mai, 2005 17:07  
Blogger Jean Véronis a écrit...

Exact. Il n'y a pratiquement jamais "oui" dans les textes juridiques ou administratifs. Il y a 103 occurrences de "non" dont :

* 17 dans des expressions du type "rémunérée ou non"
* 86 comme modifieur d'ajectif ou de nom ("non contractuelle", "non-discrimintation")

On n'a jamais les positions dans lesquelles un "oui" pourrait apparaître, comme Verbe + oui ("voter oui", etc.).

02 mai, 2005 17:18  
Anonymous Anonyme a écrit...

Now that Spain has voted for the constitution it would be interesting to know what was the correlation between the frequency of "constitucion europea" and "si"/"no" and the outcome of the election.

24 mai, 2005 01:50  

Enregistrer un commentaire

Web: C'est plutôt yes !



J'ai montré dans mon étude d'hier que le Web francophone disait franchement non lorsqu'il s'agissait de Constitution Européenne. Le Web anglophone parle à l'inverse : en anglais c'est nettement yes ! Les statistiques semblent donc confirmer la position à part de la France dans le débat Européen.

Voici les résultats concernant le yes et le no dans les pages parlant de "European Constitution" (toujours avec Yahoo, pages en anglais cette fois -- j'ai mentionné que les comptes de Google sont faux et donc inutilisables pour ce type de travail) :

RequêteRésultats
"european constitution" yes -no5 830
"european constitution" -yes no132 000
"european constitution" -yes -no128 000
"european constitution" yes no99 500
"european constitution"371 000

Ce tableau amène une première constatation tout à fait surprenante. J'ai montré hier qu'il y avait 1 890 000 pages francophones contenant les mots "Constitution Européenne". Il n'y en a que 371 000 en anglais. Or on sait que les pages en anglais sont bien plus nombreuses que les pages en français sur le Web.

En interrogeant Yahoo avec une liste de 50 "mots" indépendants de la langue (http, www, nombres, etc.), selon une technique que j'ai décrite ici, j'ai pu estimer que le nombre de pages francophones indexées par Yahoo est (à la date d'aujourd'hui, 27 avril) environ de 5,7% le nombre de pages en anglais. Le diagramme ci-dessous montre le nombre de résultats retournés pour chacune des langues --c'est un peu technique, mais la pente de la droite de régression (en rose) indique la proportion de pages françaises.
correlation yahoo français-anglais
Je m'attendrais donc à observer environ 371 000 * 0,057 = 21 147 pages contenant "Constitution Européenne" en français. Or, il y en a près de 1,9 million, c'est-à-dire environ 90 fois plus. Le constat est sans appel : le Web confirme ce que nous savons déjà, à savoir que le débat sur ce thème fait actuellement rage en France.
Mais revenons au yes et au no. On observe que le no "sec" (sans yes dans la même page) est bien plus fréquent que le yes "sec". Il faut bien sûr, comme je l'ai expliqué hier, comparer avec les proportions de yes et no sur l'ensemble du Web anglophone :

RequêteRésultats
yes -no43 200 000
-yes no1 190 000 000
yes no163 000 000

Permettez-moi d'ouvrir une petite parenthèse linguistique sans rapport avec la Constitution: on s'aperçoit dans cette table que la proportion no/yes (secs) est bien plus grande en anglais qu'en français. On avait environ 3 fois plus de non que de oui en français sur l'ensemble du Web. En anglais c'est environ 28 fois. Cela tient sans doute au fait que le no anglais apparaît dans de nombreux rôles qui sont dévolus à d'autres mots en français (par exemple l'adjectif indéfini : "aucune loi" = "no bill").

Quoi qu'il en soit, ce qui nous intéresse ici c'est de comparer le rapport no/yes sur l'ensemble du web et dans les pages contenant "European Constitution". On s'aperçoit que ce rapport n'est plus que d'environ 23 fois dans ces dernières. Le "rapport de chances" (voir mon billet d'hier) est cette fois-ci de 1,22 (soit 22% de plus) mais en faveur du yes.

Ces quelques statistiques simples, au-delà de leur valeur récréative, montrent donc clairement que la France est déjà le vilain mouton noir d'Internet ;-)

Mais attention, ne prenez pas tout ça trop au sérieux, quand même !

7 Commentaires:

Blogger Luca a écrit...

je trouve toujours tes billets (j'espère que ça c'est la traduction en français de "post"... à l'école je n'ai jamais étudiée la terminologie du Web) très amusant et intéressant au même temps. Analyser le web (surtout Google) dans ton façon c'est (peut-être) une façon d'observer "quelque chose" que fait moi souvenir le concept de "Sémantique" utilisée par Niklas Luhmann. Si la Sémantique pour les Système sociaux c'est l'ensemble du Thème qui le Système Social même utilise pour reproduire la communication, on peut dire que en analysant Google (qui est surtout une sélection qui permit la reproduction de la communication) on analyse la Sémantique social.
Je sais d'avoir un peut banalisée la théorie de Luhmann, mais c'était seulement un idée. Qu'est que vous ne pensez?

27 avril, 2005 18:07  
Blogger Jean Véronis a écrit...

Grazie mille, Luca, per il tuo comentario. Si, un "post" è un "billet" in francese. Si dice anche un "post" (cioè, in "franglese" ;-)

Che dire... il fatto è che non la conosce bene, la "teoria dei sistemi" di Niklas Luhmann. La mia specialità è la linguistica più che la sociologia. Volevo leggere "La realtà dei mass media", ma non ho mai trovato il tempo. Forse lo farebbe...

27 avril, 2005 21:53  
Anonymous SV a écrit...

Ja oder Nein...

Suite aux derniers billets, j'ai eu la curiosité d'aller faire un tour de l'autre côté du Rhin.
Le web germanophone dirait-il plutôt "Ja" ou plutôt "Nein" à cette chère constitution ?

Voici les résultats obtenus sur "de.yahoo.com" :

"europäische Verfassung" ja -nein : 11 400
"europäische Verfassung" -ja nein : 1 500
"europäische Verfassung" -ja -nein : 98 400
"europäische Verfassung" ja nein : 30 200

Total : 141 500

Petite parenthèse : nous avions 1 890 000 pages en français sur la "constitution européenne", nous avions 371 000 pages
en anglais sur l'"european constitution", nous en avons "seulement" 141 500 en allemand.
Nos voisins seraient-ils moins préoccupés par la question que nous ?

Bref, comme M. le Professeur Veronis nous l'a bien appris, il faut mettre ces chiffres en relation avec la proportion du
"Ja" et du "Nein" secs, sur les pages en allemand :

ja nein : 13 700 000
ja -nein : 145 000 000
-ja nein : 4 990 000

Et en termes de "rapport de chances", si mes calculs sont bons : en général "Ja" apparaît 29 fois plus souvent que "Nein" et, pour les textes sur la constitution il n'apparaît que 7,6 fois plus. Ceci nous donne donc 26% en faveur du non ...

Oui ou non...

Quoiqu'il en soit, n'oubliez pas d'aller voter le 29 mai prochain...

28 avril, 2005 11:13  
Blogger Jean Véronis a écrit...

Ach ! Si ces calculs sont bons (je n'ai pas vérifié) nous ne sommes pas seuls méchants moutons noirs ;-) il y en a peut-être tout une bergerie (à moins que nos voisins parlent beaucoup du Nein français, qui les préoccupe beaucoup !)

28 avril, 2005 21:30  
Anonymous Nico a écrit...

J'apprécie toujours vos billets, mais là je voudrais faire quelques remarques (ça englobe la note d'hier aussi):
1- Le web selon Google est-t-il un échantillon représentatif de la population ?
2- Le débat fait rage en France, certes. Mais la date n'a pas encore été fixée pour le référendum au Royaume-Uni, qui par ailleurs vote pour les législatives dans 6 jours (d'autres débats font rage !) : je ne m'étonne pas de retrouver peu de "european constitution"
3- Le web est-il plutôt un espace de propagande (votez oui ! ou votez non!) ou un espace de réflexion/débat, auquel cas une page qui dit "oui" dira aussi pourquoi elle ne dit pas "non".
Tout ça pour dire que à mon avis, ces résultats ne disent pas grand chose...
Ha j'oubliais : les anglais sont a priori franchement No : http://www.telegraph.co.uk/news/main.jhtml?xml=/news/2005/01/29/neu29.xml&sSheet=/news/2005/01/29/ixnewstop.html

29 avril, 2005 11:27  
Blogger Jean Véronis a écrit...

Vous avez raison, Nico :

>1- Le web selon Google est-t-il un échantillon représentatif de la population ?

Non !

>2- Mais la date n'a pas encore été fixée pour le référendum au Royaume-Uni [...] je ne m'étonne pas de retrouver peu de "european constitution"

Absolument.

>3- Le web est-il plutôt un espace de propagande (votez oui ! ou votez non!) ou un espace de réflexion/débat,

Peut-être un peu les deux ? Mais ce n'est qu'une impression. Je ne connais pas d'étude sociologique précise !

>auquel cas une page qui dit "oui" dira aussi pourquoi elle ne dit pas "non".

Vrai (mais j'ai quand même exclu les pages qui disent oui et non).

Miais, bon, tout ça c'est un peu comme les épriences de "physique amusante". A ne pas trop prendre au sérieux ;-)

29 avril, 2005 12:02  
Blogger Luca a écrit...

Je vais continuer à écrire en Français, si est possible. J'ai tellement peux d'occasion pour l'écrire/parler que je vais sûrement oublier tous choses.
"La realtà dei mass Media" c'est un livre très intéressant mais n'est pas le meilleur texte de Luhmann, souvent on dit que c'est le plus facile a la lecture... peut-être. Une chose que je pense être intéressant (et qui est liée à un autre comment) est que le web ne doit pas être un échantillon représentatif de al population mais seulement un lieux ou on peux observer la communication (les communications) est que Google est quelque chose qui nous permit d'oublier; ou mieux de différencier ce qu'on doit se souvenir et ce qu'on peut oublier.

29 avril, 2005 14:25  

Enregistrer un commentaire

mardi, avril 26, 2005

Web: C'est plutôt non




Lire la suite

27 avr - En anglais, c'est plutôt yes



Quelques statistiques simples montrent que le Web dit plutôt non que oui lorsqu'il parle de la Constitution Européenne. Vous pouvez le vérifier vous-même aisément avec le moteur de recherche Yahoo (pages en français) :

RequêteRésultats
"Constitution européenne" oui -non135 000
"Constitution européenne" -oui non521 000
"Constitution européenne" oui non643 000
"Constitution européenne" -oui -non528 000
"Constitution européenne"1 890 000

La première requête cherche les pages qui contiennent les deux mots "constitution européenne" côte à côte (les guillemets sont importants!), le mot oui, et pas le mot non (le signe moins est un opérateur de recherche avancée qui permet d'exclure la présence de certains mots). La seconde cherche les pages qui contiennent "constitution européenne", non et pas oui, etc... Ceci correspond au bon vieux patatoïde de la théorie des ensembles, ou diagramme de Venn, qu'on apprend (apprenait ?) sur les bancs du lycée :

Diagramme de Venn

On remarquera que l'addition n'est pas tout à fait exacte (alors qu'elle le devrait selon la théorie des ensembles). Mais c'est normal : les moteurs de recherche font obligatoirement une approximation lors de requêtes booléennes de ce type. Yahoo ne s'en tire pas trop mal, l'erreur n'est que de 3%. Google est catastrophique de ce point de vue, comme je l'ai largement fait remarquer sur ce blog, et donc il est totalement inutilisable pour le genre de travail que j'illustre ici.

Les pages qui contiennent à la fois les mots oui et non, tout comme celles qui ne contiennent ni l'un ni l'autre, ne nous permettent évidemment pas d'opposer ces deux mots. Ignorons-les (pour l'instant). On voit que les pages qui contiennent un non sans oui (que j'appellerai un non sec pour faire plus court) sont à peu près 4 fois plus nombreuses que les pages qui contiennent un oui sec. Etonnant, non ?

Oui... mais ! Ne nous emballons pas. Il faut comparer avec ce qu'on trouve généralement sur le Web dans son ensemble ! Or, on voit que le non est toujours plus fréquent que le oui, tous sujets confondus. Etonnant aussi. Et cela se retrouve aussi dans d'autres langues. Je ne sais pas si quelqu'un l'a déjà remarqué... Peut-être. Profonde négativité de l'être humain ? C'est certainement intriguant, et à étudier de plus près, mais ce sera pour un autre billet.

RequêteRésultats
oui -non13 500 000
-oui non
40 900 000
oui non12 800 000

Oui... mais re-mais : sur l'ensemble du Web (en tous cas, les quelques centaines de millions de pages indexées par Yahoo pour le français), le non sec est seulement trois fois plus présent que le oui sec. Les statisticiens utilisent un terme savant pour comparer de tels couples de proportions, à savoir la notion de rapport de chances -- attention, "chances" est le terme consacré, ne l'interprétez pas mal dans le contexte de ce référendum ! Les statisticiens parlent aussi bien de "chances" de mourir du cancer que d'en guérir...

Ici, le "rapport de chances" en faveur du non est en gros de 4 pour 3. Si vous vous amusez à faire les calculs précis à partir des tableaux ci-dessus, vous verrez que c'est plus exactement 3,9 / 3,0 soit 1,27. En d'autres termes, on a environ 27% plus de "chances" de trouver non quand le Web parle de "Constitution européenne".

Je laisse à chacun le soin d'interpréter ce résultat... Bien sûr, il y a des pages qui contiennent le mot non et qui sont favorables à la Constitution (du genre "Ne votez pas non"), et inversement. Mais les statistiques s'intéressent aux grandes masses, et j'ai bien l'impression quand même après avoir examiné les premières dizaines de pages retournées par Yahoo pour le non sec et le oui sec, que les pages qui contiennent non sec sont plutôt contre, et les pages qui contiennent oui sec sont plutôt pour. Si c'est bien le cas, cela n'a évidemment de toutes façons pas valeur de sondage sur l'ensemble des futurs votants. Cela ne représenterait au mieux qu'un sondage sur une petite fraction, celle des internautes, et encore, ceux qui écrivent.

Une dernière petite remarque : la proportion des pages qui contiennent à la fois oui et non par rapport à l'ensemble des oui/non est de près de 50% sur les pages qui parlent de "Constitution européenne". Elle n'est que d'environ 20% sur l'ensemble du Web. Beaucoup d'indécis ? Beaucoup de sites qui appellent à réfléchir, qui essaient d'éclaircir le débat sans prendre position ?

A vous de juger.


Post-scriptum

27 avr - Le Web est contre !

Daniel Broche me fait remarquer que le pour est plus fréquent que le contre dans les pages qui parlent de Constitution Européenne, (voir son billet). Que ne l'ai-je lu avant d'écrire le mien ! J'aurais intitulé mon billet "Le Web est contre !". Car, à nouveau il faut comparer le rapport contre / pour dans les pages sur la Constitution Européenne et les autres. Et il n'y a pas photo :

motWebConst. Eur.
contre28 700 0001 050 000
pour215 000 0001 780 000
contre/pour0,130,59

Le rapport de chances est ici de 0,59 / 0,13 = 4,4 (en faveur du contre) ! Bien plus élevé que pour oui / non. Et en plus, cet exemple a une vertu pédagogique bien meilleure (merci Daniel, je vais l'utiliser dans mes cours !), puisque si on s'arrête à la simple proportion dans les pages liées à la Constitution, sans calculer le "rapport de chances" on aboutit dans ce cas à une conclusion inverse de la bonne !

27 avr - Le Web dit franchement non !

Indif fait remarquer très justement que le thème du sondage peut biaiser les résultats (notamment parce que les sondages semblent jusqu'ici donner le non gagnant). Dans un des commentaires, Indif refait les comptes en enlevant les mots sondage et sondages. Je reprends sa table ici, car trop de lecteurs ne cliqueraient pas pour aller voir les commentaires et c'est très intéressant :

RequêteRésultats
"Constitution européenne"
oui -non -sondage -sondages
56 000
"Constitution européenne"
non -oui -sondage -sondages
414 000
non/oui
7,39

Je me permets de comparer avec le Web dans son ensemble (même remarque que ci-dessus) :

RequêteRésultats
oui -non -sondage -sondages13 300 000
oui non -sondage -sondages40 100 000
non/oui3,01

Le rapport de chances devient, si l'on exclut les pages parlant de sondages, 7,39 / 3,01 = 2,45. Soit près de deux fois et demi la proportion de non à laquelle on s'attendrait !

Donc j'avais fait preuve de myopie. Commentaires sur les sondages mis à part, le Web ne dit pas non, il dit franchement non!

Encore un bel exemple pour mes cours. Merci Indif et Daniel. Les blogs ne sont-il pas un outil extraordinaire ? Une sorte de workshop scientifique permanent !


Lire la suite

27 avr - En anglais, c'est plutôt yes



17 Commentaires:

Anonymous Pititjo a écrit...

A noter tout de même que le mot «non» est utilisé plus largement que dans le cadre du strict «oui/non». On retrouve «non» dans des phrases tels que «il ne peut pas non plus».
À côté de celà, le oui est utilisé uniquement dans le cadre du strict «oui/non».

26 avril, 2005 23:17  
Anonymous Daniel a écrit...

ça me rappelle la note que j'ai écrite apres avoir découvert votre outil d'analyse de la constitution.
Si le non est plus présent sur le web que le oui, la constitution elle en revanche contient plus de pour que de contre:
http://danielbroche.typepad.com/daniel_broche/2005/04/constitution_eu_1.html

27 avril, 2005 00:38  
Blogger ---deleted--- a écrit...

Une partie de l'argumentaire du oui est défensif, sur le mode "non, cette Constitution ne signifie pas que le droit à l'avortement va disparaître" par exemple.

Globalement un texte contiendra plus de phrases positives et/ou actives que négatives et/ou passives. En anglais on apprend même à virer ses passifs de ses textes, et à réduire lesrisques de double négation.

27 avril, 2005 02:24  
Anonymous Indif a écrit...

«Dans un contexte où les sondages donnent le non gagnant, faut-il s'étonner qu'il y ait plus de pages reprenant cette information et donc contenant la paire de termes "constitution européenne" et "non" plutôt que la paire "constitution européenne" et "oui"?»

Voià ce que je pensais écrire comme commentaire lorsque, pris d'un doute, je me lançai moi aussi à l'assaut de Yahoo. Si le contexte des sondages influence réellement les résultats, alors supprimons-le! j'ai relancé toutes les requêtes en leur ajoutant simplement "-sondage -sondages". En voici les résultats bruts:
* oui -non : 56000
* -oui non : 414000
* oui non : 271000
* -oui -non : 369000
* (total) : 1120000

Les résultats vont de pire en pis...

27 avril, 2005 08:51  
Blogger Jean Véronis a écrit...

Pititjo> Oui ;-) le mot non a notamment des emplois en "adverbe" d'adjectif (ex.: non constitutionnel), que oui ne peut pas avoir. Je ne sais pas quelle est la proportion des emplois de ce type. Ce serait à étudier ! Mais même en se cantonnant à un contexte précis, par exemple "dire oui/non", on obtient une belle dissymétrie (toujours Yahoo, français :

"dire oui" : 211 000
"dire non" : 475 000

A creuser !

27 avril, 2005 08:54  
Blogger Jean Véronis a écrit...

Daniel> Merci beaucoup pour ce lien vers pour / contre. Votre remarque est vraiment intéressante. Mais il faut comparer avec la proportion pour/contre sur le Web.... Je ne peux pas mettre de table dans les commentaires alors je fais un petit Post-scriptum sur le billet. Le résultat est inverse de ce qui apparaît à première vue !

27 avril, 2005 09:13  
Blogger Jean Véronis a écrit...

Indif> Très belle observation ! Pareil que pour Daniel, je ne peux pas mettre de table ici. Je rajoute un 2e PS.

27 avril, 2005 09:30  
Blogger Vicnent 31415 a écrit...

et que donnerait "pour la constitution européenne" ? heheheh bien que l'on puisse dire 'je ne voterai surement pas pour la constitution européenne' ... alors que l'inverse, "contre la constitution européenne" ne se verra pas appliquer un écrit tel que 'je ne voterai pas contre la constitution européenne' mais plutot, 'je voterai pour'
donc le texte Pour la constitution européenne" est probablement l'expression du vote positif, alors que le "contre la constitution européenne" lui est très probablement effectivement contre...
Joie et Mystère de la langue Française...
Que dit Google d'ailleurs ?
"Pour la constitution européenne" : 14500 et "Contre la constitution européenne" : 24000
De façon étonnante, les <"Pour ..." -contre> : 900 alors que les <"contre..." -pour> : 81
ce n'est pas si étonnant en fait, "pour" est bien plus utilisé dans la langue française que le contre... ouf !
Au passage, un grand Merci à Mr Jean Véronis pour ce blog désaltérant ;-))

27 avril, 2005 10:06  
Blogger all a écrit...

hé hé, voir le résultat:
Google Fight

27 avril, 2005 10:50  
Blogger Jean Véronis a écrit...

all> Eh!!! c'est de la triche, il ne faut pas oublier les guillemets ;-)

Google Fight

Vanitas vanitatem...

27 avril, 2005 11:26  
Anonymous Miss Fussy a écrit...

Bonjour! Je trouve ce post un peu tiré par les cheveux... le "non" tout comme le "pour" (comme des commentaires l'ont déjà mentionné) sont utilisés fréquemment dans le langage (non seulement, non content de, pour + verbe...) contrairement à 'oui' ou 'contre'.

Il faut trouver des mots plus restrictif. Un exemple est "positif" et "négatif" peu usités mais qui n'ont qu'un seul sens (à part lorsqu'il s'agit d'électricité). Or, tapez les requêtes dans yahoo:
+"constitution européenne" +positif: 53100 résultats
+"constitution européenne" +negatif: 23200 résultats
+"constitution européenne" +positif -negatif: 46700 résultats
+"constitution européenne" +negatif -positif: 8220 résultats.

Et dans ce cas, il y a une écrasante majorité de 'positif'.

28 avril, 2005 13:58  
Blogger Marianne a écrit...

Haha oui mais "positif" pourrait aussi bien s'appliquer aux effets de la constitution qu'aux avis qu'elle suscite, alors c'est pas mieux, et puis tu n'as pas ramené à l'ensemble du Web (mais bon je viens d'essayer, ça donne quand même une majorité à positif, bien que moins écrasante).
Tu portes bien ton nom Miss Fussy ! Et je ne suis pas d'accord avec toi : ce billet est brillant, comme d'habitude !
Quel plaisir de penser que ce langage que beaucoup piétinent peut, si on sait le manipuler, être un outil aussi puissant !
Il faudra voir comment ça évolue sur les prochaines semaines, pour comparer le pronostic avec le résultat, pour le fun !

28 avril, 2005 16:14  
Blogger Jean Véronis a écrit...

Miss Fussy> Bien sûr le "non" est utilisé pour bien d'autres choses (je crois que je le mentionne). Mais ce devrait être vrai autant pour les pages qui contiennent les mots "Constitution Européenne" que celles qui ne les contiennent pas. Or on oberve une différence importante : il y a bien quelque chose qui se passe.

Mais il faut prendre ça avec humour ! Je ne prétend pas remplacer la Sofres. Ca n'est qu'un jeu (un peu provocateur, bien sûr ;-)

28 avril, 2005 21:28  
Blogger Jean Véronis a écrit...

Miss Fussy (suite)>En fait, erreur : en relisant mon billet je vois que je n'en parle pas (j'ai zappé cette partie parce que je trouvais le billet trop long et j'ai simplement mis que ça pourrait faire l'objet d'un autre billet). J'y ai simplement fait allusion dans le billet suivant (sur "yes") : la situation en anglais est bien plus déséquilibrée. 28 fois plus de "no" que de "yes" dans le web en général (mais un peu moins dans la pages sur la constitution) ! Et il y a encore plus d'usages possibles pour le "no" en anglais (par exemple comme déterminant, là où on utiliserait "aucune" ou bien "pas de"). Il faudrait étudier tout ça en détail, il faudrait regarder tous les types de rôles syntaxiques du "oui" et du "non". Quel boulot ! Peut-être que des linguistes s'y sont penchés, mais je ne l'ai pas entendu dire... Bon! Merci, Miss Fussy, d'avoir titillé ma curiosité. Je sens qu'il va falloir que j'aille voir ça de près.

28 avril, 2005 21:50  
Anonymous Miss Fussy a écrit...

Oh, de rien, de rien, je ne m'appelle pas Miss Fussy pour rien... ;-)
Et j'en profite au passage pour saluer votre travail sur ce blog, même s'il y a des posts que j'ai préféré (histoire de rassurer Marianne)!

29 avril, 2005 15:49  
Anonymous Anonyme a écrit...

Je suis désolé, mais j'ai rarement lu une analyse aussi stupide... une simple recherche sur Google des termes non" et "oui" montre très nettement que la forme négative est bien plus présente sur le web (425.000.000 contre 5.500.000) alors comment oser tirer la moindre conclusion après ça... mystère.

30 avril, 2005 10:15  
Blogger Jean Véronis a écrit...

Merci c'est gentil, "Anonymous", mais si vous aviez lu tout l'article vous auriez vu que c'est exactement ce que je dis dès le 5ème paragraphe... Mais je sais mes billets sont un peu trop longs.

Quant à Google, si vous voulez vraiment l'utiliser malgré le fait que ses comptes soient faux, réglez sur "pages francophones", car "non" apparaît dans de nombreuses langues: "non" sur les pages francophones retourne 24 600 000 pages).

Allez, sans rancune. De toutes façons cette "étude" ça n'était que pour rigoler ;-)

30 avril, 2005 10:29  

Enregistrer un commentaire

lundi, avril 25, 2005

Référencement: Define n'importe quoi

J'ai été secoué de rire pendant un bon moment en voyant les nouvelles requêtes Google qui arrivent sur mon site, pour lesquelles il se classe premier (enfin pour l'instant...) : define infarctus (et aussi bien sûr l'inévitable define infractus), define conclave, define pape (si !), define otage (hélas), define poète (celle-là je l'adore), define klingon, define kafir (incroyable !), etc. -- et la meilleure de toutes :

Google : define femme

Alors là, franchement, je crois que notre robot de l'information planétaire a un sens profond de l'humour, puisque le billet qui arrive en tête est tout simplement mon coup de gougueule de l'autre jour sur l'inanité de la fonction define et les blagues sexistes tout à fait déplacées sur un moteur grand public (imaginez un peu les Pages Jaunes qui vous sortiraient des trucs comme ça...).

Mais trêve de plaisanteries. Si vous croyez que vous êtes sur ce blog (seulement) pour rigoler, vous avez tort. Le grand professeur Aixtal va vous livrer gratuitement quelques conseils de référencement qui vont vous permettre d'attirer de façon infaillible (mais peut-être pas pour longtemps) des centaines d'internautes perdus sur le site où vous évertuez depuis plusieurs mois à attirer quelques cyberchalands.

Première constatation. Beaucoup d'internautes ne tapent pas les "deux points" après define. Donc au lieu de "define:truc", beaucoup de gens tapent simplement "define truc".

Deuxième constatation. Ils n'ont pas tout à fait tort, puisque Google admet les deux syntaxes. C'est d'ailleurs expliqué dans l'aide en ligne. Avec les deux points on a la liste de toutes les "définitions" (notez les guillemets) et sans les deux points, Google donne sa préférée (le plus souvent, c'est celle de Wikipédia, quand elle existe). Un peu subtil, non ?

Troisième constatation. Google est buggué (on le savait, mais c'est comme les trains : un bug peut en cacher un autre, et ainsi de suite). Si define est un mot spécial, qui fait partie du métalangage, il doit être traité de façon séparée, et il n'y a aucune raison à mon avis qu'il fasse partie des termes cherchés. Trop occupé à gérer son livret de Caisse d'Epargne, Google a oublié ce petit détail, et donc la fonction define donne les deux comportements :
  • ramener la définition du mot truc ;
  • ramener les résultats pour la requête define+truc, au lieu de truc tout seul.
Conclusion: si vous mettez dans vos titres (selon ce que vous vendez : define merguez, define yoghourt, define vernis, define "chasse à courre", etc.), c'est la fortune assurée. Ca marche aussi ailleurs que dans les titres, et les mots define et truc n'ont pas vraiment besoin d'être collés, mais ça dépend de votre PageRank (ou ce qui en fait office ces temps-ci, à savoir le GoogleFluide). Si vous n'avez guère de GoogleFluide, mettez plutôt dans les titres, et utilisez Blogger ;-).

Mais, me direz-vous, pour les malheureux internautes qui n'utilisent pas Google? Pas de problème, le grand professeur Aixtal peut aider-vous aussi, grâce à ses surnaturels donts de voyansse SEO. Succès assurée, fortune garanti à 1000% :

Google : define femme

Essayez dès aujourd'hui ! Profitez, parce qu'à mon avis ça ne va pas durer (le grand Google lit hélas ce blog...).

5 Commentaires:

Anonymous Pascal a écrit...

Petite correction à ta présentation de define :

L'opérateur de ciblage define doit être suivi de deux points et du mot à définir. Exemple : define:femme. Comme les autres opérateurs de ciblage (link, site, etc.)

On obtient ainsi d'autres résultats que ceux que tu cites, résultats qui se cantonnent exclusivement à des définitions.

25 avril, 2005 22:14  
Blogger Jean Véronis a écrit...

L'opérateur de ciblage define doit être suivi de deux points > Oui, justement, c'est ce que je pensais au départ, mais Google explique dans sa page d'aide qu'il y a deux syntaxes et que l'on peut omettre les deux points, avec des résultats différents. Je cite:

>>>
Définitions

Pour obtenir la définition d'un mot ou d'une expression, il vous suffit d'entrer « définition de », suivi d'un espace et des mots concernés. Si Google trouve la définition du mot ou de l'expression sur le Web, l'information est récupérée et affichée en haut des résultats de recherche.

Exemple : définition de HTML

Vous pouvez également obtenir une liste des définitions en incluant l'opérateur spécial « define: » sans espace avant ni après les deux-points séparant l'opérateur du terme à définir. Par exemple, la recherche [define:HTML] entraînera l'affichage d'une liste de définitions pour « HTML » issues de diverses sources en ligne.

<<<

Mais en fait, la doc ne doit pas être tout à fait à jour, car si vous tapez définition de femme, vous obtenez des sites quelconques qui contiennent ces mots. Par contre, si vous tapez define femme, façon anglaise donc, mais sur les pages francophones, vous activez bien l'opérateur "define", et vous obtenez en haut d'acran le logo spécial avec un petit dico bleu et la définition de Wikipédia.

Une fois de plus Google ne fait pas exactement ce qu'il dit (et ne dit pas exactement ce qu'il fait). Sa doc serait presque correcte, à condition de rempacer "définition de" par "define". Comme je disais un bug peut en cacher un autre, et ainsi de suite. Ici, on a sans doute mal traduit la doc (ou inversement oublié de traduire l'opérateur lui-même...).

26 avril, 2005 08:39  
Blogger all a écrit...

define:liberalisme
C'est ICI
Renvoie
-1)à Wikipedia dont l'article est sujet à caution (c'est une litote),
-2) à un sujet humoristique(!)
-3) à n'importe quoi
Google pourrait faire une effort pour ce mot auquel il doit beaucoup $$$
Cordialement

26 avril, 2005 11:10  
Anonymous A a écrit...

Define:liberalisme est au contraire à mettre en positif pour Google : l'extrait de Wikipedia insiste sur un problème récurrent de vocabulaire et l'article complet est bon, le #2 ajoute une touche d'humour, et le #3 est valide. Bref, une personne ne connaissant pas le terme obtient immédiatement les deux informations essentielles (faux ami + définition) et a même une touche d'humour en plus. Le fait que le terme "libéralisme" ne signifie pas ce que cherche à faire croire la presse francophone actuelle (avec succès...) est à reprocher aux journalistes et aux politiques, pas à Google, qui au contraire va permettre, dans ce cas, d'échapper à la propagande. Bien sûr un tel succès ne suffit pas à valider le define de Google.

27 avril, 2005 17:39  
Anonymous Anonyme a écrit...

Je déterre un vieux billet mais en faisant une démonstration de Firefox et de la navigation par onglet je suis arrivé ici.
Moi qui suis ce Blog c'est assez amusant ...

Et comment suis-je arrivé ?
Et bien j'ai dit à mon interlocutrice tape n'importe quoi.
Elle m'a pris au mot et a tapé "n'importe quoi".
Ma demonstration était de ensuite de la faire cliquer avec le bouton du milieu sur tous les liens de la page de réponse. Bingo on tombe ici.

Pour un billet sur le n'importe quoi du référencement c'est le comble !

17 janvier, 2008 21:07  

Enregistrer un commentaire

Texte: Comparez les Constitutions française et européenne

Vous avez été très nombreux à utiliser mon outil de navigation dans le TCE, et je vous en remercie, mais vous avez regretté de ne pas pouvoir l'utiliser pour parcourir aussi la Constitution française de 1958. Il suffisait de demander ! Voici donc un nouvel outil qui permet de comparer les deux constitutions.


Chercher dans la Constitution Française Européenne



Fr : A B C D E F G H I J K L M N O P Q R S T U V W X Y Z - Mots fréquents
Eu : A B C D E F G H I J K L M N O P Q R S T U V W X Y Z - Mots fréquents

Technologies du langage - Aide


Les listes alphabétiques et de mots les plus fréquents dans le formulaire ci-dessus ont été expugées des mots-outils (mots-grammaticaux, nombres, etc.) pour une meilleure lisibilité. Vous pouvez télécharger les listes complètes si vous le désirez :
  • classés par fréquences décroissantes, zip (fr) (eu)
  • classés par ordre alphabétique, zip (fr) (eu)
Vous pouvez également ajouter le formulaire de recherche sur vos pages (plusieurs versions à copier-coller ici).

Bonne navigation !


Post-scriptum

Attention aux comparaisons directes de fréquences des mots, car les deux textes sont de tailles extrêmement différentes. La Constitution Européenne est près de 20 fois plus grosse que la Constitution Française (bien entendu je compte les Annexes, dont l'Article IV-442 nous rappelle qu'elles font partie intégrante du traité).

5 mai - Voir Le vocabulaire des constitutions : une analyse et un outil permettant les comparaisons
7 mai - Mise au point: Le Monde, Attac et moi



13 Commentaires:

Anonymous Fabounet a écrit...

C'est pas du jeu! Il y a une différence de taille considérable.

Merci tout de même, c'est un outil génial.

25 avril, 2005 15:51  
Blogger Jean Véronis a écrit...

>Il y a une différence de taille considérable

Oui. Il faut faire une règle de trois. Je rajoute une petite note dans le texte, merci!

25 avril, 2005 16:09  
Anonymous wawa a écrit...

Le lien "Mots fréquents" de la Constitution française pointe vers ceux de la Constitution européenne...

25 avril, 2005 16:13  
Blogger Jean Véronis a écrit...

Merci Wawa, c'est corrigé (quelle chiotte le HTML ! ;-).

25 avril, 2005 16:27  
Anonymous Anonyme a écrit...

La version de la constitution française utilisée par la machine ne semble pas à jour (elle retourne "rien" sur "environnement" ou sur "2004").

Dans l'autre sens, autant il est indéniable que les protocoles et annexes font partie du traité constitutionnel, il est beaucoup plus discutable d'intégrer les déclarations dans le décompte (hum, je dis surtout ça pour jouer le râleur, il est très bien votre outil).

26 avril, 2005 23:39  
Blogger Jean Véronis a écrit...

Ah oui, exact, merci. Cette version n'intègre pas la dernière adjonction :

Le peuple français proclame solennellement son attachement (patati patata..) *** ainsi qu'aux droits et devoirs définis dans la Charte de l'environnement de 2004.***

Je vais corriger !

28 avril, 2005 22:16  
Blogger Jean Véronis a écrit...

Voilà, c'est corrigé :

environnement

30 avril, 2005 19:05  
Anonymous Anonyme a écrit...

Merci pour ce superbe travail, très utile. Un point cependant : il a déjà été signalé que les termes composés devraient peut-être être traités spécifiquement. Il semblerait par exemple que "acquis communautaire" soit figé dans le cadre de l'UE. Dans le même ordre d'idées, "Comité économique et social" semble être un nom propre, à distinguer de "social" en usage libre, ce qui ramènerait peut-être le social à d'autres proportions.

09 mai, 2005 19:17  
Blogger Jean Véronis a écrit...

Oui, vous avez raison, et c'est d'ailleurs très compliqué (que regrouper?). Il y a eu une discussion dans les commentaires d'un autre billet.

10 mai, 2005 09:51  
Anonymous Damien a écrit...

Serait il possible de marquer à côté du nombre d'occurences la part du mot concerné sur le total des mots ( en % ou en [pourmille] )

A cette fin, on pourraît comparer le 66 de la constitution francaise avec le 1000 et quelques de la constitution Européenne ...

12 mai, 2005 23:01  
Blogger Jean Véronis a écrit...

Damien> Oui, ce serait une bonne idée, mais je ne sais pas si je vais avoir le temps de modifier mes programmes dans les prochains jours. J'ai cependant réalisé un autre petit outil qui devrait à peu près répondre à la question (ici)

12 mai, 2005 23:10  
Anonymous Jean Vinçot a écrit...

Il faudrait intégrer à la comparaison les textes à valeur constitutionnelle cités dans le préambule de la constitution. Pour comparer avec la charte des droits fondamentaux, c'est indispensable.

Pour que ce soit plus que parfait, j'aurais aimé pouvoir disposer d'un outil de comparaison de cete charte avec les autres textes à caractère international et contraignant cités dans l'annexe à cet article de Corinne Gobin (http://institut.fsu.fr/chantiers/europe/charte/charte_droits_gobin.htm)

Merci de ces outils.

16 mai, 2005 11:33  
Anonymous Anonyme a écrit...

Bonjour Jean,

C'est effectivement du bon boulot de "Data Mining" que vous avez fait là !

Permettez-moi de poster le lien sur la "blague du TCE" à propos de l'occurence du mot peuple, c'est là :
http://www.up.univ-mrs.fr/cgi-veronis/concord-tce?lang=fr&corpus=tce&forme=peuple

A faire circuler pout montrer que nous pensons à nos amis lapons :-)

Bonne continuation.

/Sébastien

19 mai, 2005 00:54  

Enregistrer un commentaire

Texte: Constitutions parallèles

Lars Nygaard (Université d'Oslo) et Jörg Tiedemann (Rijksuniversiteit Groningen) mettent à notre disposition les 21 langues de la constitution européenne sous forme de textes parallèles : chaque phrase est alignée avec la phrase correspondante dans les 20 autres versions (ce qui fait 210 couples !).

Pierre de rosette

L'alignement a été obtenu automatiquement, et il subsiste donc quelques petites erreurs, mais les meilleurs outils actuels savent aligner ce type de texte avec jusqu'à 98% de résultats corrects. On peut télécharger l'ensemble (attention, 67 Mo !) ou un couple de langues particulier. Lars et Jörg ont également réalisé un concordancier (c'est-à-dire un moteur de recherche qui permet de voir toutes les occurrences d'un mot en contexte, du type de celui que j'ai mis à votre disposition il y a quelques jours), mais en version bilingue. Cherchez dans une langue, et vous avez les résultats dans une ou plusieurs autres au choix. Idéal pour les traducteurs, et simplement pour tous ceux qui veulent perfectionner leurs langues !

Exemple : Comment se dit abrogé en anglais ? Réponse : repealed.

exemple de concordance bilingue

Un bel outil, bravo !


La langue de l'Europe c'est la traduction
Umberto Eco


1 Commentaires:

Blogger Jérôme Charron a écrit...

Une autre ressource (que nous utilisons d'ailleurs dans Nutch pour construire les fichiers de référence pour l'identification automatique de la langue):
European Parliament Proceedings Parallel Corpus 1996-2003 (l'outil d'alignement est également téléchargeable).
Attention, la taille totale des textes (non alignés) représente tout de même 559 Mo pour les langues suivantes: da, de, el, en, es, fi, fr, it, nl, pt, sv.
Il y a également des versions déjà alignées téléchargeables.

25 avril, 2005 11:20  

Enregistrer un commentaire

samedi, avril 23, 2005

Google: Femmes enceintes et sexe hard XXX

Quoi de plus beau que la venue d'un bébé ? Mais combien de questions et d'interrogations pour la future jeune maman (et le futur jeune papa !)... Alors quoi de plus naturel que de chercher sur Google des forums, des conseils, des vêtements pour femmes enceintes, etc. Mais avez-vous vraiment envie que les liens sponsorisés vous proposent du "sexe hard XXX" ? Avez-vous vraiment envie que le cinquième lien, en plein milieu de la première page vous propose des "femmes enceintes en photos X et live show hardcore" ? Pourtant, c'est ce que vous aurez :

copie d'ecran google

Je ne fais partie ni des puritains au cul serré, ni des googlophobes systématiques, mais là, j'ai envie de crier STOP ! Google doit faire face à la responsabilité qu'il s'est lui-même créée en se positionnant comme portail d'entrée quasi exclusif de l'information mondiale. Et s'il ne le fait pas, il est de notre responsabilité à nous, citoyens du monde, de protester haut et fort.

Que l'on ne m'objecte pas qu'il y a de tout sur internet, que le filtrage est difficile. La firme Google a largement les moyens financiers pour faire le nécessaire si elle le souhaite. Elle vient d'annoncer "avoir multiplié par près de six son bénéfice net au 1er trimestre 2005, profitant de la forte croissance de la publicité en ligne. En terme de chiffre d'affaires, Google atteint un nouveau record, à 1,26 milliard de dollars" (Nouvel Obs). Le filtrage est au demeurant d'une simplicité enfantine sur de tels cas ! Un étudiant saurait filtrer les mots-clés absolument explicites qui apparaissent sur les pages et liens mentionnés.

Google ne se permettrait d'ailleurs pas ce type de laisser-aller aux Etats-Unis, comme la même requête "pregnant women" sur www.google.com le démontre. Ce n'est d'ailleurs pas la première fois que Google montre un souci assez lointain pour les autres langues et cultures (voir ici).

Ne nous laissons pas faire. La soif de profit n'excuse pas tout.

Libellés :


25 Commentaires:

Anonymous A a écrit...

Google.FR, version expurgée de Google pour correspondre aux lois françaises de limitation de la liberté d'opinion et d'expression, ne semble en effet pas proposer d'option "safe search" comme Google.COM. Comme certains FAI français (Wanadoo le faisait, je ne sais s'il le fait encore, je vis en permanence à l'étranger, comme de plus en plus de Français) censurent Google.com, leurs clients n'ont pas la possibilité de restreindre les résultats selon leurs préférences personnelles.

Ne vous inquiétez pas : la nouvelle LCEN offre à tout groupe de pression (à la condition bien sûr qu'il soit du bon coté : citoyen et solidaire) de faire censurer tout ce qui peut le gêner. Un jour ou l'autre un groupe de pression citoyen et solidaire sera assez "responsable" pour faire interdire ce qui vous gêne !

23 avril, 2005 17:56  
Blogger ---deleted--- a écrit...

Heu, l'annonce porno vous gêne peut-être, mais moi c'est l'annonce juste en dessous qui me préoccupe vraiment...

23 avril, 2005 19:39  
Anonymous Fabounet a écrit...

N'ayez crainte François, ce sont des vêtements et autres accessoires. Bien vu tout de même, j'ai bien ri.

Pour ce qui est du filtrage je crois qu'il s'agit d'un voeu pieux dans la mesure où le business du sexe est bien trop lucratif.

Personnellement je serais heureux qu'il y ait un mode de personnalisation de la recherche en fonction du poste du demandeur (par un cookie). J'ai des enfants qui se posent bien des questions parfois.

23 avril, 2005 21:29  
Blogger N a écrit...

je viens de trouver ce blog (lie par language log [http://itre.cis.upenn.edu/~myl/languagelog/] --- c'est tres intelligent et spirituel. Ce blog represente tout ce que la toile / web devrait etre.

excusez mon francais svp - je peux lire mais je n'ecris pas tres bien

24 avril, 2005 06:43  
Blogger all a écrit...

De toute façon si on tape la requête "femme", indépendamment de l'adjectif accolé, on a un avalanche de sites xxx; et qui tape la requête "homme" [contrepet inside] obtient des adresses de sites gays... C'est du au système 'page rank' de Google, le résultat est le reflet de ce qui est recherché par le plus grand nombre et le biznes suit. Heureusement il y a Wikipedia et Atilf :
http://fr.wikipedia.org/wiki/Femme
http://atilf.atilf.fr/Dendien/scripts/tlfiv5/visusel.exe?13;s=2005422255;r=1;nat=;sol=4;

24 avril, 2005 08:33  
Anonymous np a écrit...

est-ce que le problème ne vient pas tout simplement de l'équipe commerciale française, plus que du moteur lui-même? en tapant "femmes enceintes" sur google.com, on tombe également sur le lien XXX de francité mais *pas* de adwords... alors que ceux-ci apparaissent sur google.fr...

à ce niveau-là il me semble que c'est davantage la responsabilité éditoriale des équipes adwords locales (et il me semble bien que celle basée à boulogne-bllancourt a déjà été condamnée par la justice avec l'affaire boursedesvols), non?

24 avril, 2005 12:52  
Blogger Jean Véronis a écrit...

Peut-être bien, Np. A ce moment-là que Google les vire et en prenne d'autres... Mais avons-nous à entrer dans les détails internes de la Firme ? Les bénéfices sont suffisamment confortables pour faire le ménage (à moins qu'une partie substantielle de ces bénéfices ne soit justement faite sur le X le plus déguelasse, et dans des pays autres que les US, bien sûr, car le public américain supporte mal ce genre de dérapage) ?

24 avril, 2005 13:11  
Blogger Jean Véronis a écrit...

all>quand on tape femme, homme...

Oui! et justement, j'en ai ras la patate. Marre. Marre. Marre. Surtout quand on n'a plus de choix possible et qu'une poignée de firmes qui ne songent qu'au profit à tout prix contrôlent à peu près tout l'accès à l'information mondiale. Révolte en 2008 ? Ca ferait un bel anniversaire...

Vous avez raison : Wikipedia, et le TLF, heureusement... Quelques survivances des Lumières. Mais hélas les liens vers celui-ci ne durent que le temps de la session que vous avez ouverte à travers l'interface en ligne. Vous pourrez constater que ce lien est maintenant mort :

http://atilf.atilf.fr/Dendien/scripts/tlfiv5/visusel.exe?13;s=2005422255;r=1;nat=;sol=4;

Mais mon ami Jean-Marie Pierrel, le directeur de l'Atilf a entendu ma supplique. On a en discuté, et ils sont en train de voir ce qu'ils peuvent faire. J'espère de tout coeur que le Trésor ne restera pas plus longtemps caché ! A suivre...

24 avril, 2005 13:23  
Blogger all a écrit...

D'accord avec votre analyse.
J'aime beaucoup Exalead, moteur de recherche 'français'.
http://beta.exalead.com/search
Cordialement

24 avril, 2005 19:17  
Blogger Serge Bibauw a écrit...

À mon avis, un femme recherchant des informations sur la grossesse ou des accessoires/vêtements pour femme enceinte ne taperait pas la requête au pluriel. Cela peut sembler anodin, mais sur "femme enceinte", on ne trouve pas, dans les 10 premiers résultats normaux, de sites pornographiques. Et je ne vois pas pourquoi l'on rechercherait le pluriel "femmes enceintes" si ce n'est pour obtenir des photos (quoique, peut-être un site communautaire pour femmes enceintes). Soit. C'est un détail.

Ce qui me semble clair, c'est qu'éthiquement, Google devrait refuser les liens commerciaux vers des sites à moralité douteuse, donc sites X, racistes, recel, etc. Par contre, ce type de site ne devrait pas être obligatoirement caché des résultats d'une recherche normale (du moins c'est mon avis). Il serait néanmoins intéressant que ces sites soient cachés par défaut, mais qu'une option dans les préférences et/ou sur la page de recherche permettent d'afficher les sites censurés. De cette façon, les enfants par exemple n'auraient pas directement accès à ces contenus.

24 avril, 2005 21:26  
Blogger Jean Véronis a écrit...

requête au pluriel : c'était la requête de quelqu'un qui cherchait des forums...

Quoi qu'il en soit, la requête au singulier renvoie comme premier lien sponsorisés (donc qui rapporte de l'argent à Google) : SEXE FILMS HARD XXX SEX

Je suis d'accord avec votre position. Je ne suis pas un censeur, mais il ne faut quand me pas oublier que tout le monde utilise Google, y compris nos enfants. D'ailleurs, comme par hasard, les résultats sont beaucoup plus "propres" aux Etats-Unis (où les lobbies auraient vite fait de s'activer). Google en profiterait-il pour faire rentrer de l'argent sale dans ses caisses grâce aux restes du monde, moins organisé pour riposter?

24 avril, 2005 21:43  
Anonymous Fabounet a écrit...

Je crois que c'est exactement cela Jean...

25 avril, 2005 09:21  
Anonymous Anonyme a écrit...

Je ne vois pas en quoi Google est quasi "exclusif", google n'a ni l'exclusivité du service de moteur de recherche ni du contenu diffuser via internet. Quant aux pub prono, bah je ne les vois même pas, si elles sont là, et qu'elles sont économiquement viable, la responsabilité en revient plutôt selon moi à la majorité des internautes qui cliquent sur ces liens. Bref quand la "1" me navre, je zappe sur la 5 et je n'en fais pas toute une histoire...
Alex (pas le temps de creer un compte)

28 avril, 2005 22:14  
Blogger Jean Véronis a écrit...

Alex> Je ne vois pas en quoi Google est quasi "exclusif" . Bien sur il ne l'est pas en théorie, simplement dans les faits : même si ça baisse un peu, plus de 75% de requêtes passent par Google, et le reste est atomisé. MSN le concurrent le mieux placé n'a que moins de 9%, Yahoo 4% (http://www.webrankinfo.com/actualites/200503-barometre.htm).

>la responsabilité en revient plutôt selon moi à la majorité des internautes : oui. A la minorité (dont je fais partie de (gou)gueuler de temps à autre !

28 avril, 2005 22:21  
Blogger Jérôme Charron a écrit...

Un peu d'eau à votre moulin (bis) ...

18 mai, 2005 15:36  
Anonymous Anonyme a écrit...

J'ai fait le test aujourd'hui 20 mai. Il y a 4 références payantes de sites porno, et toujours e-bay. J'ai testé avec exalead et yahoo, il n'y avait pas de liens porno. Le moins que l'on puisse dire est que google n'a pas lu cette rubrique ou s'en tape complètement.

20 mai, 2005 17:47  
Anonymous Anonyme a écrit...

Je viens de refaire le test aujourd'hui 23 mai. il y a 5 références payantes, soit une de plus que le 20 mai. Le fait d'en avoir parlé ici n'a-til pas permit à google de mieux vendre ce mot-clé ?

23 mai, 2005 13:12  
Blogger Jean Véronis a écrit...

C'est effrayant. Google est en train de se faire son beurre sur des pays moins organisés et moins regardants : aux US ils soulèveraient un tollé contre eux... Ici on ne proteste que mollement.

En attendant, mes propres enfants sont exposés sans arrêt aux cochonneries les plus abjectes (une recherche récente sur un tout autre sujet m'a proposé des sites zoophiles brésiliens...). Que l'on ne s'étonne pas s'il arrive des choses comme l'horreur récente de la jeune fille de 14 ans violée pendant un mois et obligée à se prostituer par d'autres mineurs à Carpentras le mois dernier. L'aberration devient la normalité...

Ras le bol !

23 mai, 2005 13:20  
Blogger all a écrit...

Google lit-il Technologies du Langages ?
Les références au sexe ont disparu des résultats à la requête "femme enceinte".

09 juin, 2005 12:00  
Anonymous Anonyme a écrit...

J'ai lancé la même recherche (au pluriel comme au singulier) sur google.ca ("in french" puisqu'au Canada, le moteur de recherche est aussi proposé en français). Pas de référence à des sites pornos. Le problème vient-il de la branche française ?

Armen

28 juillet, 2005 14:04  
Blogger Frondeur a écrit...

Ah oui mon bon monsieur, c'est bien triste, ce que nos enfants peuvent trouver sur Internet...

"Internet est un danger public, car n'importe qui peut y dire n'importe quoi": la phrase est de la grande, de l'immense Françoise Giroud, qui à ses heures perdues adressait à ses anciens amants des lettres anonymes antisémites.

La liberté d'expression, c'est quelque chose que les Français, même les plus brillants, ont décidément beaucoup de mal à comprendre.

Je suis moi-même père de famille; je doute que mes enfants cherchent "femmes enceintes" sur Google, ou s'ils le cherchent quand ils seront adolescents, ce sera sans doute précisément pour trouver les sites X qui vous choquent tant... (c'est ce que je faisais quand j'avais 13 ans, en tout cas, mais je n'avais que le Minitel à me mettre sous la "dent").

Quant à la prééminence de Google, c'est un argument absurde: Google est un des derniers venus sur le marché des moteurs de recherche, et s'il est arrivé là où il est, éclipsant tous ses concurrents, ce n'est pas par favoritisme, mais parce qu'il est le meilleur...

S'il filtre les résultats selon les sensibilités de tel ou tel lobby, de telle ou telle minorité, il est sûr de devenir absolument inutilisable!

Dieu fasse que vous ne soyez pas entendu, car Google a changé ma vie, et Françoise Giroud, non.

26 août, 2005 14:56  
Anonymous David a écrit...

Je ne sais pas si cela a déjà été remarqué donc je le dit.

Google ne peut pas faire grand chose puisqu'il suffit de faire du « bombing » (c'est à dire gonfler artificiellement les nombres de liens vers un site) pour que l'algorithme de google place un site dans les premières places...

Quelques fois, les équipes de Google le remarque (avec par exemple la recherche « idiot » (en anglais) renvoyant vers le site officiel de George Bush...) mais ils ne peuvent pas le remarquer pour toutes les requêtes...

C'est tout ce que j'ai à dire, j'utilise principalement Google et Yahoo! et je regarde toujours les noms de sites, quand je vois que c'est un site pornographique ou publicitaire, je passe mon chemin (les sites publicitaires sont d'ailleurs le point noir de Voila.fr (que je n'utilise plus))...

Pour information, je suis un wikipédien et j'utilise même plus wikipédia que Google pour la majorité des recherches.

http://fr.wikipedia.org

Bye, David

15 octobre, 2005 22:41  
Anonymous irenedelse a écrit...

Il n'est pas question pour Google d'empêcher les adultes consentants d'accéder à des sites de X... La fonction "Safesearch" permet à chaque internaute de définir son niveau de filtrage en fonction de sa sensibilité (et de la présence de jeunes enfants à côté de vous pendant la recherche) : strict, modéré ou pas du tout. Sur Google.fr comme sur Google.com, il est par défaut "modéré". On peut changer en cliquant sur "Préférences" à côté de la fenêtre de recherche.

Autre intérêt, c'est qu'on peut utiliser les options Safesearch pour chercher plus efficacement. Expérience très simple : taper le mot "sexe" après avoir coché l'option "filtrage strict". On n'obtient pas de site porno mais des articles de sexologie, santé, socio, etc. Sans ces options, ces réponses sont noyées dans les sites porno.

25 janvier, 2006 23:30  
Anonymous Anonyme a écrit...

"En attendant, mes propres enfants sont exposés sans arrêt aux cochonneries les plus abjectes [...]. Que l'on ne s'étonne pas s'il arrive des choses comme l'horreur récente de la jeune fille de 14 ans violée pendant un mois et obligée à se prostituer par d'autres mineurs à Carpentras le mois dernier."

Je ris doucement lorsque je lis ce genre de propos...
Mais je ris jaune, tant le raccourci est abusif et inexact. Et caractéristique d'une époque.
Ce genre de gens gangrène littéralement notre époque.
De qui je parle?
Des bien-pensants, un peu réactionnaires, toujours prompts à critiquer les nouvelles technologies. Toujours prêts à déresponsabiliser l'individu, à SE déresponsabiliser et à culpabiliser la société, les institutions, les technologies. Bref, ni plus ni moins que des gens qui fuient leurs responsabilités.
Un viol à Carpentras? C'est de la faute à Google et à ses liens sponsorisés pornos! (vous m'expliquerez d'ailleurs le lien tant il est obscur)
Un massacre dans un lycée américain? C'est que cet ado jouait trop à Doom, et qu'il n'a pas su faire la différence entre la réalité et le jeu...

Bref, je fais pourtant parti de cette génération pour laquelle vous semblez avoir tant d'inquiétude, et je n'ai jamais ni violé, ni tué qui que ce soit, quand bien même j'ai été bombardé par les jeux violents et les images pornos toute ma jeunesse durant.
Je n'ai même jamais été tenté (sauf pour quelques politiciens, et je parle du meurtre je précise!). Et il en va de même pour mes amis.
Le fait est que, lorsque les parents ne fuient pas leur rôle et donnent une éducation apprennant à distinguer le Bien du Mal, les nouvelles technologies et leur dérive porno ou violente ne représentent aucun danger pour leurs enfants.

Mais, il a de tout temps existé, existe encore et existera toujours des gens fragiles qui commettront des actes irréparables. Des gens fragiles et instables.
Ce n'est pas nouveau, ça n'est pas apparu avec l'informatique.
Ce qui a changé, c'est la médiatisation que l'on fait de leurs actes.

M. Veronis, peut-être serez-vous étonné d'apprendre que les maux dont souffrent notre société ont des racines plus profondes que Google et le porno.
Il s'agit de l'échec de l'intégration, il s'agit de l'échec de l'éducation, il s'agit du chômage...
Libre à vous d'ouvrir les yeux et de continuer la liste.

17 juillet, 2006 16:58  
Blogger Leo a écrit...

A l'heure ou j'ecris ces lignes, il n'y a plus de sites X lors de ctte recherche.

Leo

05 mars, 2007 14:01  

Enregistrer un commentaire

vendredi, avril 22, 2005

Langues: Parlez ku avec Nicole Kidman


[Non, ce n'est pas un nouveau billet sur le langage SMS !]

Mark Liberman nous livre une information qui ne semble pas encore avoir intéressé la presse française. Nicole Kidman vient de tourner The Interpreter dirigé par Sidney Pollack, qui met en scène une tentative d'assassinat aux Nations Unies (soit dit en passant, les Nations Unies ont accepté qu'on tourne dans leur bâtiment, alors qu'elles l'avaient jusqu'ici refusé, y compris quand Alfred Hitchcock l'avait demandé pour North By Northwest, La mort aux trousses).

Nicole Kidman

Dans le film, Nicole Kidman parle le ku, en plus du français et de l'espagnol. Ce n'est pas la peine de vous jeter sur l'extraordinaire base de données Ethnologue (que je recommande vivement au passage) pour en savoir plus sur le ku. Les fiches de la production expliquent qu'il s'agit d'une langue inventée pour les besoins du film (avec l'aide de "linguistes anglais" -- Mark a mené l'enquête, il s'agirait d'un africaniste de Londres, Said el-Gheithy). Le ku rejoint donc la lignée des langues artificielles dont je parlais l'autre jour à propos du Klingon. On verra s'il a le même succès...

Peu d'informations sur Internet. Rien en français, apparemment (la presse française se concentre plutôt pour l'instant sur la question de savoir si Nicole Kidman est enceinte...). Pas grand chose non plus en anglais. On est dans une de ces situations typiques où des dizaines de journaux et médias variés reprennent en boucle le même texte, en l'occurrence la dépêche de la production. Du bon journalisme : ça vend bien, et ça ne coûte rien. Ceux-là au moins ne seront pas pris en otages.

On apprend donc seulement que le ku, qui est censé être parlé dans le pays africain imaginaire du Matobo, est une fabrication à partir du swahili et du shona. Ce sont deux langues bantu parlées dans l'est de l'Afrique, respectivement dans les zones G et S de la carte ci-dessous.

carte bantu

Vous avez sans doute entendu parler du swahili. Hakuna matata, ça ne vous rappelle rien ?

roi lion

Ca veut dire Ne t'en fais pas en swahili. On en a plus entendu parler que du shona (il me semble ?). Pourtant, le swahili a seulement 700 000 locuteurs de langue maternelle (essentiellement en Tanzanie et au Kenya, et aussi un peu à Mayotte et au Burundi), contre dix millions pour le shona (80% des habitants du Zimbabwe, plus des locuteurs au Botswana, au Mozambique et dans les pays limitrophes). Ce qui fait la différence, ce n'est pas seulement le Roi Lion. C'est surtout le fait que le swahili est largement écrit, avec livres et journaux. De nombreux locuteurs de la région le parlent et l'utilisent comme seconde langue. Même Google a une interface en swahili (mais pas de détection de la langue, hélas). Un bel exemple (ils sont rares) d'une langue africaine qui a réussi à résister.

google swahili
Euh... Google, ça n'est pas le printemps là-bas, en Tanzanie !

Nicole a dû drôlement bosser pour ce film, parce que les langues bantu ce n'est pas simple pour nous autres occidentaux. Et il paraît qu'elle est devenue "fluente" comme un natif du Matobo... Outre la phonétique avec des sons assez difficiles pour notre appareil phonateur, les langues bantu se distinguent par un système de "classes nominales" extrêment surprenantes pour les occidentaux. Ce n'est pas comme chez nous, où nous avons seulement le masculin et le féminin (et le neutre dans quelques langues voisines). Les langues bantu distinguent humains, végétaux, animaux, abstraits, etc. Chacune de ces classes a un système de préfixes différent (par exemple les noms de langues font partie de la classe abstraite préfixée par ki -- le vrai nom du swahili est donc le kiswahili, et celui du ku, le kiku...) qui déclenche son propre système d'accord (comme pour nous le genre et le nombre) sur le reste des mots de la phrase...

Passionnant (et drôlement décapant pour nos neurones).

Il paraît que le film sort en juin en France. J'ai hâte de savoir comment on a traduit "ku"...

13 Commentaires:

Anonymous Frenchie a écrit...

Je rebondis sur les langues de google.
Vivant actuellement en Afrique du sud, je consulte regulierement ce site.
Google Afrique du Sud.

Il y a 5 langues proposees:
Anglais, African, Sesotho, IsiZulu et Xhosa.

Une petite parenthese.
En Afrique du sud, il y a 11 langues et dialectes utilises couramment.
L'hymne national est composee de 3 langues.

Cordialement,

Un francais en Afrique du Sud

22 avril, 2005 12:45  
Anonymous Fred a écrit...

En tout cas bien joué pour le titre accrocheur, je sens que ce blog va encore améliorer son ranking dans google :-)

22 avril, 2005 13:08  
Blogger Eric Baillargeon a écrit...

Tu aurais un beau billet a faire avec "l'ortograf altêrnatif" qui a fait grand tapage chez nous dernièrement quand la ville de Montréal l'a intégrer sur son site.

22 avril, 2005 15:49  
Blogger all a écrit...

Permettez-moi de vous recommander :
Google en Anglais avec l'accent Suisse (bork bork bork)
et
Google Elmer

22 avril, 2005 17:04  
Anonymous gnocchi a écrit...

orthographe alternative qui est d'ailleurs disponible ici : http://www.orthographe-recommandee.info/miniguide.pdf

22 avril, 2005 18:14  
Blogger Jean Véronis a écrit...

Eric> Oui, j'avais aperçu cette histoire là, mais je me suis demandé si ça n'est pas un canular... Mais apparemment ça a l'air sérieux (ça fait peur!).

24 avril, 2005 17:13  
Anonymous Anonyme a écrit...

Il me semble que le Ouolof (langue parlée au Senegal) procede aussi du système de classes nominales (bu-nioul : noir). Cela ne semble donc pas reservé aux langues bantu.
Hasta luego desde Mexico.

01 mai, 2005 17:51  
Blogger Jean Véronis a écrit...

>Cela ne semble donc pas reservé aux langues bantu

C'est vrai que c'est plus largement une propriété de nombreuses langues du groupe Niger-Congo, y compris le groupe Atlantique comme le Wolof (Ouolof) ou le Fula (Peul). Si on cite souvent les langues bantu, c'est peut-être parce que le système de classes noinales y est particulièrement impressionnant (jusqu'à 22, je crois!).

Merci de cette remarque !

01 mai, 2005 18:35  
Anonymous Anonyme a écrit...

Mes félicitations pour ce blog, dont à mes yeux la (grande) vertu est de réveiller chez ses lecteurs une curiosité que l'abus d'informations prédigérées tend à endormir...
Ma propre curiosité, une fois réveillée, me porte à vous demander: pourquoi écrivez-vous swahili, comme font les anglophones, et non souahéli, la translittération française usuelle?
(non, je ne vous demanderai pas comment les auteurs de la version française du film ont l'intention de franciser le mot ku, il y a un temps pour chaque question)

10 mai, 2005 21:59  
Anonymous Pierre Guillemot a écrit...

Stars War est dans l'actualité.
Ressuscitons donc (grâce à Google) ce très ancien (1997) échange sur les langues alien au cinéma:

From: m...@efrei.fr (Arnaud Moore)
Subject: Re: Stars Wars Kikuyu
Date: 1997/03/15
Organization: Ecole Francaise d'Electronique et d'Informatique
Newsgroups: fr.rec.cinema.discussion


>>Dans "l'empire contre-attaque" un general des aliens annonce que ses
>>hommes sont prets a l'attaque. langue inconnue, sous-titree.
>>Il parait que c'est du Kikuyu, et que le passage etait applaudi
>>en Afrique Orientale.
>>
> Et dans le retour du jedi (VO of course), la pov' danseuse qui se fait
> bouffer par le Rancor parle un francais impeccable, sans accent, pour
> exprimer son peu de passion envers la gent rancorienne...
>

iIl se trouve que pour des raisons de coherence, il est tres difficile
d'inventer du jour au lendemain une langue...
C'est pourquoi Lucas a cherche, au depart, des langues peu parlees dans le
monde occidental, son plus grand public.
Le truc que je comprends toujours pas c'est pourquoi il a choisi le
Francais pour la danseuse. Au debut, je croyais a un truc qui y ressemblait...
Mais bon... Et quand on fait bien attention, on s'apercoit que le garde
du Palais de Jabba parle English-extra terrestre (Master, Jedi Knight et
izznoJedi font entre autre partie de ses propos...)


Arnaud Moore, Efrei promo P2, Groupe A1.

P.S. Que la Force de la VO soit toujours avec vous...

19 mai, 2005 10:30  
Anonymous Aurélie Névéol a écrit...

Merci à Jean pour ces explications sur le "Ku" - la mention "ku language created by" au générique avait éveillé ma curiosité. Par ailleurs, pendant le film hier, j'ai été frappée par le fait que les personnages natifs du "Matobo" conversent principalement en anglais, et non en Ku, supposé être leur langue maternelle. C'est particulièrement frappant dans la scène du bus, où ils auraient certainement intérêt à ce que leurs propos ne soient pas compris par tous.
A langue artificielle, usage artificiel?

AN.

29 juin, 2005 12:26  
Anonymous Sébastien a écrit...

Je profite de l'occasion pour poster le lien suivant qui propose d'utiliser google en wallon(mais pas de recherche specifique pour les mots en wallon):
http://home.tiscali.be/madubertaal/gogueule/

Le wallon est le patois que l'on parle dans la partie francophone de Belgique et varie selon les régions. Il est malheureusement de moins en moins utilisé et connu(les bases que j'en ai viennent de ma grand-mère et un peu de mes parents mais dans de nombreuses familles les parents eux-mêmes ne connaissent plus le wallon). Voilà un petit post pour le faire un peu plus connaître(je ne suis pas sûr qu'il est une grande notoriété en dehors des frontières de la Belgique).

26 juillet, 2005 10:58  
Anonymous .:Oscense:. a écrit...

Merci beaucoup pour ce billet très intéressant ! Les commentaires le sont également d'ailleurs. Je recherchais des informations sur l'existence ou non de cette langue justement, après avoir vu le film aujourd'hui...

22 août, 2005 00:11  

Enregistrer un commentaire

mercredi, avril 20, 2005

Lexique: Quand les cons clavent...

Quand les cons clavent, les souris dansent. Ca pourrait résumer ce que j’ai ressenti (en 1981...) en voyant le prototype de ce qui allait devenir le Lisa d’Apple. Deux mains pour le clavier, une troisième pour la souris. Difficile (à moins d’être trichire, évidemment). Je n’étais pas le seul à être perplexe face à cet engin étrange et anti-ergonomique. L’inventeur de la souris lui-même, Douglas Engelbart, ne croyait pas que l’on puisse associer son engin à un clavier normal, et il avait inventé un clavier spécial à cinq touches, sur lequel on pouvait plaquer des « accords » comme sur un piano (on peut voir une vidéo d’époque assez étonnante) :

clavier a 5 touches
Clavier à accords

Une main pour le clavier, une autre pour la souris. Voilà qui faisait sens. Mais ce n’est pas la solution que l’Histoire a retenue : nous avons préféré devenir des sortes de jongleurs de texte à trois balles plutôt que d’apprendre à claver sur cet espèce de sous-clavier.

Les lecteurs attentifs se sont sans doute dit que le verbe claver n’existe pas. Eh bien, si. Tout comme clavier, il vient du latin clavis, clé. Claver était employé dans de nombreuses régions pour fermer une porte à clé (il semblerait qu’il subsiste encore ici ou là si l’on en croit le Dictionnaire des Régionalismes de France --encore un produit INaLF, maintenant ATILF, que je recommande à tous les amoureux de la langue !). Plus technique, claver c’est aussi bloquer une voûte au moyen de la fameuse clé (de voûte).

clavier a 5 touches
Clé bien clavée

Mais, d’accord, je l'admets, claver n'est pas encore homologué dans le sens où je l'emploie. Et c'est dommage, car il nous faut utiliser une circonlocution pesante : taper à la machine – en plus les jeunes générations n’ont peut-être même jamais vu une machine à écrire... Voici d'ailleurs la magnifique machine Mignon sans clavier qui me fascinait entre les mains expertes de mon grand-père et que je n'avais hélas rigoureusement pas le droit de toucher et encore moins de taper :

machine a ecrire Mignon
Clavier Mignon

Pourquoi taper ? Sommes-nous un peuple si brutal qu’il nous failler taper nos écrits pour les faire entendre ? Claver irait très bien. Et après tout, si certains ont cru bon d’inventer clavarder pour chatter (pour ne pas confondre avec attraper les souris ?), claver n'est pas pire ! Je crois même que claver un billet ne serait pas plus idiot que le poster

Le mot clavier est tout de même un peu curieux. Le suffixe -ier comme dans pommier suggèrerait une sorte d’arbre à clés à tout martien qui visiterait la planète, et qui n'aurait pas été prévenu que les humains ne sont pas logiques :

Arbre à clés
Clavier indien

Ca devrait plutôt être le touchier, non ? Car ce ne sont pas des clés qu'il contient, mais des touches. Au lieu de taper brutalement nos lettres, nous pourrions simplement les toucher, ce qui serait beaucoup plus poétique. En fait, le mot clavier a désigné pendant longtemps l’anneau à clefs que l’on portait à la ceinture, ainsi que le gardien des clés.

Anneau à clefs
Clavier pour copocléphile

On pourrait sans doute le ressusciter et l’appliquer aux matons, ce qui montrerait que parfois ce sont les claviers qui tapent...

abu ghraib
Claviers mal tempérés

*
* *

Et le conclave ? A peine besoin de mentionner l’étymologie, tout le monde a dû la lire ou l’entendre jusqu’à la nausée ces jours-ci. Cum clavis, avec la clé : on enferme les cardinaux à clé pour qu’ils se dépêchent d'élire un pape. Le mot serait apparu à l'occasion de l’élection douloureuse de Grégoire X, à Viterbe en 1271, qui a duré près de trois ans... Les habitants et les autorités excédés ont enfermé les cardinaux en menaçant de les affamer, jusqu’à ce qu’ils trouvent une solution. Seul problème, à l’époque on les a emmurés, et non pas enfermés à double tour de clé. Quelque chose ne colle pas…

Grégoire X
Grégoire X, Conclavier

Le clou (du latin clavis...) de l’histoire, c’est en fait que le mot conclave existait déjà bien avant puisque, selon le Dictionnaire Historique d’Alain Rey, le mot désignait en latin « la chambre à coucher, la salle à manger, l’enclos pour garder les animaux (étable, volière) ; en latin médiéval la sacristie (v. 813) et la clôture claustrale (v. 813-814) ». Il n’a donc pas été créé lors de l’élection de Grégoire X, même si à partir de là (ou plutôt sans doute à partir du second Concile de Lyon [fr][en], en 1274, où le même Grégoire X a fixé les clauses de l’élection papale) il a commencé à prendre le sens qu'on lui connaît. Il faut se méfier des histoires qui tournent en boucle, surtout sur Internet. On aurait vite fait de créer des légendes urbaines. De urbi… -- non, j’arrête, il me faut clore ce billet. Alors, je vais me la claver comme on dit encore en Provence, c'est-à-dire que je vais me la fermer...

10 Commentaires:

Anonymous Sabin a écrit...

On peut aussi peut-être se dire que le mot Conclave a perduré car il suscitait des associations d'idées, qui, si elles ne sont pas vraies, sont «satisfaisantes» pour l'esprit, de même qu'un tableau équilibré ou une équation simple peuvent être eux aussi satisfaisants ?

Je m'explique, je pense aux clés, dont vous avez parlé en milieu d'article.
Le premier pape était Pierre, gardien des clés du paradis.
Et le pape est la clé de voute du système institutionnel catholique, en bonus.
Au final, c'est bien "cum clavis" l'explication puisque vous l'avez écrit, mais ces deux autres possibilités sont agréables à envisager aussi, c'est amusant :)

20 avril, 2005 08:35  
Blogger Jean Véronis a écrit...

Ah, ah! Voilà sans doute la clé de l'énigme ;-)

20 avril, 2005 08:47  
Anonymous Fuligineuse a écrit...

Un petit mot du terme "claviste"...
te souvient-il du Libération de la grande époque et des articles truffés de "notes de la claviste" ???
PS - Pour les gens qui fréquentent souvent ce site, il n'y a pas moyen d'enregistrer son identité au lieu de la répéter à chaque commentaire ???

20 avril, 2005 11:12  
Blogger Jean Véronis a écrit...

Ah oui, les notes sauvages de la claviste ! Voilà un souvenir qui revient de loin. Un grand merci. Et dire que j'ai jeté tous mes vieux Libés. Je me rappelle exactement du kiosque où j'ai acheté le numéro 1. Que ne l'ai-je gardé...

Pour les commentaires, je n'avais jamais remarqué, mais j'ai l'impression que Blogger ne garde l'identité que si on a un compte chez lui... Un peu rustique quand même. Je suis désolé (mais Firefox a la gentillesse de se rappeler ce qu'on a tapé dans les champs et de reproposer la même chose...).

20 avril, 2005 11:25  
Blogger ghjmora a écrit...

Je vous invite, mes bien chers frères, en ces moment d'hypermédiatisation de la religion cathod/lique, à revenir à Voltaire, dont la mémoire est toujours de l'ordre de l'horresco referens pour la papauté.
Une petite citation
"Cromwell ne voulait pas d'une secte où l'on ne se battait point, de même que Sixte Quint augurait mal d'une secte, dove non si chiavava." LETTRES PHILOSOPHIQUES, 1734 PREMIERE LETTRE SUR LES QUAKERS

destinée à illustréer d'autres sens - mais il faut la clé - liés au concept de clé.

20 avril, 2005 11:38  
Anonymous Anonyme a écrit...

merci jean pour ce commentaire qui sera apprécié Emmaus

20 avril, 2005 19:20  
Blogger Jean Véronis a écrit...

Emmaüs et moi c'est un blog qui est , pour ceux qui se demandent de quoi on cause...

20 avril, 2005 19:43  
Anonymous Quim a écrit...

Si ça peut t'intéresser,
en català, clavar=fotre (oui, sexe, bien sûr).

21 avril, 2005 12:22  
Anonymous Anonyme a écrit...


"Au lieu de taper brutalement nos lettres, nous pourrions simplement les toucher, ce qui serait beaucoup plus poétique"


Cf. "L'art de toucher le clavecin" de Couperin (le compositeur, pas le consortium des bibliothécaires... ;-)

24 avril, 2005 03:23  
Anonymous Abie a écrit...

"En fait, le mot clavier a désigné pendant longtemps l’anneau à clefs que l’on portait à la ceinture, ainsi que le gardien des clés."

En anglais, on dit "turnkey" pour geôlier...(commme le sait tout lecteur de fantasy de bas étage.)

12 mai, 2005 03:06  

Enregistrer un commentaire

mardi, avril 19, 2005

Text: The words of the European Constitution



Many of you have asked for it. You can now download the complete list of words in the Treaty for the European Constitution (TEC) :

logo tce

Still with the goal of helping you read the TEC, I have added an on-line navigation tool from this list (minus a stoplist of grammatical words, numbers, etc.) :
You can also see the list of the mot frequent words (excluding those in the stoplist) :
And of course, keyword search is still possible :
Have fun!

0 Commentaires:

Enregistrer un commentaire

Texte: Les mots de la Constitution Européenne




Lire la suite

25 avr - Comparez les constitutions française et européenne
5 mai - Le vocabulaire des constitutions
7 mai - Mise au point: Le Monde, Attac et moi



Vous avez été nombreux à me la demander. Voici la liste complète des mots du Traité pour la Constitution Européenne (TCE) à télécharger :

logo tce

Toujours dans l'idée de faciliter la lecture du TCE, j'ai ajouté une possiblité de navigation en ligne à partir de cette liste (expurgée des mots-outils : mots-grammaticaux, nombres, etc.) :
Vous pouvez également voir ici la liste des mots les plus fréquents (toujours à l'exclusion des mots-outils) :
Et évidemment la recherche par mots-clés est toujours possible :
Bonne navigation !


Lire la suite

25 avr - Comparez les constitutions française et européenne
5 mai - Le vocabulaire des constitutions
7 mai - Mise au point: Le Monde, Attac et moi



15 Commentaires:

Blogger TOMHTML a écrit...

Merci :)

19 avril, 2005 10:36  
Blogger Cba a écrit...

Génial ! :D

19 avril, 2005 13:20  
Anonymous P. Roméas a écrit...

merci. instructif!

20 avril, 2005 16:45  
Anonymous Anonyme a écrit...

Il n'y a pas une seule fois le mot "amour" dans la constitution.

21 avril, 2005 20:25  
Blogger Jean Véronis a écrit...

Heureusement ?

21 avril, 2005 20:28  
Blogger all a écrit...

Merci, c'est du travail !

22 avril, 2005 11:05  
Blogger all a écrit...

Suite ...Il semble que Chevènement ait tout faux, ou bien c'est le nouvel-obs
Lire l'article

22 avril, 2005 19:09  
Blogger Jean Véronis a écrit...

all> effectivement les chiffres de Chevènement via le Nouvel Obs sont faux :

Selon ses décomptes, «le mot 'banque' apparaît 176 fois, le mot 'marché' 88 fois, le mot 'commerce' 38 fois et les mots 'concurrence' ou 'concurrentiel' 29 fois.»

En fait les chiffres exacts sont:

417 BANQUE
175 BANQUES
----
592

1 MARCHE
110 MARCHÉ
----
111

14 COMMERCE
4 COMMERCIAL
26 COMMERCIALE
19 COMMERCIALES
5 COMMERCIALISATION
13 COMMERCIAUX
----
81

40 CONCURRENCE
1 CONCURRENTIELLE
2 CONCURRENTIELS
----
43

Comme quoi quand on n'a pas les bons outils...

22 avril, 2005 19:26  
Anonymous af a écrit...

Je trouve votre travail très complet et cela permet d'avoir une analyse exhaustive des occurrences de mots dans le TCE. Contrairement à ce que je vous dites je ne crois pas que ce soit un problème d'outil, c'est plutôt un problème de savoir ce que l'on mesure. Ici vous avez inclus les protocoles du TCE ce qui est très bien, je ne crois pas que Chevènement et autres ont comptabilisé les Protocoles. De plus lorsqu'ils parlent de "banque", il faut comprendre dans le texte "banque", "banques", "Banques et "Banque". Par conséquent en reprenant vos chiffres et en excluant les protocoles on arrive à 175 "banque" ou "banques", ce qui correspond à peu près aux chiffres donnés (176 pour banque d'après Chevènement).
Votre travail a le mérite d'être plus rigoureux et de l'exhaustivité, ce qui permettra de mettre finalement d'accord tout le monde sur les occurrences de mots trouvés dans le TCE.
Encore une fois merci.

25 avril, 2005 10:21  
Anonymous Anonyme a écrit...

Bonjour.

J'apprécie beaucoup votre initiative, qui permet effectivement de voir par soi-même ce qu'il en est de la fréquence des mots dans le TCE.

Mais juste une remarque, tout de même, je ne sais pas ce que pourraient nous apporter les résultats : qui sait à quoi est employé le mot en question ? Même si quelques fois de grosses proportions statistiques permettent effectivment de faire des distinctions...

26 avril, 2005 22:10  
Blogger Jean Véronis a écrit...

Je suis tout à fait d'accord avec vous. Les chiffres ne sont qu'un outil (bien pauvre). Ils ne nous dispensent pas d'aller regarder de près (et c'est un peu le rôle de mon concordancier : donner rapidement les contextes)...

26 avril, 2005 22:17  
Anonymous Anonyme a écrit...

Tres utile la recherche:
Fraternité dans la constitution Française et dans la constitution Européene résultat 3/0 deviner pour qui ???

No pasaran

02 mai, 2005 12:58  
Anonymous Henry Boccon-Gibod, Vincent Godefroy, Jean-Louis Vuldy a écrit...

Bonjour,
accordant la même importance que vous au sujet, nous avons eu une démarche semblable de réalisation d'un graphe terminologique d'accès à la constitution européenne visible via le site http://silpion.dyndns.org/
le travail actuel porte sur le texte du projet disponible en 2004; nous sommes en cours de publication d'une mise à niveau portant cette fois sur le texte complet du reférendum.

04 mai, 2005 18:19  
Blogger Jean Véronis a écrit...

Un grand merci pour votre lien (que je mets ici en version cliquable). Je n'avais pas repéré votre site. J'ai mis un lien depuis mon billet d'aujourd'hui, mais j'espère pouvoir faire un billet complet d'ici quelques jours, car c'est un très bel exemple d'extraction terminologique. Bravo!

05 mai, 2005 21:14  
Anonymous sitecon a écrit...

Pour être original, félicitations pour la recherche dans les constitutions et vos différents articles.
Je fais un max de pub pour votre moteur.
Votre script est sur mon site ainsi qu'une petite "analyse" de la constitution :
Pour les curieux c'est par là
http://sitecon.free.fr/service_public.htm
Tchao et bon vote le 29

11 mai, 2005 23:05  

Enregistrer un commentaire

vendredi, avril 15, 2005

Lexique: Otages


Cent jours.

Florence et Hussein
Ecrivons pour eux.
Pour que leurs visages ne s'évanouissent pas dans l'oubli.


*
* *

Cruelle ironie des mots... L'otage c'était celui que l'on reçoit ; "prendre en otage" c'était accueillir en sa demeure. Hôte, hospitalité, hôtel, hôpital, hospice : la plupart des autres mots de la famille sont restés accueillants. Mais celui-là a mal tourné. La première apparition qu'on lui connaisse, c'est dans la "Laisse" (ou strophe) III de la Chanson de Roland autour de l'an mil, comme en témoigne ce magnifique manuscrit, conservé à la Bodleian Library d'Oxford (une de celles que Google veut numériser bien que je n'aie pas entendu dire que les manuscrits anciens soient concernés !) :

manuscrit d'oxford

Le mot commençait à avoir une autre signification, celle de gens que l'on envoie volontairement chez ses adversaires pour garantir un accord, un traité... Des cautions vivantes, en quelque sorte :

S'en volt ostages, e vos l'en enveiez,
U dis u vint pur lui afiancer.
Enveiu[n]s i les filz de noz muillers


S'il [Charles] veut des otages, vous lui en envoyez,
Ou dix, ou vingt, pour le mettre en confiance.
Envoyons-y les fils de nos femmes.


Et puis le mot s'est mis à prendre le tour encore plus lugubre qu'on lui connaît. Par un curieux chassé-croisé étymologique, il s'est mis à se rapprocher du mot ôter, qui n'avait pourtant historiquement rien à voir. On pourrait hélas désormais proposer la définition suivante à Google :

otage. n. Personne innocente que l'on ôte injustement aux siens. Prendre quelqu'un en otage : crime contre l'humanité.

On pourra ôter des innocents à leurs familles et à leurs amis, mais on ne nous ôtera ni la mémoire, ni la parole.

2 Commentaires:

Anonymous A a écrit...

Il est en effet très significatif que la contrepartie qu'implique le mot otage est consciencieusement occultée dans cette affaire : il est très rare d'entendre parler des objectifs et intérêts des ravisseurs (rançon ? médiatisation ?). L'otage n'est plus une monnaie d'échange, un moyen de pression, bref un objet matérialiste et politique, mais un nouveau martyr : un objet religieux. Je ne pense pas que ce changement de sens va durer, il me semble n'être que circonstanciel, mais ses conséquences seront importantes.

Comparer : http://laminutedusablier.free.fr/telegramme0000030.html et http://www.pourflorenceethussein.org/temoignages/contributions/7000/index.shtml puis lire http://www.hautetfort.com/chictype/billets/39720/.

16 avril, 2005 10:47  
Anonymous A a écrit...

Correction dernier lien : http://chictype.hautetfort.com/archive/2005/02/01/florence_aubenas.html

16 avril, 2005 11:00  

Enregistrer un commentaire

jeudi, avril 14, 2005

Lexique: Qu'a-t-on fait d'hecaton?



Entre deux googueleries (par exemple ici et ici), et une crise de constipation européenne (ici et ici), je continue tranquillement d'autres recherches moins médiatiques, mais tout aussi passionnantes, par exemple celles sur les "livres d'emblèmes" ou "recueil de devises" du XVIè siècle -- que j'ai entreprises à propos de... Google (on ne s'en sort pas, c'est l'alpha et l'oméga, tout en part et tout y revient, en attendant l'apocalypse) !

Je suis tombé sur un des premiers livres d'emblèmes illustrés français, l'Hecatongraphie, de Gilles Corrozet, auteur libraire et traducteur, publié en 1543, donc une dizaine d'années avant les Devises Héroïques de Claude Paradin qui ont inspiré (indirectement) les Googlers (voir ici).

premiere page hécatongraphie


Il en existe une réédition, publiée aux Editions Plein-Chant dans la collection Xylographies oubliées (je leur fais bien volontiers de la pub!). Je la vois à 22,87 € chez Amazon. Si ce n'est pas une erreur, ce n'est rien pour cette petite merveille. Mais si vous êtes (con)pressé, ou radin, il est aussi à la Gallica, dont je ne peux dire assez de bien.

Voici une des très belles gravures que ce livre contient (la page en face donne une explication en vers de la maxime qui est illustrée). Elle me parle tout particulièrement :

emblème sur la parole


J'ai été un peu perturbé par la notice de la BnF, qui donne le titre Hécatomgraphie :

notice gallica

Pourquoi un m ? Le mot est manifestement formé sur hekaton qui veut dire cent en grec : cent maximes. L'original porte bien le titre Hecatongraphie avec un n. L'erreur est aussi présente au catalogue des Editions Plein-Chant, et chez Amazon (tapez bien "hécatoMgraphie" !).

C'est probablement une contamination due au mot "hécatombe". J'ai déjà parlé de ces contaminations orthographiques il y a quelque temps. Elles nous donnent des infractus, des aréoports, et des génycologues (voir ici). Le mot hécatombe n'a rien à voir avec la tombe, contrairement à ce que beaucoup de gens pensent. Il fait allusion au massacre de cent boeufs, sacrifice grec (encore que l'Iliade parle de 12, l'Odyssée de 81, mais ne chipotons pas, il y avait peut-être des restrictions budgétaires par-ci par-là). Le m se justifie tout à fait, puisqu'il est suivi d'un b. Règle habituelle en français (tombe, plombier, etc.). Mais pas dans hécatongraphie. Comme quoi, même les documentalistes de la BnF peuvent se prendre les pieds dans le tapis de la souris. Une vraie hécatombe, l'orthographe, ces temps-ci.

Mon esprit a sauté de la coquille à l'âne, et j'ai été frappé tout d'un coup par la faible productivité de ce préfixe, hécaton, cent... A dire vrai, je ne connaissais qu'hécatombe avant de tomber sur Corrozet. Bien sûr, il y a les méchants Hécatonshires --non Hécatonchires. Ce n'est pas une race de chiens, mais les terribles enfants de Gaïa (la Terre) et Ouranos (oui, Uranus : le Ciel), encore plus horribles que les Cyclopes, ce qui n'est pas peu dire. Monstres aux cents mains. Pentacontacéphales en plus : cinquante têtes (chacun). Même Ouranos a eu les jetons, et les a jetés dans le Tartare (pas le steak). Il a dû détruire toutes les photos, car je n'arrive pas à trouver d'image, même avec l'aide de tous les Godgles de l'Olympe. Enfin, ça devait quand même un peu ressembler un peu à ça (c'est la version Heroic fantasy) :

hecatonchires

Mais ça ne compte pas, c'est un nom propre. Il n'y a aucun autre mot qui commence par hécato(n|m) à part hécatombe dans le TLFI. C'est mauvais signe. Rien non plus dans le Dictionnaire Historique d'Alain Rey. Reste Internet, mais la recherche avec joker, "hécato*", n'est hélas pas possible. Je ne sais pas par quel court-circuit mental, mais il m'est venu une idée jouissive : utiliser Google Suggest, qui fait, finalement, une recherche par préfixe (tout y revient, je vous dis : un trou noir informationnel).

Évidemment Google Suggest donne surtout des suggestions en anglais, mais sur un préfixe grec, ça n'est pas très grave, nos deux langues sont parallèles. Eh bien, pas grand chose on plus, à part le recueil Hecatommithi (cent nouvelles en imitation du Décaméron de Bocace), qui a servi d'inspiration à Shakespeare pour son Othello.


hecatonchires

Si quand même, un mot curieux : hecatontagon, en français hecatontagone, un site ou deux en parlent. Ah oui, j'aurais dû y penser, pentagone, hexagone... Et les autres ? qui peut les réciter par coeur ? Comme ça, sur le bout de la langue, il ne m'en vient que quelques-uns :

CôtésNom
5Pentagone
6Hexagone
7Heptagone
8Octogone
9Ennéagone
10Décagone
11Hendécagone
12Dodécagone

Bien sûr, je pourrais vous fabriquer un triacontakaihenagone, qui prouverait mathématiquement que le grec c'est du chinois, mais je suis sûr de n'en avoir jamais vu, ni en écrit, ni en dessin !


triacontakaihenagone

Je ne veux pas couper les cheveux en tétra, mais, hécatontagone ça ne va pas. Le grec c'est compliqué : 30 = triaconta, 40= tretraconta, 50= pentaconta, etc. mais 100 c'est seulement hecaton, pas hecatonta. Le bon polygone à 100 côtés, ce devrait être un hécatongone. Vu, les gones ?

Qu'a-t-on fait d'hécaton ? On devrait en avoir besoin : toute notre civilisation est basée sur les puissances de 10 : 10, 100, 1000, etc. (enfin, en principe...). En fait, s'il y a aussi peu de mots en hécaton, c'est parce qu'une variante plus courte s'est développée et lui a fait concurrence (l'influence du texto, déjà ?) : hecto. Encore un exemple de l'évolution darwinienne du langage. Des mots en hecto, on en a des myriades (de myrias = 10000) : hectogramme, hectolitre, hectopascal, etc. Et finalement, c'est heureux, vous vous voyez demander à votre marchand de fromage "Vous m'en mettez un hecaton ?".

Pour finir, juste pour la bonne bouche, voici la liste complète des préfixes adoptée par la Conférence générale des poids et mesures :

Facteur Nom Symbole
Facteur Nom Symbole
1024yotta Y
10–1 déci d
1021zetta Z
10–2 centi c
1015peta P
10–6 micro µ
1012téra T
10–9 nano n
109giga G
10–12 pico p
106méga M
10–15 femto f
103kilo k
10–18 atto a
102hecto h
10–21 zepto z
101déca da
10–24 yocto y

Yotta, zetta, zepto et yocto n'ont été adoptés qu'en 1991. Tout jeunes. Que va-t-on faire lorsqu'on va avoir besoin de préfixes pour 10-27 et 1027 ? Au train où rétrécissent les puces et où augmente la taille de l'index de Google (ou des comptes GMail), ça ne saurait manquer d'arriver. Je proposerais volontiers yoda et zebda.

En tous cas, pour 10100 on connaît déjà. C'est le Google. Mais ça n'a aucun usage pratique :
10 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000

Je crois qu'il me faut un bon café après tout ça -- surtout pas un déca !

19 Commentaires:

Anonymous wawa a écrit...

Bah, il y a aussi l'icosagone (20), pas très intéressant en soi, mais qui fait référence à son grand frère polyèdre, l'icosaèdre qui est l'un des 5 polyèdres à pouvoir être régulier.
Constipation... Hum, j'ai déjà vu ça quelque part, mais où ?

14 avril, 2005 09:35  
Blogger Jean Véronis a écrit...

Icosagone, oui (mais, mais je ne l'aurais pas cité spontanément celui-là - contrairement à l'icosaèdre si me demandait les polyèdres).

"Constipation européenne" : Ca se voulait un clin d'oeil d'une autre galaxie ;-) mais ça a plutôt été un acte manqué : lien raté. C'est réparé !

14 avril, 2005 09:49  
Anonymous Pierre a écrit...

Encore un billet passionnant, qui décortique un langage que j'aime beaucoup étudier...
Bonne continuation !

14 avril, 2005 10:58  
Anonymous Anonyme a écrit...

Beau papier. Pour Hécatonchires, il est possible de rendre hommage à Masamune Shirow qui nous propose dans Apple Seed un personnage cyborg nommé Briareos Hécatonchire, en référence à ses importantes capacités de connexion (quel est l'attribut qui vaut ici : 100 mains ou 50 têtes?). Qui a dit que les manga, en plus d'être irresponsables, étaient abrutissant?

14 avril, 2005 13:25  
Blogger Jean Véronis a écrit...

Ah oui, très beau manga, effectivement. Merci de cette piste ! Briareos était justement le nom de l'un des trois horribles Hécatonchires dans la mythologie greacque (avec Kottos et Gyes).

14 avril, 2005 14:03  
Anonymous jid a écrit...

Je suis un peu honteux : je n'ai pas tout lu, je n'ai pas tout compris, mais je voulais tout de même saluer le travail que ce post représentait.
Moi, je vais prendre un Ricard, bon café.

14 avril, 2005 20:31  
Anonymous Nono a écrit...

Trés beau post, plein d'esprit, encore davantage que d'habitude. Mais si Godgle est l'alpha est l'omega des moteurs de recherche, il n'est pas encore l'Unique. Exalead, moteur de recherche français permet la recherche sur les expressions régulières ! Ainsi, on trouve évidemment de nombreuses occurrences des Hecatonchires, mais aussi Hécatonomie qui semble être une création de Patrick WATEAU, Hécatompylos (nom propre, capitale des Parthes), Hecatombéon (cité dans dans Astérix) ou Hécatombaïon francisation de `Ekatombaièn (calendrier grec), hécatompédon (mesure de distance valant 100 pieds)...

14 avril, 2005 23:31  
Blogger Jean Véronis a écrit...

Merci Nono ! A la fois pour vos compliments et pour cette information. Je surveille effectivement Exalead, qui est un bien joli moteur et je comptais en parler un de ces quatre, car sa technologie pour les "termes associés" me paraît être une des plus propres dans l'état actuel.

Mais je n'avais pas repéré cette fonctionnalité (dommage qu'ils ne mettent pas la liste des possibles dans les "termes associés!"). Merci mille fois, car elle offre des possibilités fantastiques pour les linguistes. Je vais explorer tout ça, et je parlerai certainement d'Exalead bientôt !

14 avril, 2005 23:57  
Anonymous kyz a écrit...

Recherche et articles impréssionants, bravo ^^
Je commençais à desespérer que des sites parlent encore tant que ça de notre belle langue française, continuez comme ça :)

ps: et l'isodécaèdre alors ?

15 avril, 2005 14:33  
Anonymous Fuligineuse a écrit...

Un rapport quelconque entre hecaton et Hécate (qui n'avait que trois têtes) ???
- Et à propos de racines grecques, le nom de Véronis ne l'est-il pas ???

16 avril, 2005 08:58  
Blogger Jean Véronis a écrit...

Ah oui, Hécate. Une tête de jument, une de lion et une de chien ! Parfois trois corps aussi. Terrifiante déesse des fantômes et des sortilèges, celle qui provoque les cauchemars. Parfois vue comme fusion de Selene, Artemis et Persephone. L'étymologie semble obscure. Certain disent la "lointaine" ou celle qui "tire loin" (Artemis), ou celle qui agit de loin (du royaume des ombres, Persephone). Loin, plus de cent pas ? Elle ne semble pas d'origine grecque, et certains y voient la déesse egyptienne Heket (mais Heket avait une tête de grenouille). Homere ne la connait pas... Bref, j'ai l'impression que, comme souvent, personne n'en sait rien.

Veronis. Oui, c'est d'origine grecque. Des cyclades...

16 avril, 2005 10:00  
Blogger Kisinis a écrit...

Un vrai régal ce texte ! Il mérite une bonne hécatombe sur l'autel du temple de Zeus à Olympie.

Hécatontagone ? Ce ne serait pas plutôt hécatongone.

J'ai lu quelque part que la déesse Hécate serait une divinité d'origine asiatique ou mésopotamienne.

19 avril, 2005 18:17  
Anonymous Lumina a écrit...

Le lien vers « Hécatonchires » sur Wikipédia n'est pas correct à cause de l'accent.

Sinon, merci pour l'article. :)

20 avril, 2005 12:13  
Blogger Jean Véronis a écrit...

Merci beaucoup pour cette remarque. J'ai corrigé (enfin, j'espère -- quelle galère ces histoires de codage!).

20 avril, 2005 12:37  
Anonymous Olivier G. a écrit...

Ce n'est pas google, mais gogol, cf. http://fr.wikipedia.org/wiki/Gogol .

Et au delà de Gogol, il y gogolplex, gogolplexplex, gogoleplexplexplex, etc..

03 juin, 2005 15:56  
Blogger Jean Véronis a écrit...

;-)

03 juin, 2005 16:03  
Anonymous Olivier G. a écrit...

Ah oui, mais je ne te connais pas depuis assez longtemps pour connaître tes billets précédents moi ^^

Celà étant, j'aurais tendance à croire Wikipédia quand ils écrivent gogol et pas googol, sans en être certain.

03 juin, 2005 17:14  
Anonymous Anonyme a écrit...

bonjour, je viens de tomber sur votre page et j'ai trouver vraiment interessant votre article.
mais voila, sur les commentaires on dit qu'on va jusqu'au gogol, mais en réalité on peut aller encore plus loin avec le centillion(10 à la puissance 600) et si vous essayer de mettre tout ces zéros les uns après les autres et que par trois vous comptez: millions, milliards, billions, billiards, trillions...etc, vous arriverez a centillions . pour en revenir a votre article, j'ai entendu un jour "hécatonnage" (orthographe non certifié)! est-ce un le délire du marin qui me l'a dit ou existe-t-il bel et bien ?
grammaticalement,
Luckleboss1

09 juin, 2006 17:49  
Anonymous P. Fondanaiche a écrit...

Dans l'ouvrage de Jean Bouffartigue et Anne-Marie Delrieu Trésors des racines grecques - édition Belin 1981, on peut lire:
Les fondateurs du système métrique ont infligé un véritable camouflet à la philologie en créant les préfixes HECTO- et KILO-. Rien ne justifie la disparition du a de hecaton,qu'on retrouve bien dans HECATOMBE - hekatombê, sacrifice de cent boeufs (hekaton + bous, boeuf. De même au lieu de KILOMETRE, c'est CHILIOMETRE qui s'imposait, à la rigueur CHILOMETRE.

Vous avez donc le nom des coupables...

15 décembre, 2010 10:45  

Enregistrer un commentaire