2007: i18n
Lexique: i18n = internationalisation (i suivi de 18 lettres suivi de n) [en]
Je ne vous étonnerais probablement pas en vous disant que Jacques Chirac est, parmi les "présidentiables" pour 2007, celui qui est le plus webatisé, si l'on en croit Yahoo. Je ne vous étonnerais sans doute pas beaucoup non plus en vous expliquant que Nicolas Sarkozy est second... Oui, mais attendez un instant. Réglons Yahoo pour ne voir que les pages en anglais. Surprise: c'est Dominique de Villepin, le second! Voilà qui est intéressant: Sarko s'est surtout fait une réputation franco-française à coup de propos musclés dans les banlieues, du kärcher à la racaille. On en dit du bien ou du mal, mais il monte... Villepin, s'est fait, lui, une renommée internationale à coup de propos musclés (et lyriques), mais à la tribune de l'ONU, et il monte aussi. Ca sent le chef d'état ça (mais bon, les français décideront!).
Je me suis amusé à examiner les chiffres de wébatisation des différents candidats possibles dans les deux langues. Certains, comme Noël Mamère, ont dit qu'ils jetaient l'éponge, mais il nous a déjà fait le coup, alors j'ai ratissé large (j'ai omis quelques farfelus). Voici ce que ça donne:
|
|
Il y a des surprises, n'est-ce pas? Ségolène, la nouvelle coqueluche des français arrive en première présidentiable de gauche sur les pages françaises. Un véritable phénomène! Désirs d'avenir moins macho? Je dois dire, qu'indépendamment de ses idées, qu'on n'est pas obligés de partager, ce serait quand même beau d'avoir enfin une Présidente de la République. La République ne serait plus seulement au féminin dans les allégories (et ça effacerait quelques mauvais souvenirs). Elle monte irrésistiblement elle aussi, mais pour l'instant, malgré ses voyages d'i18n (1, 2), elle ne semble guère faire parler d'elle ailleurs que dans les médias hexagonaux. A l'inverse, Bernard Kouchner, l'éternel homme-politique-préféré-des-français, fait un score plutôt médiocre chez nous, mais éclate le yahoomètre à l'international (le French Doctor, le Kosovo...). Et ainsi de suite: il y a de belles dégringolades, et de sacrées ascensions!
Fidèle à ma fâcheuse habitude de prendre la science par le petit bout de la lorgnette, je me suis dit qu'il fallait créer un véritable indice pour mesurer tout ça. Je suis donc heureux de vous annoncer la création du coefficient de pénétrance internationale ou CPI:

Ca en jette tout de suite, une belle formule, n'est-ce pas? En fait, le CPI s'est simplement le rapport entre les pages anglaises et françaises dans Yahoo.
Je vous laisse savourer:
105.12% | Jean-Marie Le Pen |
92.16% | Jacques Chirac |
79.07% | Bernard Kouchner |
59.39% | Dominique de Villepin |
38.03% | Lionel Jospin |
20.19% | Nicolas Sarkozy |
17.46% | José Bové |
16.94% | Laurent Fabius |
15.85% | Jack Lang |
13.36% | Dominique Strauss-Kahn |
10.28% | Philippe De Villiers |
3.45% | Cecile Duflot |
2.78% | Dominique Voynet |
2.03% | Ségolène Royal |
1.55% | Marie-George Buffet |
1.52% | Arlette Laguiller |
1.23% | Bruno Mégret |
1.03% | Olivier Besancenot |
0.98% | Michèle Alliot-Marie |
0.85% | Martine Aubry |
0.83% | Arnaud Montebourg |
0.82% | Yves Cochet |
0.80% | Jean-Pierre Chevènement |
0.74% | Jean-Louis Borloo |
0.68% | Christine Boutin |
0.61% | Corinne Lepage |
0.60% | Jean Saint-Josse |
0.57% | François Hollande |
0.53% | Nicolas Dupont-Aignan |
0.52% | Noël Mamère |
0.49% | François Bayrou |
Gagnant toutes catégories confondues: Le Pen. Il faut dire que ça a surpris du monde, en 2002, que le pays des Droits de l'Homme (ou ce qu'il en reste) soit au bord du fascisme (évidemment, c'était un peu plus compliqué que ça, mais vu de loin...).
Tiens, au fait j'ai un CPI de 18%. Pas si mal. Et le webomat monte! Je vais commencer à recueillir mes signatures, moi (et vous coller des pubs AdSense).
Post-scriptum
1. Génial! j'ai lancé un mouvement international (i11l ;-)
На русском | На английском | КИ | ||
---|---|---|---|---|
Владимир Путин | 7080000 | Vladimir Putin | 8120000 | 114,69% |
Юрий Лужков | 2710000 | (Yuri OR Yury) Luzhkov | 220000 | 8,12% |
Москва | 125000000 | Moscow | 128000000 | 102,4% |
Сочи | 8240000 | Sochi | 2220000 | 26,94% |
Quand je vous dis que je devrais commencer à chercher mes signatures! Certain(e)s vont au Chili ou en Italie), moi je commence mon i18n par Moscou.
[Source: СоНоты -- traduction automatique]
2. A la suite de vos remarques, j'ai ajouté Arnaud Montebourg et Cécile Duflot, que j'avais simplement oubliés, et je me suis résigné à mettre les écolos en vert, bien que le résultat ne soit pas très esthétique!
Libellés : Politique
33 Commentaires:
Damned !
Et Arnaud de Montebourg ??
:))
Pourquoi Mamère, Voynet, … sont en rouge et non en vert? De ce que je sais, ils n'ont pas beaucoup de choses en commun avec Buffet et compagnie.
Bonjour
Faudrait peut-être pondérer ce coéficient par le volume d'occurences...
(personnellement, par curiosité, j'ai fait la recherche sur ma modeste personne et me retouve à 118 %). (65 AN vs 55 FR)
Dans ce fatras de trucs sans intérêt pondus au hasard de divers commentaires (y compris un souhait de bon anniversaire à ce site), j'imaginais mal (naïf que je suis) que mes trois banalités seraient duement répertoriées en anglophonie (et même en français, du reste).
Pourrait-on en conclure que pour les "anonymes" dont je fait partie les bases anglophones récupèrent bêtement la base francophone ?
Je m'étonne que votre notoriété (avec en plus une partie des articles en anglais) vous fasse "scorer" à 18 %...
Se pourrait-il que je n'ai rien compris à la formule ???
Je n'ose y croire (quoique cela ne me surprendrais pas plus que çà)
Au plaisir de vous lire
Bonjour chez vous
Vincent> Pouquoi les verts en rouge? Bah... simplement parce que j'ai essayé en vert et c'était visuellement atroce. Et puis où mettre Bové? etc. Donc j'ai mis en rouge tout ce qui n'est pas PS... C'est osé, je le reconnais ;-)
Jean Meyran> pondérer ce coéficient par le volume d'occurences -- justement j'essaie de sépare les deux. Le volume c'est le prmier tableau, le rapport en/fr c'est le deuxième.
En fait, je ne vois que trois pages vous concernant en anglais, et 54 en français. D'où un score de 3/54 = 5.56%.
Analyse très intéressante qui peut être poursuivie par l'utilisation de l'Observatoire Presidentielle 2007 (http://www.utc.fr/rtgi/op2007/index.php?id=1). Je m'etonne d'ailleurs, sauf erreur de ma part, que vous n'ayez pas fait de billet à ce sujet... L'outil mis en place par cet observatoire me parait prometteur, encore qu'il soit encore en phase de test. Votre avis la-dessus m'interesserait.
cedirc> Oui, il faut que j'en parle (en fait j'attends qu'il y ait un peu plus de résultats en ligne, notamment sur le Tendançologue). Mais le temps manque!
Je ne comprends pas le titre de l'article : "2007: i18n" ?
TomHtml> I18n = Internationalisation... Bon, je reconnais, c'est un peu un truc d'initié. Désolé!
Certes, mais comme pour le pornomètre, la fiabilité de ce classement est tributaire de la fiabilité des données initiales, c'est-à-dire de la pertinence des données , en l'occurrence du nombre de "pages" en anglais et en français.
Or vous nous avez suffisamment expliqué que ces valeurs pouvaient être sujètes à caution.
En résumé, si j'ai bien compris, ici un résultat supérieur à 100 % n'est pas forcément aberrant, comme l'est un score négatif au pornomètre, mais signifie qu'on parle davantage de tel ou tel en anglais qu'en français ?
PS : bravo comme presque toujours pour ce blog : continuez, c'est particulièrement captivant !
Bonsoir,
Cela fait peut de temps que j’ai découvert votre blog, mais je profite de votre dernier article pour vous dire que je trouve vos écrits extrêmement ludiques et éducatifs, donc bravo et bonne continuation.
bonjour,
le fait de "censurer" la candidature de Dieudonné (farfelu), et de mettre le representant des chasseurs, ne vous fait il pas sortir de votre position de reflexion scientifique pour vous engager personnellement et "moralement" (moralisateur?) les idées de Le Pen sont-elles plus "morales"?.
Dieudonné represente (bien ou mal c'est une autre question) une communauté ou une partie comme le representant des chasseurs. Auriez vous enlevé Coluche ?
bon.... j'aime quand même beaucoup votre travail!
Neville> Vous avez raison sur la fiabilité des données et des comptages issus des moteurs. J'ai d'ailleurs choisi Yahoo parce qu'il est beaucoup plus fiable que Google, mais il n'est certainement pas parfait. Mais tout ceci n'est pas à prendre trop au sérieux: comme le pornomètre, c'est un jeu. Je ne m'appuierais certainement pas sur de tels résultats pour des publications scientifiques!
Effectivement, 0% = tout en français -> 100% = pareil en anglais qu'en français. 200% = 2 fois plus en français qu'en anglais. on aurait pu convenir d'autre chose, comme 0% = tout en français -> 100% tout en anglais, mais c'est moins lisible car on attendrait au mieux 50 ou 52% (Chirac, le Pen).
Anonyme> Dieudonné -- Je me suis posé la question de l'inclure ou non. Si je l'ai exclus ce n'est pas sur la base des idées qu'il défend. Je ne les partage pas, mais il y a aussi Le Pen, Mégret, que j'ai inclus. C'est plutôt que je ne sais pas où mettre des bornes à la liste des "présidentiables" -- la liste est déjà longue. Pour l'instant je me suis cantonné au "personnel politique" classique. J'ai peut-être tort. A réfléchir...
JR> Oui, pas facile. On touche aux limites de ce type de méthode...
aucun effet -- Vous avez sans doute raison! Mais les français sont différents des américains: ici on élit un véritable "monarque républicain" (l'expression n'est pas de moi!), et donc on aime bien quand même que ce soit quelqu'un qui ait une aura, de la prestance internationale. Au moment de mettre le bulletin dans l'urne, je ne sais pas si (statistiquement) les français préfèreront un candidat qui s'excite à tout propos et se livre à des excès de langage peu en rapport avec la fonction, ou bien s'ils se diront finalement que la France a besoin d'un président qui n'hésite pas à affronter les Etats-Unis à la tribune de l'ONU (par exemple). A voir!
Au fait, j'ai noté une petite curiosité.
Vous orthographiez Dominique de Villepin, avec "de" sans D majuscule, ce qui me semble l'orthographe exacte, mais en revanche Philippe De Villiers, avec un D majuscule à la particule, ce qui me semble inexact dans son cas ( on ne met de majuscule à la particule "De" que lorsqu'elle est d'origine ibérique, italienne ou flamande).
Cette différence d'orthographe a-t-elle une incidence sur les résultats ?
Neville> De Villiers -- c'est une erreur, effectivement. Je pense que la bonne orthographe est "de Villiers". Ca n'a pas d'incidence sur les résultats puisque Yahoo n'est pas sensible à la casse. De toutes façons mes programmes suppriment les accents et convertissent tout en minuscules avant de soumettre les requêtes.
salut,
juste, pourquoi des pourcents ?
c'est juste un rapport relatif... c'est ni une stat, ni une proba, vraiment, je ne comprend pas...
Cela dit bravo ! et continuez !
Nimbus> Oui, je sais... mais 105.2% c'est plus parlant que 1,052. En fait, je ne vois pas bien pourquoi on ne pourrait pas exprimer un rapport en pourcents, puisque mathématiquement parlant c'est seulement une façon d'écrire le même nombre. Ca n'est pas bien clair dans ma tête. Si quelqu'un a des lumières...
Vous êtes linguiste, je suis statisticien ; vous faites des statistiques, je me passione pour les langues. Partageons nos outils.
J'ai eu à résoudre le problème du contrôle de données d'enquête répétitives. La dernière valeur est-elle compatible avec la précédente ? Pour avoir des règles simples (facilement automatisables), il est préférable que la valeur représentant l'écart soit symétrique et normée (maximum fini), le signe indiquant le sens de variation.
La métrique différence / somme réponds parfaitement aux conditions. Içi nous ferions : (p.français - p. anglais) / (p.français + p.anglais) ; que l'on peut multiplier par 100 pour améliorer la lisibilité. une valeur de 50 traduit un rapport de 1 à 3 entre les 2 langues. Et, pour un indice d'I18n, il est préférable d'inverser le signe, ce qui donne :
Le Pen : 2,79
Chirac : 1,40
Kouchner : -6,09
Villepin :-29,87
Sarkozy :-67,68
....
Aubry :-98,26
Mon mauvais esprit me souffle une suggestion : puisque vous semblez prêt à étendre la méthode à d'autres pays, pourriez vous aider vos collègues d'Oxford qui souhaiteraient l'appliquer à Blair et ses challengers ;-)
Pilou> Oui, je comprends bien. Mais ce type de coefficient a un gros inconvénient: il est assez dfficile à comprendre par le grand public... je pense que tout dépend de ce qu'on cherche à faire: ici il s'agit simplement, au bout du compte, d'obtenir un classement. Or, nos deux coefficients arrivent strictement au même classement, puisque le vôtre = ( 1 - cpi ) / ( 1 + cpi ). Alors, finalement...
Ce CPI qui aurait pu s'appeler CPE (coefficient de pénétrance à l'étranger ;-) est à utiliser avec des pincettes car on tombe facilement dans une mauvaise interprétation du taux obtenu.
En effet, il est assez facile de dériver vers l'interpréation "je suis vachement connu à l'étranger". Et bien non, désolé, pas forcément. Une personne super connue à l'étranger mais qui l'est aussi en France aura un ratio faible alors qu'un inconnu en France mais qui, par sa passion ou domaine d'activité s'est retrouvé sur qqs sites anglophones aura un super coefficient.
Attention !!!!!!!!!
Et Montebourg ?? Pourquoi n'est il pas dans votre enquête ? C'est un homme poltique classique, non ?
Sinon, blog génial ! Bravo !
Anonymous> Montebourg -- j'avais répondu à Chandon (1er commentaire), que je l'avias simplement oublié, et j'avais mis les chiffres en commentaires, mais je vois que Blogger a zapé... $"@&!!! de système. Gratuit, mais pas fiable!
Allez, je le rajoute, et je vais aussi ajouter Cécile Duflot pour les verts! Elle ravit le titre de plus jeune pré-candidate à Besancenot.
Mais c'est qui Cécile Duflot? Il va falloir que je me renseigne. Par contre pourquoi pas Roland Castro? C'est vrai qu'avec un patronyme pareil, son score international doit être faussé!
Si je comprends bien, votre CPI n’est en fait qu’un CPA, coefficient de pénétration anglophone. Assimiler ‘anglophone’ à ‘international’ est tout de même un peu court; ce n’est vraiment pas la même chose. Faut-il qu’on soit obsédé par l’anglais, et singulièrement mal informé, pour croire que tous les pays étrangers parlent anglais, comme un seul homme! Jusqu’à nouvel ordre, l’anglophonie représente 7% de la population mondiale. L’anglais est aussi utilisé par des non anglophones, me direz-vous; sans doute, mais dans une proportion infime. Quand un Italien parle de Le Pen, de Chirac ou de Besancenot, il le fait en italien, et très rarement en anglais; au demeurant, il lui arrivera aussi (chose qui vous paraîtra probablement inimaginable) de le faire en français.
Pour appréhender l’internationalisation d’un homme politique français, il eût fallu donc additionner ensemble toutes les occurrences de son nom dans toutes les langues du globe, et pas seulement en anglais. Je vous concède que c’est chose irréalisable; mais vous auriez pu par exemple faire la somme des occurrences dans quelques langues majeures (comme l’allemand, le portugais, l’espagnol, le russe, le chinois, le japonais, l’italien, et quelques autres), ce qui vous aurait permis d’obtenir une approximation de l’impact mondial des politiciens français qui serait bien meilleure qu’avec le seul anglais.
De la même manière que vous surestimez assez grossièrement l’importance de l’anglais, vous sous-estimez la portée internationale du français. La part hexagonale dans l’internet francophone est d’un peu plus de 50%; les un peu moins de 50% restants sont très divers: non seulement le Québec, la Belgique, le Maghreb, l’Afrique noire,… bref, tous les pays qui composent ce qu’il est convenu d’appeler l’ensemble francophone, mais aussi une foule d’organisations internationales, et aussi des pays comme l’Allemagne ou le Royaume-Uni, qui ont pas mal de pages en français. Le français est, à côté de l’anglais, la seule langue proprement internationale (même s’il est vrai qu’elle est beaucoup plus petite).
Deux prémisses fausses viennent donc biaiser vos résultats: la sphère anglo-saxonne n’est pas le monde entier; la langue française n’est pas limitée à la France.
Il n'y a plus qu'à espérer que le blocage CPE laisse le temps à Jean de perfectionner son CPI.
Il a bossé pendant des jours
Tâchant avec amour
D'améliorer l'modèle
Quand il déjeunait avec nous
Il avalait d'un coup
Sa soupe au vermicelle
On voyait à son air féroce
Qu'il tombait sur un os
Mais on n'osait rien dire
Et pis un soir pendant l'repas
V'là tonton qui soupir'
Et qui s'écrie comm' ça
Agnès>
C'est quand même pas sur tous les blogs que les lecteurs vous citent du Boris Vian! Quelle chance j'ai! Merci Agnès.
Mais la suite c'est:
A mesure que je deviens vieux je m'en aperçois mieux j'ai le cerveau qui flanche
Soyons sérieux disons le mot c'est même plus un cerveau c'est comme de la sauce blanche
Aaaargh ;-)
Torsade> J'ai pris un peu de temps pour vous répondre parce que je voulais faire quelques calculs. Sur le fond, vous avez raison: je calcule un coefficient de penetrance anglophone. J'aurais pu facilement rapporter le français à l'ensemble du web, puisqu'il suffit de cocher l'option "tout le web" et faire la différence. Toutefois, il y a des effets étranges, notamment sur les fréquences faibles, sans doute liés à plusieurs facteurs (spam, problèmes de détection de la langues, etc.). ils sont moins dramatiques chez Yahoo que chez Google (dont j'avais montré le caractère hautement fantaisiste des comptes en février 2005).
Je viens de faire l'expérience, et j'ai comparé les résultats obtenus. On obtient évidemment un coefficient systématiquement plus grand, mais la corrélation est quasi parfaite, puisque le coefficient de détermination (R2) est de 0.98. Donc, grosso modo, cela revient au même.
Je crois que vous sous-estimez un paramètre: si l'anglais n'est pas la langue la plus fréquente (c'est le chinois), sur le Web, elle l'est. Sur Yahoo, par exemple, 75% des pages indexées sont en anglais. Donc, CPA, CPI même combat.
Cela veut dire simplement que le Web (et moins encore le Web tel qu’il est indexé par Yahoo) n’est pas représentatif du monde! Le Web n’est pas un bon outil statistique, si du moins le but est de savoir dans quelle mesure les politiciens français sont connus dans l’ensemble des pays étrangers.
Que 7% de la population mondiale «pèse» 75% dans votre échantillon, est une distorsion intolérable. La solution (laborieuse) serait d’appliquer une façon de coefficient de pondération, de sorte que, dans vos calculs, chaque communauté linguistique ou chaque pays ait un poids équivalent à son importance démographique réelle. C’est un peu compliqué, mais à défaut d’une telle correction, votre CPI serait en réalité un CPWI: un coefficient de pénétration sur le Web international.
Cela dit, la petite réserve que je formule ici n’enlève rien à l’intérêt que je porte à vos billets!
D'un autre côté si les chercheurs ne recherchaient qu'en fonction d'une utilité certaine de leur découverte, il n'y aurait pas beaucoup de progrès. Il n'y a qu'à lire les commentaires-devinettes sur l'utilité du pourrisseur de texte de Jean pour s'apercevoir que l'utilité d'une découverte n'est pas nécessairement évidente, même si elle est avérée. Il s'agit ici de mesurer la performance internationale de candidats potentiels. Nous savons pertinemment que les Français choissisent leur Président en fonction aussi de sa renommée internationale, réelle ou supposée. Celle-ci n'est pas du tout fonction de la représentativité numérique des peuples et de leurs langues. Il est vrai que l'allemand devrait être intégré, puisque par exemple la photographie de Kohl/Mitterrand main dans la main, restera ancrée dans les mémoires. On peut même aller jusqu'à prétendre que la renommée en Allemagne, en Italie, en GB d'un candidat potentiel est largement plus importante aux yeux des électeurs, que l'avis de millions de chinois qui sont très éloignéss, ne connaissent pas de langues européennes, et de surcroît n'ont pas accès à internet.
La Cécile Duflot (la "dernière trouvaille des Verts" pour Profession Politique) qui vous intrigue est là : www.cecileduflot.net
La liste (réelle ou fantasmée) des présidentiables pour 2007 est impressionnante, une vraie mêlée..!!!
Pressons-nous d'en rire, de peur d'être obligés d'en pleurer.
Je vous propose donc un petit exercice ludique, nettement moins scientifique que le CPI, et modestement intitulé "le méli-mélo des présidentiables" :
http://www.fortissimots.com/grilles/meles/grille17.html
Amusez-vous bien !!
Enregistrer un commentaire