Radio: Est-ce qu'on parle mal la France ?
Vieux serpent de mer, auquel on ne finit plus de couper la tête -- elle repousse aussitôt !
NB: L'émission pourra être écoutée en podcast sur le site après enregistrement.
Funny. Following the "blog" example, I tried with "internet", and guess what, it looks like some visionary used the word between 1900 and 1905 (see http://ngrams.googlelabs.com/graph?content=internet&year_start=1800&year_end=2008&corpus=0&smoothing=3 ).
For instance, the 1888 "Memoirs and proceedings of the Manchester Literary & Philosophical Society" (
http://books.google.com/books?id=y6vaAAAAMAAJ&q=%22internet%22&dq=%22internet%22&hl=fr&ei=DYMKTaCOOczysgapuICrCg&sa=X&oi=book_result&ct=result&resnum=15&ved=0CGYQ6AEwDg ) mentions that "The estimated user-base of the Internet is in excess of 20 million world-wide".
Alright, usual OCR+classification errors, but funny anyway. More seriously, has there been any study of the error rate that could give some idea of the precision of said data?
Right probably OCR errors. Yes, although there was probably not enough space to detail this int he Science papier, the authors have been very careful about this, and have done precise evaluation of OCR error rate per language/period -- it's part of the Google Book process, actually. Books with low OCR quality have been eliminated, although the team admits that English has been better checked that other languages for which the corpora "may not be as reliable". The team estimates that estimates that over 98% of words are correctly digitized for modern English books, which is not bad !
I assume that with such sizes, we have to accept the fact (as in all other sciences) that there is some noise in the data. It's the same for telescopes. It's upon us to develop filtering methods and so on -- although the area in linguistics is still in infancy !
Jean, do you have a twitter account? I always come back to your blog after weeks of oblivion, but I am always interested by your posts (and I found wikio a great tool).
I must confess that I don't have the force to read through all your blog to find this out.... sorry, I have been raised in Corsica ;-)
Jice> aixtal
ce corpus de 500 milliards de mots, c'est tous les livres publiés en 2000 - autre ensemble que vous évoquez dans la suite du même paragraphe ?
Non, c'est 4% de tous les livres publiés depuis 2 siècles !!! Je vais essayer d'améliorer ma phrase, merci de la remarque...
Fichtre il fallait bien ça pour apprendre qu'on parle plus d'une maladie quand on en est atteint et que personne ne parlait de blog en 1990.
C'est quoi la prochaine découverte ? Que le mot Internet n'existait pas en 1900 ?
Je croyais que la science servait à découvrir des choses qu'on ignorait, pas à découvrir que le haut est au dessus du bas.
Lisez l'article, et plongez dans les données, Fabrice, vous verrez, je suis sûr qu'il y a des choses à découvrir, et que parfois le bas est très bas. Mais en bons scientifiques, les collègues en question ont d'abord vérifié que leur télescope se comporte correctement sur l'attendu.
Jean,
Est-ce qu'il y a un phénomène de "délai" mesurable, sachant que les nouvelles (textes) sont déjà sur le net dès qu'on prononce un nouveau mot, alors que dans le 19ème, il devait y avoir un certain "delay" (dans le sens anglais), avant qu'un mot soit publié...?
Jean, c'est en ligne maintenant. Exemple sympa ici.
Également : l'évolution entre "clef" et "clé". Génial !
Amanda> Ah voilà ! Excellente remarque... Les mots apparaissent quasiment en temps réel à l'écrit, comme je l'avais montré pour la toomuchité, mais sur le net. Dans l'écrit imprimé (qui est le cas de ce corpus), le délai doit être plus long, à supposer que les mots y perfusent (ce ne sera peut-être pas le cas pour toomuchité !).
Comment mesure l'évolution de ce délai au cours des siècles ? Voilà un beau sujet de recherche !
Ah oui sur l'exemple choisis, ça devient franchement plus intéressant pour les lexicographe. On doit pouvoir s'aider de ce genre d'informations pour choisir quand une faute n'en est plus une mais l'évolution d'un usage. La courbe de l'épouvantable « solutionner » est marrante par exemple. Elle me rassure en fait.
Fabrice> ... a attrapé le virus ;-)
excellent cet outil ! c'est incroyablement puissant. Merci pour ce chouette lien. Google, via ses mégadatabases, est vraiment en possession d'outils fabuleux.
Guerre et paix vont de pair....
TomHtml> Oui, ça vient juste d'ouvrir, merci !
On va pouvoir organiser des combats de mots... Exemple.
Il y a un petit problème sur la datation de certains documents et/ou de certaines parties des documents. Parlait-on déjà d'informatique au 17ème siècle ? ;)
Voyant ça, j'ai fait une recherche google classique entre 1600 et 1900 pour avoir des exemples, il me semble que les introductions récentes des documents anciens portent la même date, et d'autres sont manifestement des documents modernes mal datés.
Un biais à connaitre lorsqu'on exploite ce corpus :)
Eve> Oui, comme sur tous les instruments scientifiques (y compris les télescopes ;-), il y a un peu de bruit de fond ici où là, parfois dus à des problèmes d'OCR -- les auteurs le savent et en tiennent comptent, j'ai eu accès à des documents qui montrent une rigueur extrême de leur part. A nous d'en tenir compte, vous avez tout à fait raison !
Il semble pour de nombreuses données, le volume augmente brûtalement autour de 1800. Je me demande ce que le percentile représentait réellement. Est-ce que les valeurs sont normalisées localement ?
Également quelque chose qui manque et qui serait fascinant c'est le volume de catégorisation du livre.
Je faisais une recherche sur le mot sodomie ainsi que fodomie (pour l'OCR) et je me posais la question du champ sémantique autour: religieux, médical, érotique, etc.
Il y a des recherches amusantes autour des moyens de transports, des institutions, des religions, de la cuisine. Il y a sûrement des choses à regarder du côté des noms de pays (leur anciens et nouveaux noms).
Fascinant !
Ce pic révolutionnaire sur France et Europe m'intrigue.
Jésus se porte mal depuis la première guerre mondiale. La natalité est bien sûr un sujet d'après-guerre. Les tsiganes sont plus vieux que les roms. Quant au racisme, on en parle de plus de plus.
quelle différence entre "culturomic' et "mème" ?
Karl> Oui, les valeurs sont normalisées. Mais les auteurs admettent que les autres langues ont été moins vérifiées que l'anglais, et il se peut donc qu'il y ait quelques éléments de bruit.
Laurent LB> Addicitif n'est-ce pas ?
Attention l'outil est sensible aux majuscules : Jésus
All> En effet... Peut-être que le "mics" insiste la technique, sur les outils et algorithme qui permettent d'extraire les mèmes (comme "genomics")...
Il n'y a pas q'un problème d'OCR dans Google BOoks, il y a aussi un gros problème de métadonnées qui limite quand même un peu la portée du moteur, ou en tout cas qui demandera d'interpréter les résultats avec précautions. Par exemple une recherche sur "internet" avant 1900 donne des résultats, et pas uniquement dûs à la proximité avec "interne".
Pic de Solidarité vers 1981
Il semblerait que la fraternité est un peu négligée...
http://ngrams.googlelabs.com/graph?content=libert%C3%A9%2C%C3%A9galit%C3%A9%2Cfraternit%C3%A9&year_start=1500&year_end=2008&corpus=7&smoothing=10
Marchand> Oui, en tout cas pour le français. Les métadonnées ont été beaucoup moins vérifiées que pour l'anglais. Le travail reste à faire...
Amanda> Mais la sororité progresse!
Gaetan> Oui, mais attention, l'outil est sensible aux majuscules:
Solidarité, Walesa
solidarité
Ah zut, mauvais copier-coller pour le deuxième:
solidarité (en minuscules)
Solidarnosc, bien sur ! Et moi qui croyait a un effet du Mitterrandisme... <a hreh="http://goo.gl/Gy6MT>http://goo.gl/Gy6MT</a>
Solidarnosc, bien sur ! Et moi qui croyait a un effet du Mitterrandisme... http://goo.gl/Gy6MT
La fameuse bataille du "autant pour moi" contre le "au temps pour moi" :
http://ngrams.googlelabs.com/graph?content=autant+pour+moi%2Cau+temps+pour+moi&year_start=1700&year_end=2008&corpus=7&smoothing=3
Curieux que la graphie "au temps pour moi" n'apparaisse pas, non ?
Le subjonctif imparfait est passé de mode, même à la troisième personne.
La république est remplacée par la démocratie.
On parle autant de nazisme aujourd'hui qu'en 45 ! Je me demande combien d'années il faudra pour que ça retombe. De son côté, le fascisme a eu son apogée vers 76.
par contre ou en revanche, depuis 1980, on dit moins souvent par contre... une grande richesse toutes ces données !
Epsi> "Autant pour moi" apparaît, mais avec une fréquence si faible que la courbe est quasiment confondue avec l'axe des abscisses. On la voit quand on la trace seule : autant pour moi.
Plutôt normal dans un corpus de ce type (livres), que ce soit la forme normative "au temps" qui prédomine...
Laurent LB> Je crois que les historiens vont s'en donner à coeur joie:
Trotsky, Lénine, Staline, Mao
Géniale la petite "réplique" sur Staline dans les années 60, ainsi que les pics Lénine, Troktsy dans les années 70 (avec Mao, bien sûr !). Trotksy juste un poil plus tard que les autres...
Et Hitler avec une courbe en dos de chameau ! Etonnant, cet oubli dans les années 50, suivi d'un retour à la fin des années 60 !
Comme toutes les données sont téléchargeables en CSV, on peut jouer avec (en faisant attention, car c'est très gros) !
Il serait intéressant par exemple d'avoir un outil qui essaie de deviner à quelle date un texte donné a été écrit (en affichant la courbe des probabilités).
À l'inverse, on pourrait vouloir donner un texte et une date, l'outil relèverait alors les anachronismes potentiels (mots qui sont peu ou pas utilisés à cette époque). Ce serait utile aux écrivains !
D'autres idées ?
Excellent outil! Vraiment très puissant!
Bonjour,
Merci pour cet article, et ouah ! Quelle bonne nouvelle !
Est-ce que notre hôte, ou un lecteur, aurait une idée du pourquoi de la percée très nette des couleurs pendant la révolution et l'empire ?
Désolé, lien barbare, sinon, faites une recherche avec plusierus couleurs
http://ngrams.googlelabs.com/graph?content=vert%2Crouge%2Corange%2Cnoir%2Cblanc%2Cgris%2C+jaune%2C+bleu&year_start=1750&year_end=2000&corpus=7&smoothing=3
Emmanuel> Vous pointez là quelque chose de tout à fascinant. Je remets votre lien en version cliquable: vert,rouge,orange,noir,blanc,gris,jaune,bleu. On a les mêmes pics sur couleur,couleurs. Cela me semble correspondre très exactement aux études théoriques sur la couleur qui ont culminé avec le Traité des couleurs de Goethe, publié fin XVIIIe-début XIXe et qui a eu un retentissement considérable en Europe.
Chouette, on peut même devenir apprenti sociologue/historien:
Intéressante évolution de "libre échange", "sans emploi" et "sans domicile fixe" depuis les années 1980.
On a davantage écrit sur le communisme que le nazisme ?
Libération du mot sexe après 1789 et 1960
Quels termes s'entendent le mieux, capitalisme et communisme ou capitalisme et marxisme ?
Attention également au "s long" qui ressemble à un "f". Une recherche de "case" et "cafe" montre un brusque changement à un moment..
C'est qui ces auteurs de harvard ? on dirait qu'il y a un français dedans ??
TomHTML> Oui, j'avais mentionné ce problème dans l'OCR de Google il y a quelques mois (ici). La conséquence pour Google N-Grams a été discutée par Giles Thomas.
Difficile de comprendre pourquoi Google lance des projets pharaoniques de cette ampleur dans prendre des mesures minimales de redressement orthographique (qui seraient assez aisées à mettre en oeuvre étant donné la taille du corpus et les moyens de la firme...).
Bizarre.
Anonyme> Oui, Jean-Baptiste MIchel est un Polytechnicien en post-doc à Harvard.
En plus de tout ça, Google suggère des améliorations dans les haïku (suivre le lien).
Très intéressant.
Il semble y avoir un léger problème non rédhibitoire toutefois concernant les valeurs des fréquences ou l'échelle des ordonnées.
La fréquence d'un terme semble dépendre parfois de l'insertion d'un autre terme :
http://ngrams.googlelabs.com/graph?content=langue%2C+t%C3%AAte&year_start=1820&year_end=2008&corpus=7&smoothing=2
Max Langue 0.026%
http://ngrams.googlelabs.com/graph?content=langue&year_start=1820&year_end=2008&corpus=7&smoothing=2
Max Langue 0.020%
Très intéressant.
Il semble y avoir un léger problème non rédhibitoire toutefois concernant les valeurs des fréquences ou l'échelle des ordonnées.
La fréquence d'un terme semble dépendre parfois de l'insertion d'un autre terme :
http://ngrams.googlelabs.com/graph?content=langue%2C+t%C3%AAte&year_start=1820&year_end=2008&corpus=7&smoothing=2
Max Langue 0.026%
http://ngrams.googlelabs.com/graph?content=langue&year_start=1820&year_end=2008&corpus=7&smoothing=2
Max Langue 0.020%
hpchavaz : la différence vient du paramètre de lissage de la courbe (smoothing) que vous avez modifié entre les deux cas.
C'est rassurant, "bonheur" reste plus fréquent que "malheur", même s'il est en baisse.
Intéressant outil. En passant, on écrit "blogue" au Québec, ce qui introduit une 2e courbe.
assurément on ne voit pas arriver des trucs pareils tous les jours !
Même si le graphème est un peu comme le fond du ciel rouge en astronomie ( en retard sur la réalité ) il y a de quoi rapporter de nombreuses spéculations linguistiques à des éléments observables.
Cela dit je me demande si le bruit qui vient de l'OCR est seul: la typographie évolue elle aussi non ? Ce qui est un f ou un s dans un cas sur deux peut devenir un s d'une année sur l'autre. Mais c'est marginal sans doute.
Incroyable !
Il y a quelque chose que je ne comprend pas dans le guide d'explication fourni par Google.
Ils expliquent que les données sont normalisées par le nombre de livres publiés pour ne fausser les résultats. Je ne comprends pas pourquoi cela est nécessaire, étant donné que les résultats sont donnés en pourcentage d'utilisation : quel est l'intérêt de normaliser par le nombre de livre ?
Au passage, deux mots intéressants à regarder :"Dieu" en français et "God" en anglais. à comparer avec "Dieu est mort", et "God is dead" !! (pas sur les mêmes graphes car la courbe "Dieu" écrase "Dieu est mort" malgré tout...
Jean> Extraordinaire, ce chronologue v2.0 !
Plus haut vous disiez : "Plutôt normal dans un corpus de ce type (livres), que ce soit la forme normative "au temps" qui prédomine..."
C'est juste le contraire : la forme normative est "autant pour moi".
Autant pour vous ;-))
Bonjour,
Est-ce que quelqu'un a essayé de télécharger les données ?
Parce que dans le fichier googlebooks-eng-all-1gram-20090715-0.csv par exemple j'ai pas de mots mais des caractères ("#") ou des nombres... étrange.
# 1574 1 1 1
# 1584 6 6 1
http://ngrams.googlelabs.com/datasets
Méteor> L'hypothèse la plus couramment admise est que la forme originale est "Au temps pour moi", provenant de l'expression militaire "Au temps", qui signifie qu'il faut recommencer un mouvement de façon correcte. Il est vrai qu'il y a eu parfois un peu polémique, qu'on trouve des défenseurs du "autant".
Jonathan> C'est parce que les données sont classées par ordre alphabétiques et les premier tokens dont les signes, # etc, les chiffres et nombres, etc. Il faut arriver au fichier 9 (ligne 4105571) pour avoir les tokens alphabétiques...
A& 1631 8 8 1
A& 1644 11 11 1
A& 1660 1 1 1
A& 1670 3 3 1
A& 1674 5 5 1
Effectivement, merci beaucoup. Ils ont vraiment tout mis (AAAGH) !
Très intéressant.
L'Alsace-Moselle était allemande de 1870 à 1918. En cherchant la ville de Metz et le département Mosel dans le corpus allemand, on obtient cette courbe.
En cherchant sur le nom allemand de la ville de Thionville "Diedenhofen", on a naturellement les pointes de 1870 (annexion), 1914-18 et 1939-45, mais un autre pic apparait au environ de 1895-99. Que s'est-il passé durant cette période?
Intéressant aussi cette courbe sur les juifs et musulmans (et leur religion respective)
http://ngrams.googlelabs.com/graph?content=juif%2Cmusulman%2CIslam%2Cjuda%C3%AFsme&year_start=1750&year_end=2008&corpus=7&smoothing=3
alors que chez les anglais, l'intégration de l'Islam et du Musulman est plus récente
http://ngrams.googlelabs.com/graph?content=Jew%2CMuslim%2CIslam%2CJudaism&year_start=1750&year_end=2008&corpus=0&smoothing=3
bonjour,
drôle de constater qu'en tapant "guerre" pour la France, les livres annonçaient les guerres du XXe siècle un peu avant leurs apparitions réelles...
Le mot prolétaire pour le corpus en Français sur toute la période est savoureux, depuis 1980 il n'y en a plus, confirmation
mouvementautonome.com
Avec "geek" c'est surprenant.
Quelqu'un a une explication ?
http://ngrams.googlelabs.com/graph?content=geek&year_start=1800&year_end=2008&corpus=7&smoothing=3
Ca ne me semble pas anormal... Un pic de popularité vers 2002, puis le mot a un peu faibli, mais reste toujours présent. On voit mieux ici
Oui mais en fait, c'est surtout l'apparition du mot vers 1820-1840 (quel sens pouvait-il avoir ?) puis sa disparition, qui me pose problème...
Les fréquences sont très faibles.
On voit mieux en agrandissant la période 1800-1850; en cliquant sur les dates en bas de la page on a accès aux contextes.
On voit qu'il s'agit de noms de personnes, ou d'erreurs d'OCR, comme ici.
![]() |
Proportion of Google results in Wikipedia (first link) |
![]() |
Results score (first link) |
![]() |
Proportion de résultats Google dans Wikipedia (premier lien) |
![]() |
Score des résultats (premier lien) |
Une autre hypothèse pourrait être plausible (cela dépend des détails du protocole) : Wikipédia est devenue tellement connue que les internautes ont peut-être tendance à lancer certaines de leurs recherches directement sur Wikipédia. Personnellement, je ne fais pas le même type de recherche sur Google que sur Wikipédia. Il y a un biais de sélection parmi les recherches que je fais sur Google : ce sont plutôt le genre de recherches pour lesquelles je pense que Wikipédia sera moins performante...
Robynrider> Dans le protocole, les utilisateurs n'avaient pas le choix du moteur (donc ils ne pouvaient pas aller sur Wikipedia, Amazon ou autre).
Le phénomène que vous décrivez existe (c'est ce que j'appelle la "fuite" vers les moteurs verticaux). Mais il touche principalement les "power users" que nous sommes. J'ai pu vérifier à de multiples reprises que les utilisateurs en général avaient une pratique des outils extrêmement basique -- cela inclut les étudiants, qui paradoxalement ont (dans l'ensemble) une pratique très sommaire du Web (Google, MSN, Facebook...).
Peut-on aussi proposer une explication optimiste, qui serait que au fur et à mesure que le web se développe, il existe de plus en plus de pages "intéressantes" sur n'importe quel sujet donné; dès lors, même si la qualité "absolue" de Wikipedia ne change pas, en revanche elle est progressivement rattrapée et dépassée par d'autres pages plus spécialisées, si bien que sa qualité "par comparaison" diminue?
De façon évidente, votre méthodologie rend assez difficile les comparaisons entre deux batchs d'étudiants, puisque rien ne garantit qu'un "5" de 2010 soit la même chose qu'un "5" de 2005.... Les notes sont donc plus utiles à regarder en tant que comparaison, comme vous le faites d'ailleurs en vous focalisant sur wikipedia/total plutôt que sur la note absolue. Mais dans ce cas, la seule information que vous avez, ce n'est pas la qualité absolue (perçue) de wikipedia, mais plutôt sa qualité relativement aux autres sources disponibles...
JF> Il y a de plus en plus de pages intéressantes, ou alors de spam, de fermes à contenus, etc. La tâche de Google est bien difficile !
Bien sûr rien ne garantit que l'échelle soit stable dans le temps, c'est le problème de tout baromètre. Les écarts entre groupes de résultats (ou entre moteurs comme Google/Yahoo) sont certainement plus intéressants.
Quand je veux m'informer sur un sujet dont j'ignore tout -souvent un nom propre- je privilégie Wikipédia, en passant par Google ; ainsi je bénéficie de l'esprit critique de la communauté, là où, a cause de mon ignorance, je ne peux l'exercer. Par contre, pour approfondir un savoir, je vais privilégier les sources originales.
Wikipédia évolue : j'ai l'impression subjective que la taille des articles s'accroit, qu'ils deviennent plus encyclopédiques. (Voir l'entrée 'Verrières-le-buisson' qui relève plus de la monographie que du bref de guide touristique.)
Du coup il se peut que les étudiants puissent les trouver plus savants qu'ils ne souhaitent ; emmerdants, quoi !
Autre hypothèse: les étudiants sont blasés par internet et hésitent à donner une bonne note à ce qu'il considèrent comme normal.
Pour tester cette hypothèse, il faudrait demander aux mêmes étudiants d'identifier (voire de noter) le meilleur des liens dans les pages suivantes. Cette valeur pourrait servir à étaloner les notes données.
Pilou> Je trouve que certaines entrées devient trop volumineuses, ce qui est assez rebutant pour une première approche sur un sujet. Une bonne évolution serait d'avoir un découpage à deux niveaux des articles touffus: une intro et un approfondissement.
Par ailleurs, certains articles, de mathématiques ou physique, par exemple, sont manifestement écrits par des spécialistes, mais sont incompréhensibles par le grand public. Je ne suis pas tout à fait ignorant dans ces matières, mais j'ai souvent moi-même du mal.
C'est assez amusant de constater que Wikipedia retombe parfois dans les mêmes travers que les encyclopédies classiques. J'ai eu la chance d'avoir la toute première édition (papier) de l'Universalis, à partir de 1968. Mon père dans sa grande sagesse me l'a offerte: on recevait un volume à la fois. Les problèmes étaient les mêmes. articles écrits par les meilleurs experts, mais qui ne se mettaient pas toujours à la portée, et par exemple, bien que j'ai fait Terminale C et MP à la fac, j'étais souvent incapable de comprendre les articles dans ces domaines...
Mais c'est intéressant de voir qu'une population large (des milliers de contributeurs non encyclopédistes au départ) refont le chemin, redécouvrent et améliorent. Je suis confiant pour la suite. C'est tout à fait fascinant.
Jérôme> Oui, c'est possible... La population étudiante (et la population en général) évolue au fil des années, dans son approche, ses exigences... On sait qu'on a appris à filtrer les pubs par exemple (le fameux banner-blindness). On peut relativement facilement faire des comparatifs instantanés (Google vs Yahoo etc.), mais c'est plus délicat d'interpréter les variations dans le temps: beaucoup de paramètres changent à la fois: les utilisateurs eux-mêmes, le contenu du Web (et de Wikipedia en l'occurrence), les algos des moteurs, etc. Il faudrait avoir le temps (et l'argent) pour faire des études approfondies...
C'est ce qu'on appelle l'« effet arrosoir » : http://danstonchat.com/8109.html
Anonyme> Excellent ! Je la note celle-là c'est très bien vu ! Merci du lien.
Je suis également persuadé que les bonnes positions de Wikipédia dans les résultats de Google proviennent moins d'un nombre de liens entrants élevé vers les pages de l'encyclopédie, que d'une décision éditoriale. Barbara Cassin avait essayé d'étudier (certes très maladroitement compte tenu de ses modestes compétences techniques) cette collusion entre Google et Wikipédia dans son ouvrage Google-Moi, dévastatrice selon elle.
Je pense que Google doit être parfaitement au courant que les liens vers Wikipédia sont moins cliqués : ils ont parfaitement les moyens techniques de le savoir. Ainsi, par exemple, pour tout utilisateur possédant un compte Google et logué, chaque lien retourné par le moteur de recherche est transformé : une page intermédiaire est ajoutée, ayant vocation sans doute d'observer le comportement des utilisateurs, et donc de s'ajuster.
Sur l'âge des étudiants. J'ai fait un rapide calcul (plutôt masochiste, si on y réfléchit bien) et j'ai découvert avec horreur que ceux qui entraient aujourd'hui à l'université étaient nés en...1992...
Argh... Pour reprendre une phrase d'un ami, 1992 c'est une bonne année pour un vin mais pas pour un étudiant... Si on continue le raisonnement, on s'apperçoit qu'au moment où ils ont su lire (vers 7 ans), soit vers 1999-2000, Internet était aussi déjà dans nombre de foyers.
Gnouros> Google monitore de très près les comportements des utilisateurs. Il n'y a guère de doute qu'ils aient un tableau de bord complet sur le #1 des sites retournées dans les résultats ! L taux de clics est un premier indice, mais il y en a d'autres: l'utilisateur revient-il à la page de résultats pour un deuxième clic ? combien de temps reste-t-il sur la page d'arrivée, etc.
Mais je suis convaincu que par moments, c'est extrêmement difficile de présenter de bons résultats dans la jungle dont je parlais. Si on ne sort pas Wikipedia on risque de sortir quoi? un comparateur de prix bidon? un forum minable? un agrégateur à deux balles? du spam? du porn? Les experts (ou bidouilleurs) SEO passent leur temps à bourrer Google...
Claude_r> Voilà. Ils sont nés avec une souris dans la main, et ne peuvent pas imaginer un monde sans Google...
Autre détail fascinant: une recherche où le mot est imposé avec une orthographe déviante, disons, "arrosoire" sera loin d'être infructueuse.
Faute de frappe, je rétablis:
"arrosoire".
Bonjour,
Les quatre seules raisons que je vois :
* éventuellement lassitude comme tu l'as expliqué.
* les performances web sont restés plutôt les même, contrairement aux autres sites qui améliore leurs perfs.
* "niveau d'exigence des internautes est de plus en plus élevé" comme tu le signale
* le niveau d'accessibilité web des sites augmente, donc la satisfaction augmente, car l'internaute peut accéder facilement au contenu. De plus, un site accessible aura plus de chance d'être correctement indexé et donc d'être pertinent.
Je suis d'accord avec Pilou quand il dit qu'"il se peut que les étudiants puissent les trouver plus savants qu'ils ne souhaitent ; emmerdants, quoi !"
Notons que beaucoup de personnes demandent à ce que Google leur retourne un article Wikipédia quand elles font certaines recherches. Elles le font par exemple en précisant le mot-clé "wiki" ou "wikipédia". C'est visible dans les suggestions Google par exemple.
Es ce qu'il est prévu de continuer cette étude ? Merci.
Il serait intéressant de savoir si les utilisateurs mécontents de Wikipedia sont prêts ou non à modifier le contenu de l'article recherché, ou d'autres articles, pour améliorer l'encyclopédie.
Il n'y a que la réponse à cette question qui peut déterminer si Wikipedia est sur la voie du succès ou du déclin.
Il faudrait intégrer cette question au prochain sondage : "Si vous êtes mécontent de l'information donnée au lien trouvé, êtes-vous prêt à mettre sur le net les éléments d'information dont vous disposez pour améliorer l'information disponible ?
John> Il est probable que non, dans l'ensemble, sinon les gens le feraient spontanément. Je suppose que le "ticket d'entrée" est trop élevé pour l'utilisateur occasionnel: il faut du temps, il faut la patience de comprendre au minimum la structure des pages et la langage de balisage, avoir une notion minimale de ce qu'est la communauté Wikipedia, ses codes et son fonctionnement... probablement trop pour le consommateur moyen.
À la question de John je répondrais comme J.V., mais pas seulement parce que c'est «trop pour le consommateur moyen». Aussi, et surtout, parce que Wikipedia, c'est comme les documentaires élitistes d'Arte qui passent à pas d'heure : quand on n'y connaît rien, on trouve ça bien, sinon c'est à se lamenter par terre, et les bras vous tombent à l'idée d'apprendre tous les protocoles de Wikipedia rien que pour essayer de commencer à dissiper des malentendus préliminaires dans des discussions sans fin. Éric Chevillard voit bien Bouvard et Pécuchet, basques de redingote au vent, surfant sur Wikipedia (je ne retrouve pas son texte précis ; chercher quelque part là-dedans). La délicieuse arrosoire de Cochonfucius le confirme.
Le site est dans mon atelier, casier «boîte à outils» ; je "choisis" donc de passer par Google ou non (guillemets = j'ai un compte Google et je suis loguée). Cliquer direct sur WP permet souvent d'aller à saute-mouton par-dessus le contenu pour collecter des références en tout bas de page. Parfois aussi, la consultation d'une entrée WP est plus fertile dans une langue que dans une autre, comme le remarque J.V. ci-dessus (en ce cas, la comparaison entre les versions est souvent hilarante). Ça permet aussi, c'est vrai, d'échapper à dix pages de Google sans intérêt ou carrément délétères (même si un regard de hyène a vite fait de repérer les forums minables, les industriels du renseignement, et même les sites pointés spécialement pour moi par Google).
Le chat... le regard de hyène de la souris...
Il y a également le fait que Wikipédia est un repère de contributeurs partiaux, hégémoniques et peu scrupuleux qui mettent gravement en question le véritable fonctionnement collaboratif de l'encyclopedie et que cela commence à se savoir sur un peu tous les sujets au point d'en être exaspérant.
un exemple: http://fr.wikipedia.org/wiki/Discussion:Mouvement_autonome_en_France/Neutralit%C3%A9
et il en est plein d'autres, cela commence à se savoir.
29 Commentaires:
Moi, je veux bien que Sarkozy touche par sa rhétorique talentueuse, selon ce que vous laissez entendre. Mais on ne me retirera pas de l'idée que la connaissance de la langue, de sa syntaxe,de sa prononciation font partie de l'étiquette qui légitime (ou du moins rend crédible)le pouvoir.
Les Fançais sont entrain de s'apercevoir que non seulement ils n'ont pas voté pour un Marchais, mais pour un sous-Poulidor.
Ceci dit émission très intéressante.
S'il s'agit d'un serpent dont la tête repousse, ne devrait-on pas parler d'hydre (de Lerne) ?
0> Je suis bien d'accord: en écrivant je me disais que ni le serpent de mer, ni l'Hydre ne correspondaient tout à fait à l'image dont j'avais besoin, et je me suis permis de fabriquer un croisement... Mais peut-être que l'Hydre était un serpent de mer, finalement ?
Estellebeaurivage> Ce n'est pas contradictoire. On peut être bête de rhétorique et massacrer la langue académique. C'était le cas de Georges Marchais par exemple. Parler "popu" dans son cas était quasiment une garantie d'authenticité... En ce qui concerne le président de la République, je partage votre avis: cela le desservira. Je suis convaincu que la majorité des français, y compris des classes populaires, ouvrières ou rurales, qu'il tente de séduire, ont en tête le stéréotype du monarque lettré, qui représente et glorifie la France, et constitue en quelque sorte le but ultime de l'ascenseur social à la française.
L'hydre de Lerne est effectivement un serpent des marécages!
bonjour, j'ai écouté l'émission et j'y ai découvert que le corpus français comptait entre 500 000 et 800 000 mots !(à 2 min 55) Mais en cherchant confirmation sur le net, je n'ai rien trouvé de cet ordre. (Le chiffre des mes cours en SCL tournait autour de 100 000)
Je sais bien que la notion de "mot" est variable mais où trouver la source du chiffre donné par J Bordeau ?
Emmanuel> Non, ce chiffre est totalement fantaisiste (ce n'est pas moi qui l'ai donné d'ailleurs !). Tout comme les affirmations du journaliste sur le nombre de mots dans les discours de Nicolas Sarkozy. Il est extrêmement difficile de quantifier le lexique du langue. La notion même ne veut pas dire grand chose... Compte-ton les mots techniques (et qu'est-ce qu'un mot technique ?) Si oui, rien que la chimie nous en offre des centaines de milliers... De plus, le langage est potentiellement infini par le jeu des préfixes et des suffixes. Très difficile. Trop difficile pour jeter des chiffres à la va-cite à la radio !
Et comment qu'on l'écrit la France ?
"ce n'est pas moi qui ai" (je pense que c'est de l'indicatif et en plus à la limite si c'était du subjonctif, ç'aurait été "aie", non ?)
Oui, bien sûr, l'accord se fait avec l'antécédent du pronom relatif. Merci d'être passé(e).
Dans la série tout vient à point à qui sait refréner sa rage infinie, libé propose un joli article sur le président et sa façon de parler.
On y apprendra avec joie que, d'après Luc Chatel, si le président parle comme le beauf-frêre de mon voisin, c'est parce qu'il a envie que celui-ci le comprenne. Donc son élocution n'est que le reflet de sa proximité avec la France qui parle mal la France.
"(..) Juger de son expression en puriste, c'est donc non seulement lui intenter un injuste procès, mais aussi ignorer son sens de la proximité."
CQFD.
http://www.liberation.fr/politiques/01012311588-sarkozy-ne-parle-pas-mal-il-refuse-le-style-amphigourique
Bonne année pleine de posts amphigouriques (j'ai bon, je crois pas..? je suis toujours ému quand j'emploi un nouveau mot, désolé)
Djamé
Bonjour Mr Véronis. J'ai appris, en écoutant la revue de presse de France Inter de ce matin, l'existence de votre analyse sur le langage de Nicolas Sarkozy et votre analogie avec Georges Marchais.
je souhaitais donc vous faire part de l'article que j'avais rédigé en mars 2009 sur ce sujet et qui recouvre une bonne part cette analyse.
http://carnet.causeur.fr/antidote/la-strategie-des-deux-georges,00239
Cordialement à vous,
David Desgouilles
Blog Antidote
Collaborateur à Causeur.fr et blogueur associé de Marianne2.fr
Bonjour,
Je suis désolé, je n'ai pas pu trouver votre analyse donc je ne connais pas son contenu. Avez-vous effectué une analyse statistique des fautes de français commises par notre Président ?
Si tel est le cas, il faudrait pour que cela soit significatif comptabiliser le nombre de fautes par rapport au nombre de mots prononcés et non seulement "dans l'absolu".
Vous le savez, notre Président s'exprime beaucoup, sur tous les sujets et souvent spontanément il n'est donc pas impossible que ses fautes ne soient finalement pas si fréquentes.
Un autre argument que j'ai lu ici et là me dérange : On dit d'une part qu'il parle "popu" par démagogie et d'autre part qu'il n'est pas lettré et donc qu'il ne maîtrise pas son langage.
C'est - comme la plupart des critiques à son égard, mais ceci est un autre débat - tout à fait contradictoire : S'il est peu lettré et qu'il parle réellement comme cela, alors où est le calcul ? S'il calcule un langage "popu" alors comment expliquer qu'il réussisse à ne jamais "déraper" et à parler toujours sur le même ton ?
A mon avis, un homme (ou une femme) médiatisé ne peut pas vraiment tricher sur sa façon de communiquer, car à force de débats, d'interviews, de discours, ses défauts et sa véritable "nature" se révèlent.
Sur le "fond" (même si on parle de forme), je ne pense pas que le langage "familier" soit incompatible avec la politique. On demande aux politiciens d'écouter, d'organiser, de légiférer, de prendre des décisions. Il ne faut pas attendre d'eux une maîtrise parfaite de tous les domaines comme le font les français.
Enfin, un argument évident : A l'oral n'importe qui commet bien plus de fautes qu'à l'écrit et se permet des raccourcis, et on ne peut pas se "relire".
Alors Monsieur Veronis, ma question est simple : Si vous vous adressiez à plusieurs millions de français tous les jours, êtes-vous bien certain que vous ne feriez pas de fautes ?
Anonyme> Votre commentaire est long et nécessiterait peut-être un billet en réponse... Je vais essayer de répondre sur ces quelques points.
> Avez-vous effectué une analyse statistique des fautes de français commises par notre Président ?
Non, j'adorerais pouvoir le faire. Mais il faudrait pour cela disposer de la transcription (fidèle, pas retouchée) de nombreuses heures d'enregistrement, ce dont nul dispose.
> Si tel est le cas, il faudrait pour que cela soit significatif comptabiliser le nombre de fautes par rapport au nombre de mots prononcés et non seulement "dans l'absolu".
Oui, et non. Il y a certes un point de vue quantitatif: les meilleurs lettrés s'embrouillent parfois la langue dans un lapsus ou un "accident" d'élocution. C'est normal, et c'est le propre de l'oral. Dans le cas de Nicolas Sarkozy, si autant de monde remarque les erreurs, c'est très probablement qu'elles dépassent le seuil de l'habituel. Mais au-delà du quantitatif, il y a le qualitatif. Certaines fautes sont "typantes". Quant vous les faites, elles suffisent à vous "cataloguer" comme "non-éduqué" (c'est un constat, pas une approbation du phénomène de ma part). C'est le cas de mauvaises constructions du type "Qu'est-ce que j'm'aperçois" ou "si y'en a qu'ça les démange", ou bien de pronnociations du type "chu pas sûr, M'ame Chabot". Prenez des personnalité politique du même âge et à peu près du même parcours: Villepin, Royal, et vous verrez que, s'ils "buggent" à l'oral comme tout un chacun, ils ne produisent pas ce type d'énoncé.
Comme je l'ai dit à plusieurs reprises, le seul équivalent parmi les personnalités politiques connues, c'est Georges marchais, ce qui est paradoxal.
> Un autre argument que j'ai lu ici et là me dérange : On dit d'une part qu'il parle "popu" par démagogie et d'autre part qu'il n'est pas lettré et donc qu'il ne maîtrise pas son langage. C'est - comme la plupart des critiques à son égard, mais ceci est un autre débat - tout à fait contradictoire : S'il est peu lettré et qu'il parle réellement comme cela, alors où est le calcul ? S'il calcule un langage "popu" alors comment expliquer qu'il réussisse à ne jamais "déraper" et à parler toujours sur le même ton ?
Je ne suis pas d'accord avec cet argument. Nicolas Sarkoy ne calcule pas son "langage popu". C'est bel et bien son langage, même si, en bon politique, il se connaît et le "surjoue" de temps à autre (comme chez Alsthom). Mais c'est ancré en lui, depuis son enfance.
... suite -->
--suite-->
> A mon avis, un homme (ou une femme) médiatisé ne peut pas vraiment tricher sur sa façon de communiquer, car à force de débats, d'interviews, de discours, ses défauts et sa véritable "nature" se révèlent.
Nous sommes d'accord.
Sur le "fond" (même si on parle de forme), je ne pense pas que le langage "familier" soit incompatible avec la politique. On demande aux politiciens d'écouter, d'organiser, de légiférer, de prendre des décisions. Il ne faut pas attendre d'eux une maîtrise parfaite de tous les domaines comme le font les français.
> Nous sommes d'accord aussi. Je crois que ce qui surprend c'est
1. La "rupture" avec les autres présidents de la Ve, tous extrêmement lettrés
2. le côté "langage popu" plus que le langage familier (ce n'est pas la même chose, et hélas on confond souvent les deux).
> Enfin, un argument évident : A l'oral n'importe qui commet bien plus de fautes qu'à l'écrit et se permet des raccourcis, et on ne peut pas se "relire".
Oui.
> Alors Monsieur Veronis, ma question est simple : Si vous vous adressiez à plusieurs millions de français tous les jours, êtes-vous bien certain que vous ne feriez pas de fautes ?
J'en ferais. J'en ai fait très probablement à l'instant dans l'émission à laquelle je viens de participer sur le sujet sur RMC. Je ne saurais pour autant "parler popu", car ce n'est pas mon "sociolecte" (bien que je ne sois pas né avec une cuiller en argent dans la bouche, loin de là). Le paradoxe, c'est que ce "parler popu" est en voie de régression, car les classes populaires (ouvriers, agriculteurs) avec lesquelles on l'associait, à tort ou à raison, vont désormais suffisamment longtemps à l'école de la République pour qu'elle parlent un français tout à fait standard, sans parler, bien sûr, de l'effet de nivellement des médias, et de la télévision en particulier.
Vous avez beau jeu aujourd'hui de souligner les fautes des autres et en particulier celles de Sarkozy, m'est souvenir que vous prenez mal qu'on vous reprenne vous sur des erreurs que vous faites volontiers. (Je parle d'une fois où vous aviez été repris sur ce blog, et aviez répondu vertement que non, vous aviez raison)
Mais je suppose que vous êtes ravi de revenir sur le devant de la scène en vous attaquant au président.
Cher anonyme courageux(se)> Ah bon? si vous le dites...
Quel était le cas en question au fait?
Un peu en vrac, et je n'ai pas pris le temps d'écouter l'émission :
En d'autres termes, ce qui frappe chez Sarkozy, c'est le hiatus entre tous les autres signes de distinction supposée auxquels on n'aurait rien à redire (costards, petits fours, épouse, véhicules, etc., un rien trop affichés mais bon) et celui de la langue (gestuelle comprise), qu'il n'arrive pas à maîtriser, qui jure. Ce manque de maîtrise en un point dévoile d'emblée ce que l'entassement des autres signes prétendait masquer. Patatras !
Tenter de rattraper la mayonnaise en clamant «foin de l'amphigourique je parle pour être compris du "peuple"», c'est surimposer l'insulte à la vulgarité du galimatias. Dans le coin on ne peut peut plus rural et sinistré où j'habite, ceux qui ont voté pour lui sont les premiers à rejeter cette posture, en un français parfois singulier, toujours parfaitement adéquat et qu'ils n'entendent pas qu'on essaie de singer. — Bien sûr, le tout-puissant «stéréotype du monarque lettré» est pour beaucoup dans ces protestations : un monarque, oui, mais parlant un français qui a de la gueule dans tous les sens du terme (les références à Charles de Gaulle rivalisant avec le goût pour les brèves de comptoir compilées par J.-M. Gouriau — et ma foi...).
Faire le compte des fautes de français me semble vain : les meilleurs en commettent parfois délibérément, parce que respecter la règle donne parfois des formes hideuses (© Paul Valéry). On en revient au début : trousser la règle en brûlant ses jupons ? Patatras !
@ Estellebeaurivage : «sous-Polidor», on ne saurait mieux dire.
Cher Professeur,
Ayant entendu une radio faire état de votre article dans Libé de ce jeudi, j'ai eu le plaisir de constater que pour une fois on vous avait accordé l'espace mérité et particulièrement apprécié le rappel de cette "fatitude" bien oubliée.
Pour ma part, j'ai réagi à la réponse de Luc Chatel. Si vous en avez le temps, vous pourrez la lire ici :
http://malesherbes.blogs.nouvelobs.com/archive/2011/01/06/si-pres-des-gens.html
Cordialement.
"Popu" pour "popu" et impératif pour impératif, il est plus efficace de dire "Taisez-vous Elkabbach" que "Casse-toi, pôv' con".
@pièce détachée : belle analyse
Il n'y avait pas de mépris dans la phrase de Marchais.
David> Merci pour ce lien vers Causeur. Je ne partage pas tout à fait votre avis, cependant. Nicolas Sarkozy ne singe pas le parler "popu". C'est sa vraie façon de parler (ce qui, comme je l'ai dit dans l'article de Libé ou sur la BBC l'autre soir, est assez incompréhensible pour un enfant élevé dans les beaux quartiers de Paris). On ne peut pas imiter à ce point en toute situation, le naturel reviendrait au galop. Et les vidéos les plus anciennes montrent qu'il avait déjà ces caractéristiques de parler "popu" dans son langage.
Ceci dit :
1) il le "surjoue" notamment comme vous le dites quand il va dans des usines ;
2) il assume et ne cherche pas à se corriger le moins du monde, sauf rare exception comme sa dernière interview avec Pujadas etc. où les spin doctors lui avaient manifestement conseillé de se "présidentialiser". Mais on voit que ça ne dure pas.
Piève détachée> Y a-t-il forcément hiatus entre des signes extérieurs de richesses et un langage peu soigné ? Ca colle au contraire assez bien avec un style bling-bling nouveau riche, cf. "La vérité si je mens...".
Sinon, je pense aussi que les classes populaires, rurales, n'aiment pas ce style, et que cela nuira à Sarkozy en 2012, à moins que les spin doctors le travaillent en profondeur, et qu'il nous dise (encore) "J'ai changé...".
réponse au com du 6 jan 19h45.
(Traitez-moi de "courageux" entre guillemets pour vous moquer et continuer à prendre les contradictions de haut!)
la conversation était celle-ci :
http://blog.veronis.fr/2008/05/actu-la-une-du-mondefr.html
Eh bé, comme on dit par ici ! si vous trouvez que j'ai été péremptoire dans ma réponse sur ce post (ici), alors les bras m'en tombent. Les lecteurs jugeront.
En tout cas, merci de venir troller un peu, ça manque sur ce blog ;-)
Dieu merci la politique, et son analyse, ne se résume pas à l'orthographe, et à sa stigmatisation publicitaire. Le linguiste-poticien est un poisson d'eau trouble.
@jean veronis
C'est vrai que ça sent le troll.
Laissons tomber.
@ J.V. :
Ce que je voulais souligner, ce n'est pas tant l'entassement de «signes extérieurs de richesse», amplement ressenti et commenté, que le manque de maîtrise, en un point qui suffit à tout flanquer par terre, de «signes de distinction supposée auxquels on n'aurait rien à redire». Même sans bling-bling, cela suffirait pour que Sarkozy ruine ce que vous appelez à raison le «stéréotype du monarque lettré» — un stéréotype tout-puissant pour nous tous, plus ou moins consciemment, que nous le voulions ou non. Un indice : même des gens que leur formation et leurs opinions politiques porteraient à penser les questions de statut selon d'autres schémas, formulent leurs critiques, sans s'en rendre compte le moins du monde, en des termes parfaitement conformes à ce stéréotype : noblesse oblige, Sarkozy déroge...
Ben Ali, lui aussi, a tenté de parler"popu" : son dernier discours télévisé a été prononcé en arabe dialectal (il paraît que c'était la 1° fois).
ça n'a pas marché.
Trop tard pour écouter le podcast, mais j'aurais voulu revenir sur l'objet original du billet.
Depuis bientôt dix ans RFI diffuse à 21 h TU et publie sur son site un journal en français facile.
Il est bien écrit, bien articulé, moins francocentré que les autres, il parle bien la France.
Pourtant, je n'arrive pas à analyser l'intérêt de cette initiative, unanimement raillée par mes connaissances puristes.
Est-ce une simple copie des journaux en easy english ? Est-ce que cela contribue à la diffusion du français ?
Quelle est votre analyse ?
Enregistrer un commentaire