Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, avril 26, 2005

Web: C'est plutôt non




Lire la suite

27 avr - En anglais, c'est plutôt yes



Quelques statistiques simples montrent que le Web dit plutôt non que oui lorsqu'il parle de la Constitution Européenne. Vous pouvez le vérifier vous-même aisément avec le moteur de recherche Yahoo (pages en français) :

RequêteRésultats
"Constitution européenne" oui -non135 000
"Constitution européenne" -oui non521 000
"Constitution européenne" oui non643 000
"Constitution européenne" -oui -non528 000
"Constitution européenne"1 890 000

La première requête cherche les pages qui contiennent les deux mots "constitution européenne" côte à côte (les guillemets sont importants!), le mot oui, et pas le mot non (le signe moins est un opérateur de recherche avancée qui permet d'exclure la présence de certains mots). La seconde cherche les pages qui contiennent "constitution européenne", non et pas oui, etc... Ceci correspond au bon vieux patatoïde de la théorie des ensembles, ou diagramme de Venn, qu'on apprend (apprenait ?) sur les bancs du lycée :

Diagramme de Venn

On remarquera que l'addition n'est pas tout à fait exacte (alors qu'elle le devrait selon la théorie des ensembles). Mais c'est normal : les moteurs de recherche font obligatoirement une approximation lors de requêtes booléennes de ce type. Yahoo ne s'en tire pas trop mal, l'erreur n'est que de 3%. Google est catastrophique de ce point de vue, comme je l'ai largement fait remarquer sur ce blog, et donc il est totalement inutilisable pour le genre de travail que j'illustre ici.

Les pages qui contiennent à la fois les mots oui et non, tout comme celles qui ne contiennent ni l'un ni l'autre, ne nous permettent évidemment pas d'opposer ces deux mots. Ignorons-les (pour l'instant). On voit que les pages qui contiennent un non sans oui (que j'appellerai un non sec pour faire plus court) sont à peu près 4 fois plus nombreuses que les pages qui contiennent un oui sec. Etonnant, non ?

Oui... mais ! Ne nous emballons pas. Il faut comparer avec ce qu'on trouve généralement sur le Web dans son ensemble ! Or, on voit que le non est toujours plus fréquent que le oui, tous sujets confondus. Etonnant aussi. Et cela se retrouve aussi dans d'autres langues. Je ne sais pas si quelqu'un l'a déjà remarqué... Peut-être. Profonde négativité de l'être humain ? C'est certainement intriguant, et à étudier de plus près, mais ce sera pour un autre billet.

RequêteRésultats
oui -non13 500 000
-oui non
40 900 000
oui non12 800 000

Oui... mais re-mais : sur l'ensemble du Web (en tous cas, les quelques centaines de millions de pages indexées par Yahoo pour le français), le non sec est seulement trois fois plus présent que le oui sec. Les statisticiens utilisent un terme savant pour comparer de tels couples de proportions, à savoir la notion de rapport de chances -- attention, "chances" est le terme consacré, ne l'interprétez pas mal dans le contexte de ce référendum ! Les statisticiens parlent aussi bien de "chances" de mourir du cancer que d'en guérir...

Ici, le "rapport de chances" en faveur du non est en gros de 4 pour 3. Si vous vous amusez à faire les calculs précis à partir des tableaux ci-dessus, vous verrez que c'est plus exactement 3,9 / 3,0 soit 1,27. En d'autres termes, on a environ 27% plus de "chances" de trouver non quand le Web parle de "Constitution européenne".

Je laisse à chacun le soin d'interpréter ce résultat... Bien sûr, il y a des pages qui contiennent le mot non et qui sont favorables à la Constitution (du genre "Ne votez pas non"), et inversement. Mais les statistiques s'intéressent aux grandes masses, et j'ai bien l'impression quand même après avoir examiné les premières dizaines de pages retournées par Yahoo pour le non sec et le oui sec, que les pages qui contiennent non sec sont plutôt contre, et les pages qui contiennent oui sec sont plutôt pour. Si c'est bien le cas, cela n'a évidemment de toutes façons pas valeur de sondage sur l'ensemble des futurs votants. Cela ne représenterait au mieux qu'un sondage sur une petite fraction, celle des internautes, et encore, ceux qui écrivent.

Une dernière petite remarque : la proportion des pages qui contiennent à la fois oui et non par rapport à l'ensemble des oui/non est de près de 50% sur les pages qui parlent de "Constitution européenne". Elle n'est que d'environ 20% sur l'ensemble du Web. Beaucoup d'indécis ? Beaucoup de sites qui appellent à réfléchir, qui essaient d'éclaircir le débat sans prendre position ?

A vous de juger.


Post-scriptum

27 avr - Le Web est contre !

Daniel Broche me fait remarquer que le pour est plus fréquent que le contre dans les pages qui parlent de Constitution Européenne, (voir son billet). Que ne l'ai-je lu avant d'écrire le mien ! J'aurais intitulé mon billet "Le Web est contre !". Car, à nouveau il faut comparer le rapport contre / pour dans les pages sur la Constitution Européenne et les autres. Et il n'y a pas photo :

motWebConst. Eur.
contre28 700 0001 050 000
pour215 000 0001 780 000
contre/pour0,130,59

Le rapport de chances est ici de 0,59 / 0,13 = 4,4 (en faveur du contre) ! Bien plus élevé que pour oui / non. Et en plus, cet exemple a une vertu pédagogique bien meilleure (merci Daniel, je vais l'utiliser dans mes cours !), puisque si on s'arrête à la simple proportion dans les pages liées à la Constitution, sans calculer le "rapport de chances" on aboutit dans ce cas à une conclusion inverse de la bonne !

27 avr - Le Web dit franchement non !

Indif fait remarquer très justement que le thème du sondage peut biaiser les résultats (notamment parce que les sondages semblent jusqu'ici donner le non gagnant). Dans un des commentaires, Indif refait les comptes en enlevant les mots sondage et sondages. Je reprends sa table ici, car trop de lecteurs ne cliqueraient pas pour aller voir les commentaires et c'est très intéressant :

RequêteRésultats
"Constitution européenne"
oui -non -sondage -sondages
56 000
"Constitution européenne"
non -oui -sondage -sondages
414 000
non/oui
7,39

Je me permets de comparer avec le Web dans son ensemble (même remarque que ci-dessus) :

RequêteRésultats
oui -non -sondage -sondages13 300 000
oui non -sondage -sondages40 100 000
non/oui3,01

Le rapport de chances devient, si l'on exclut les pages parlant de sondages, 7,39 / 3,01 = 2,45. Soit près de deux fois et demi la proportion de non à laquelle on s'attendrait !

Donc j'avais fait preuve de myopie. Commentaires sur les sondages mis à part, le Web ne dit pas non, il dit franchement non!

Encore un bel exemple pour mes cours. Merci Indif et Daniel. Les blogs ne sont-il pas un outil extraordinaire ? Une sorte de workshop scientifique permanent !


Lire la suite

27 avr - En anglais, c'est plutôt yes



16 Commentaires:

Anonymous Anonyme a écrit...

A noter tout de même que le mot «non» est utilisé plus largement que dans le cadre du strict «oui/non». On retrouve «non» dans des phrases tels que «il ne peut pas non plus».
À côté de celà, le oui est utilisé uniquement dans le cadre du strict «oui/non».

26 avril, 2005 23:17  
Anonymous Anonyme a écrit...

ça me rappelle la note que j'ai écrite apres avoir découvert votre outil d'analyse de la constitution.
Si le non est plus présent sur le web que le oui, la constitution elle en revanche contient plus de pour que de contre:
http://danielbroche.typepad.com/daniel_broche/2005/04/constitution_eu_1.html

27 avril, 2005 00:38  
Anonymous Anonyme a écrit...

«Dans un contexte où les sondages donnent le non gagnant, faut-il s'étonner qu'il y ait plus de pages reprenant cette information et donc contenant la paire de termes "constitution européenne" et "non" plutôt que la paire "constitution européenne" et "oui"?»

Voià ce que je pensais écrire comme commentaire lorsque, pris d'un doute, je me lançai moi aussi à l'assaut de Yahoo. Si le contexte des sondages influence réellement les résultats, alors supprimons-le! j'ai relancé toutes les requêtes en leur ajoutant simplement "-sondage -sondages". En voici les résultats bruts:
* oui -non : 56000
* -oui non : 414000
* oui non : 271000
* -oui -non : 369000
* (total) : 1120000

Les résultats vont de pire en pis...

27 avril, 2005 08:51  
Blogger Jean Véronis a écrit...

Pititjo> Oui ;-) le mot non a notamment des emplois en "adverbe" d'adjectif (ex.: non constitutionnel), que oui ne peut pas avoir. Je ne sais pas quelle est la proportion des emplois de ce type. Ce serait à étudier ! Mais même en se cantonnant à un contexte précis, par exemple "dire oui/non", on obtient une belle dissymétrie (toujours Yahoo, français :

"dire oui" : 211 000
"dire non" : 475 000

A creuser !

27 avril, 2005 08:54  
Blogger Jean Véronis a écrit...

Daniel> Merci beaucoup pour ce lien vers pour / contre. Votre remarque est vraiment intéressante. Mais il faut comparer avec la proportion pour/contre sur le Web.... Je ne peux pas mettre de table dans les commentaires alors je fais un petit Post-scriptum sur le billet. Le résultat est inverse de ce qui apparaît à première vue !

27 avril, 2005 09:13  
Blogger Jean Véronis a écrit...

Indif> Très belle observation ! Pareil que pour Daniel, je ne peux pas mettre de table ici. Je rajoute un 2e PS.

27 avril, 2005 09:30  
Blogger Vicnent a écrit...

et que donnerait "pour la constitution européenne" ? heheheh bien que l'on puisse dire 'je ne voterai surement pas pour la constitution européenne' ... alors que l'inverse, "contre la constitution européenne" ne se verra pas appliquer un écrit tel que 'je ne voterai pas contre la constitution européenne' mais plutot, 'je voterai pour'
donc le texte Pour la constitution européenne" est probablement l'expression du vote positif, alors que le "contre la constitution européenne" lui est très probablement effectivement contre...
Joie et Mystère de la langue Française...
Que dit Google d'ailleurs ?
"Pour la constitution européenne" : 14500 et "Contre la constitution européenne" : 24000
De façon étonnante, les <"Pour ..." -contre> : 900 alors que les <"contre..." -pour> : 81
ce n'est pas si étonnant en fait, "pour" est bien plus utilisé dans la langue française que le contre... ouf !
Au passage, un grand Merci à Mr Jean Véronis pour ce blog désaltérant ;-))

27 avril, 2005 10:06  
Blogger all a écrit...

hé hé, voir le résultat:
Google Fight

27 avril, 2005 10:50  
Blogger Jean Véronis a écrit...

all> Eh!!! c'est de la triche, il ne faut pas oublier les guillemets ;-)

Google Fight

Vanitas vanitatem...

27 avril, 2005 11:26  
Anonymous Anonyme a écrit...

Bonjour! Je trouve ce post un peu tiré par les cheveux... le "non" tout comme le "pour" (comme des commentaires l'ont déjà mentionné) sont utilisés fréquemment dans le langage (non seulement, non content de, pour + verbe...) contrairement à 'oui' ou 'contre'.

Il faut trouver des mots plus restrictif. Un exemple est "positif" et "négatif" peu usités mais qui n'ont qu'un seul sens (à part lorsqu'il s'agit d'électricité). Or, tapez les requêtes dans yahoo:
+"constitution européenne" +positif: 53100 résultats
+"constitution européenne" +negatif: 23200 résultats
+"constitution européenne" +positif -negatif: 46700 résultats
+"constitution européenne" +negatif -positif: 8220 résultats.

Et dans ce cas, il y a une écrasante majorité de 'positif'.

28 avril, 2005 13:58  
Blogger Marianne a écrit...

Haha oui mais "positif" pourrait aussi bien s'appliquer aux effets de la constitution qu'aux avis qu'elle suscite, alors c'est pas mieux, et puis tu n'as pas ramené à l'ensemble du Web (mais bon je viens d'essayer, ça donne quand même une majorité à positif, bien que moins écrasante).
Tu portes bien ton nom Miss Fussy ! Et je ne suis pas d'accord avec toi : ce billet est brillant, comme d'habitude !
Quel plaisir de penser que ce langage que beaucoup piétinent peut, si on sait le manipuler, être un outil aussi puissant !
Il faudra voir comment ça évolue sur les prochaines semaines, pour comparer le pronostic avec le résultat, pour le fun !

28 avril, 2005 16:14  
Blogger Jean Véronis a écrit...

Miss Fussy> Bien sûr le "non" est utilisé pour bien d'autres choses (je crois que je le mentionne). Mais ce devrait être vrai autant pour les pages qui contiennent les mots "Constitution Européenne" que celles qui ne les contiennent pas. Or on oberve une différence importante : il y a bien quelque chose qui se passe.

Mais il faut prendre ça avec humour ! Je ne prétend pas remplacer la Sofres. Ca n'est qu'un jeu (un peu provocateur, bien sûr ;-)

28 avril, 2005 21:28  
Blogger Jean Véronis a écrit...

Miss Fussy (suite)>En fait, erreur : en relisant mon billet je vois que je n'en parle pas (j'ai zappé cette partie parce que je trouvais le billet trop long et j'ai simplement mis que ça pourrait faire l'objet d'un autre billet). J'y ai simplement fait allusion dans le billet suivant (sur "yes") : la situation en anglais est bien plus déséquilibrée. 28 fois plus de "no" que de "yes" dans le web en général (mais un peu moins dans la pages sur la constitution) ! Et il y a encore plus d'usages possibles pour le "no" en anglais (par exemple comme déterminant, là où on utiliserait "aucune" ou bien "pas de"). Il faudrait étudier tout ça en détail, il faudrait regarder tous les types de rôles syntaxiques du "oui" et du "non". Quel boulot ! Peut-être que des linguistes s'y sont penchés, mais je ne l'ai pas entendu dire... Bon! Merci, Miss Fussy, d'avoir titillé ma curiosité. Je sens qu'il va falloir que j'aille voir ça de près.

28 avril, 2005 21:50  
Anonymous Anonyme a écrit...

Oh, de rien, de rien, je ne m'appelle pas Miss Fussy pour rien... ;-)
Et j'en profite au passage pour saluer votre travail sur ce blog, même s'il y a des posts que j'ai préféré (histoire de rassurer Marianne)!

29 avril, 2005 15:49  
Anonymous Anonyme a écrit...

Je suis désolé, mais j'ai rarement lu une analyse aussi stupide... une simple recherche sur Google des termes non" et "oui" montre très nettement que la forme négative est bien plus présente sur le web (425.000.000 contre 5.500.000) alors comment oser tirer la moindre conclusion après ça... mystère.

30 avril, 2005 10:15  
Blogger Jean Véronis a écrit...

Merci c'est gentil, "Anonymous", mais si vous aviez lu tout l'article vous auriez vu que c'est exactement ce que je dis dès le 5ème paragraphe... Mais je sais mes billets sont un peu trop longs.

Quant à Google, si vous voulez vraiment l'utiliser malgré le fait que ses comptes soient faux, réglez sur "pages francophones", car "non" apparaît dans de nombreuses langues: "non" sur les pages francophones retourne 24 600 000 pages).

Allez, sans rancune. De toutes façons cette "étude" ça n'était que pour rigoler ;-)

30 avril, 2005 10:29  

Enregistrer un commentaire