Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, février 28, 2006

2007: i18n

Lexique: i18n = internationalisation (i suivi de 18 lettres suivi de n) [en]

Je ne vous étonnerais probablement pas en vous disant que Jacques Chirac est, parmi les "présidentiables" pour 2007, celui qui est le plus webatisé, si l'on en croit Yahoo. Je ne vous étonnerais sans doute pas beaucoup non plus en vous expliquant que Nicolas Sarkozy est second... Oui, mais attendez un instant. Réglons Yahoo pour ne voir que les pages en anglais. Surprise: c'est Dominique de Villepin, le second! Voilà qui est intéressant: Sarko s'est surtout fait une réputation franco-française à coup de propos musclés dans les banlieues, du kärcher à la racaille. On en dit du bien ou du mal, mais il monte... Villepin, s'est fait, lui, une renommée internationale à coup de propos musclés (et lyriques), mais à la tribune de l'ONU, et il monte aussi. Ca sent le chef d'état ça (mais bon, les français décideront!).

Je me suis amusé à examiner les chiffres de wébatisation des différents candidats possibles dans les deux langues. Certains, comme Noël Mamère, ont dit qu'ils jetaient l'éponge, mais il nous a déjà fait le coup, alors j'ai ratissé large (j'ai omis quelques farfelus). Voici ce que ça donne:

4590000Jacques Chirac
2160000Nicolas Sarkozy
1310000Dominique de Villepin
958000Ségolène Royal
894000Lionel Jospin
559000Jack Lang
513000Laurent Fabius
453000François Hollande
355000Michèle Alliot-Marie
342000José Bové
332000Jean-Marie Le Pen
325000François Bayrou
289000Dominique Strauss-Kahn
238000Jean-Louis Borloo
228000Martine Aubry
215000Bernard Kouchner
184000Marie-George Buffet
172000Jean-Pierre Chevènement
158000Noël Mamère
142000Philippe De Villiers
139000Dominique Voynet
126000Arnaud Montebourg
123000Christine Boutin
116000Arlette Laguiller
114000Olivier Besancenot
98000Corinne Lepage
83800Yves Cochet
58800Jean Saint-Josse
55900Bruno Mégret
54200Nicolas Dupont-Aignan
608Cecile Duflot

Jacques Chirac4230000
Dominique de Villepin778000
Nicolas Sarkozy436000
Jean-Marie Le Pen349000
Lionel Jospin340000
Bernard Kouchner170000
Jack Lang88600
Laurent Fabius86900
José Bové59700
Dominique Strauss-Kahn38600
Ségolène Royal19400
Philippe De Villiers14600
Dominique Voynet3860
Michèle Alliot-Marie3490
Marie-George Buffet2860
François Hollande2570
Martine Aubry1930
Arlette Laguiller1760
Jean-Louis Borloo1750
François Bayrou1580
Jean-Pierre Chevènement1380
Olivier Besancenot1170
Arnaud Montebourg1040
Christine Boutin838
Noël Mamère824
Yves Cochet688
Bruno Mégret687
Corinne Lepage594
Jean Saint-Josse351
Nicolas Dupont-Aignan286
Cecile Duflot21

Il y a des surprises, n'est-ce pas? Ségolène, la nouvelle coqueluche des français arrive en première présidentiable de gauche sur les pages françaises. Un véritable phénomène! Désirs d'avenir moins macho? Je dois dire, qu'indépendamment de ses idées, qu'on n'est pas obligés de partager, ce serait quand même beau d'avoir enfin une Présidente de la République. La République ne serait plus seulement au féminin dans les allégories (et ça effacerait quelques mauvais souvenirs). Elle monte irrésistiblement elle aussi, mais pour l'instant, malgré ses voyages d'i18n (1, 2), elle ne semble guère faire parler d'elle ailleurs que dans les médias hexagonaux. A l'inverse, Bernard Kouchner, l'éternel homme-politique-préféré-des-français, fait un score plutôt médiocre chez nous, mais éclate le yahoomètre à l'international (le French Doctor, le Kosovo...). Et ainsi de suite: il y a de belles dégringolades, et de sacrées ascensions!

Fidèle à ma fâcheuse habitude de prendre la science par le petit bout de la lorgnette, je me suis dit qu'il fallait créer un véritable indice pour mesurer tout ça. Je suis donc heureux de vous annoncer la création du coefficient de pénétrance internationale ou CPI:



Ca en jette tout de suite, une belle formule, n'est-ce pas? En fait, le CPI s'est simplement le rapport entre les pages anglaises et françaises dans Yahoo.

Je vous laisse savourer:

105.12%Jean-Marie Le Pen
92.16%Jacques Chirac
79.07%Bernard Kouchner
59.39%Dominique de Villepin
38.03%Lionel Jospin
20.19%Nicolas Sarkozy
17.46%José Bové
16.94%Laurent Fabius
15.85%Jack Lang
13.36%Dominique Strauss-Kahn
10.28%Philippe De Villiers
3.45%Cecile Duflot
2.78%Dominique Voynet
2.03%Ségolène Royal
1.55%Marie-George Buffet
1.52%Arlette Laguiller
1.23%Bruno Mégret
1.03%Olivier Besancenot
0.98%Michèle Alliot-Marie
0.85%Martine Aubry
0.83%Arnaud Montebourg
0.82%Yves Cochet
0.80%Jean-Pierre Chevènement
0.74%Jean-Louis Borloo
0.68%Christine Boutin
0.61%Corinne Lepage
0.60%Jean Saint-Josse
0.57%François Hollande
0.53%Nicolas Dupont-Aignan
0.52%Noël Mamère
0.49%François Bayrou

Gagnant toutes catégories confondues: Le Pen. Il faut dire que ça a surpris du monde, en 2002, que le pays des Droits de l'Homme (ou ce qu'il en reste) soit au bord du fascisme (évidemment, c'était un peu plus compliqué que ça, mais vu de loin...).

Tiens, au fait j'ai un CPI de 18%. Pas si mal. Et le webomat monte! Je vais commencer à recueillir mes signatures, moi (et vous coller des pubs AdSense).



Post-scriptum


1. Génial! j'ai lancé un mouvement international (i11l ;-)

На русском На английском КИ
Владимир Путин 7080000 Vladimir Putin 8120000 114,69%
Юрий Лужков 2710000 (Yuri OR Yury) Luzhkov 220000 8,12%
Москва 125000000 Moscow 128000000 102,4%
Сочи 8240000 Sochi 2220000 26,94%
Коэфффициент интернационализации

Quand je vous dis que je devrais commencer à chercher mes signatures! Certain(e)s vont au Chili ou en Italie), moi je commence mon i18n par Moscou.

[Source: СоНоты -- traduction automatique]

2. A la suite de vos remarques, j'ai ajouté Arnaud Montebourg et Cécile Duflot, que j'avais simplement oubliés, et je me suis résigné à mettre les écolos en vert, bien que le résultat ne soit pas très esthétique!

Libellés :


34 Commentaires:

Anonymous Chandon a écrit...

Damned !
Et Arnaud de Montebourg ??
:))

28 février, 2006 15:17  
Anonymous Vincent a écrit...

Pourquoi Mamère, Voynet, … sont en rouge et non en vert? De ce que je sais, ils n'ont pas beaucoup de choses en commun avec Buffet et compagnie.

28 février, 2006 15:48  
Anonymous Jean Meyran a écrit...

Bonjour
Faudrait peut-être pondérer ce coéficient par le volume d'occurences...
(personnellement, par curiosité, j'ai fait la recherche sur ma modeste personne et me retouve à 118 %). (65 AN vs 55 FR)

Dans ce fatras de trucs sans intérêt pondus au hasard de divers commentaires (y compris un souhait de bon anniversaire à ce site), j'imaginais mal (naïf que je suis) que mes trois banalités seraient duement répertoriées en anglophonie (et même en français, du reste).
Pourrait-on en conclure que pour les "anonymes" dont je fait partie les bases anglophones récupèrent bêtement la base francophone ?

Je m'étonne que votre notoriété (avec en plus une partie des articles en anglais) vous fasse "scorer" à 18 %...
Se pourrait-il que je n'ai rien compris à la formule ???

Je n'ose y croire (quoique cela ne me surprendrais pas plus que çà)

Au plaisir de vous lire

Bonjour chez vous

28 février, 2006 16:51  
Blogger Jean Véronis a écrit...

Vincent> Pouquoi les verts en rouge? Bah... simplement parce que j'ai essayé en vert et c'était visuellement atroce. Et puis où mettre Bové? etc. Donc j'ai mis en rouge tout ce qui n'est pas PS... C'est osé, je le reconnais ;-)

28 février, 2006 16:55  
Blogger Jean Véronis a écrit...

Jean Meyran> pondérer ce coéficient par le volume d'occurences -- justement j'essaie de sépare les deux. Le volume c'est le prmier tableau, le rapport en/fr c'est le deuxième.

En fait, je ne vois que trois pages vous concernant en anglais, et 54 en français. D'où un score de 3/54 = 5.56%.

28 février, 2006 17:12  
Anonymous Cedric a écrit...

Analyse très intéressante qui peut être poursuivie par l'utilisation de l'Observatoire Presidentielle 2007 (http://www.utc.fr/rtgi/op2007/index.php?id=1). Je m'etonne d'ailleurs, sauf erreur de ma part, que vous n'ayez pas fait de billet à ce sujet... L'outil mis en place par cet observatoire me parait prometteur, encore qu'il soit encore en phase de test. Votre avis la-dessus m'interesserait.

28 février, 2006 18:07  
Blogger Jean Véronis a écrit...

cedirc> Oui, il faut que j'en parle (en fait j'attends qu'il y ait un peu plus de résultats en ligne, notamment sur le Tendançologue). Mais le temps manque!

28 février, 2006 19:04  
Blogger TOMHTML a écrit...

Je ne comprends pas le titre de l'article : "2007: i18n" ?

28 février, 2006 19:27  
Blogger Jean Véronis a écrit...

TomHtml> I18n = Internationalisation... Bon, je reconnais, c'est un peu un truc d'initié. Désolé!

28 février, 2006 19:55  
Anonymous Neville a écrit...

Certes, mais comme pour le pornomètre, la fiabilité de ce classement est tributaire de la fiabilité des données initiales, c'est-à-dire de la pertinence des données , en l'occurrence du nombre de "pages" en anglais et en français.
Or vous nous avez suffisamment expliqué que ces valeurs pouvaient être sujètes à caution.

En résumé, si j'ai bien compris, ici un résultat supérieur à 100 % n'est pas forcément aberrant, comme l'est un score négatif au pornomètre, mais signifie qu'on parle davantage de tel ou tel en anglais qu'en français ?



PS : bravo comme presque toujours pour ce blog : continuez, c'est particulièrement captivant !

28 février, 2006 23:30  
Anonymous Eto DemerZel a écrit...

Bonsoir,

Cela fait peut de temps que j’ai découvert votre blog, mais je profite de votre dernier article pour vous dire que je trouve vos écrits extrêmement ludiques et éducatifs, donc bravo et bonne continuation.

28 février, 2006 23:32  
Anonymous Anonyme a écrit...

bonjour,
le fait de "censurer" la candidature de Dieudonné (farfelu), et de mettre le representant des chasseurs, ne vous fait il pas sortir de votre position de reflexion scientifique pour vous engager personnellement et "moralement" (moralisateur?) les idées de Le Pen sont-elles plus "morales"?.

Dieudonné represente (bien ou mal c'est une autre question) une communauté ou une partie comme le representant des chasseurs. Auriez vous enlevé Coluche ?
bon.... j'aime quand même beaucoup votre travail!

01 mars, 2006 09:02  
Blogger Jean Véronis a écrit...

Neville> Vous avez raison sur la fiabilité des données et des comptages issus des moteurs. J'ai d'ailleurs choisi Yahoo parce qu'il est beaucoup plus fiable que Google, mais il n'est certainement pas parfait. Mais tout ceci n'est pas à prendre trop au sérieux: comme le pornomètre, c'est un jeu. Je ne m'appuierais certainement pas sur de tels résultats pour des publications scientifiques!

Effectivement, 0% = tout en français -> 100% = pareil en anglais qu'en français. 200% = 2 fois plus en français qu'en anglais. on aurait pu convenir d'autre chose, comme 0% = tout en français -> 100% tout en anglais, mais c'est moins lisible car on attendrait au mieux 50 ou 52% (Chirac, le Pen).

01 mars, 2006 09:13  
Blogger Jean Véronis a écrit...

Anonyme> Dieudonné -- Je me suis posé la question de l'inclure ou non. Si je l'ai exclus ce n'est pas sur la base des idées qu'il défend. Je ne les partage pas, mais il y a aussi Le Pen, Mégret, que j'ai inclus. C'est plutôt que je ne sais pas où mettre des bornes à la liste des "présidentiables" -- la liste est déjà longue. Pour l'instant je me suis cantonné au "personnel politique" classique. J'ai peut-être tort. A réfléchir...

01 mars, 2006 09:20  
Blogger JR Courtois a écrit...

Pas facile de faire la requête sur Dieudonné, il est en homonymie avec pas mal de termes. En fait, je vous met au défi d'arriver à sortir un score pour ce personnage.

Cela dit le score des présidentiables à l'étranger n'a aucun effet sur l'élection du président français. On se rappelle de G.W. Bush qui, si l'élection avait été mondiale et sur le web, n'aurait jamais été réélu . Ce qui est intéressant avec le web, c'est d'avoir un autre point de vue sur ce qui se passe chez nous, et c'est donc intéressant d'élargir le champ du débat, même si ce qui se dit un an avant une élection n'a que peu d'incidence sur le résultat final.

01 mars, 2006 10:00  
Blogger Jean Véronis a écrit...

JR> Oui, pas facile. On touche aux limites de ce type de méthode...

aucun effet -- Vous avez sans doute raison! Mais les français sont différents des américains: ici on élit un véritable "monarque républicain" (l'expression n'est pas de moi!), et donc on aime bien quand même que ce soit quelqu'un qui ait une aura, de la prestance internationale. Au moment de mettre le bulletin dans l'urne, je ne sais pas si (statistiquement) les français préfèreront un candidat qui s'excite à tout propos et se livre à des excès de langage peu en rapport avec la fonction, ou bien s'ils se diront finalement que la France a besoin d'un président qui n'hésite pas à affronter les Etats-Unis à la tribune de l'ONU (par exemple). A voir!

01 mars, 2006 10:19  
Anonymous Neville a écrit...

Au fait, j'ai noté une petite curiosité.

Vous orthographiez Dominique de Villepin, avec "de" sans D majuscule, ce qui me semble l'orthographe exacte, mais en revanche Philippe De Villiers, avec un D majuscule à la particule, ce qui me semble inexact dans son cas ( on ne met de majuscule à la particule "De" que lorsqu'elle est d'origine ibérique, italienne ou flamande).

Cette différence d'orthographe a-t-elle une incidence sur les résultats ?

01 mars, 2006 11:14  
Blogger Jean Véronis a écrit...

Neville> De Villiers -- c'est une erreur, effectivement. Je pense que la bonne orthographe est "de Villiers". Ca n'a pas d'incidence sur les résultats puisque Yahoo n'est pas sensible à la casse. De toutes façons mes programmes suppriment les accents et convertissent tout en minuscules avant de soumettre les requêtes.

01 mars, 2006 11:32  
Anonymous nimbus a écrit...

salut,

juste, pourquoi des pourcents ?

c'est juste un rapport relatif... c'est ni une stat, ni une proba, vraiment, je ne comprend pas...

Cela dit bravo ! et continuez !

01 mars, 2006 15:07  
Blogger Jean Véronis a écrit...

Nimbus> Oui, je sais... mais 105.2% c'est plus parlant que 1,052. En fait, je ne vois pas bien pourquoi on ne pourrait pas exprimer un rapport en pourcents, puisque mathématiquement parlant c'est seulement une façon d'écrire le même nombre. Ca n'est pas bien clair dans ma tête. Si quelqu'un a des lumières...

01 mars, 2006 15:14  
Anonymous Pilou a écrit...

Vous êtes linguiste, je suis statisticien ; vous faites des statistiques, je me passione pour les langues. Partageons nos outils.
J'ai eu à résoudre le problème du contrôle de données d'enquête répétitives. La dernière valeur est-elle compatible avec la précédente ? Pour avoir des règles simples (facilement automatisables), il est préférable que la valeur représentant l'écart soit symétrique et normée (maximum fini), le signe indiquant le sens de variation.

La métrique différence / somme réponds parfaitement aux conditions. Içi nous ferions : (p.français - p. anglais) / (p.français + p.anglais) ; que l'on peut multiplier par 100 pour améliorer la lisibilité. une valeur de 50 traduit un rapport de 1 à 3 entre les 2 langues. Et, pour un indice d'I18n, il est préférable d'inverser le signe, ce qui donne :
Le Pen : 2,79
Chirac : 1,40
Kouchner : -6,09
Villepin :-29,87
Sarkozy :-67,68
....
Aubry :-98,26

Mon mauvais esprit me souffle une suggestion : puisque vous semblez prêt à étendre la méthode à d'autres pays, pourriez vous aider vos collègues d'Oxford qui souhaiteraient l'appliquer à Blair et ses challengers ;-)

01 mars, 2006 17:42  
Blogger Jean Véronis a écrit...

Pilou> Oui, je comprends bien. Mais ce type de coefficient a un gros inconvénient: il est assez dfficile à comprendre par le grand public... je pense que tout dépend de ce qu'on cherche à faire: ici il s'agit simplement, au bout du compte, d'obtenir un classement. Or, nos deux coefficients arrivent strictement au même classement, puisque le vôtre = ( 1 - cpi ) / ( 1 + cpi ). Alors, finalement...

01 mars, 2006 20:08  
Anonymous Anonyme a écrit...

Ce CPI qui aurait pu s'appeler CPE (coefficient de pénétrance à l'étranger ;-) est à utiliser avec des pincettes car on tombe facilement dans une mauvaise interprétation du taux obtenu.
En effet, il est assez facile de dériver vers l'interpréation "je suis vachement connu à l'étranger". Et bien non, désolé, pas forcément. Une personne super connue à l'étranger mais qui l'est aussi en France aura un ratio faible alors qu'un inconnu en France mais qui, par sa passion ou domaine d'activité s'est retrouvé sur qqs sites anglophones aura un super coefficient.
Attention !!!!!!!!!

02 mars, 2006 10:24  
Anonymous Anonyme a écrit...

Et Montebourg ?? Pourquoi n'est il pas dans votre enquête ? C'est un homme poltique classique, non ?
Sinon, blog génial ! Bravo !

02 mars, 2006 19:24  
Blogger Jean Véronis a écrit...

Anonymous> Montebourg -- j'avais répondu à Chandon (1er commentaire), que je l'avias simplement oublié, et j'avais mis les chiffres en commentaires, mais je vois que Blogger a zapé... $"@&!!! de système. Gratuit, mais pas fiable!

Allez, je le rajoute, et je vais aussi ajouter Cécile Duflot pour les verts! Elle ravit le titre de plus jeune pré-candidate à Besancenot.

02 mars, 2006 19:33  
Anonymous Agnès a écrit...

Mais c'est qui Cécile Duflot? Il va falloir que je me renseigne. Par contre pourquoi pas Roland Castro? C'est vrai qu'avec un patronyme pareil, son score international doit être faussé!

02 mars, 2006 23:57  
Anonymous Torsade de Pointes a écrit...

Si je comprends bien, votre CPI n’est en fait qu’un CPA, coefficient de pénétration anglophone. Assimiler ‘anglophone’ à ‘international’ est tout de même un peu court; ce n’est vraiment pas la même chose. Faut-il qu’on soit obsédé par l’anglais, et singulièrement mal informé, pour croire que tous les pays étrangers parlent anglais, comme un seul homme! Jusqu’à nouvel ordre, l’anglophonie représente 7% de la population mondiale. L’anglais est aussi utilisé par des non anglophones, me direz-vous; sans doute, mais dans une proportion infime. Quand un Italien parle de Le Pen, de Chirac ou de Besancenot, il le fait en italien, et très rarement en anglais; au demeurant, il lui arrivera aussi (chose qui vous paraîtra probablement inimaginable) de le faire en français.

Pour appréhender l’internationalisation d’un homme politique français, il eût fallu donc additionner ensemble toutes les occurrences de son nom dans toutes les langues du globe, et pas seulement en anglais. Je vous concède que c’est chose irréalisable; mais vous auriez pu par exemple faire la somme des occurrences dans quelques langues majeures (comme l’allemand, le portugais, l’espagnol, le russe, le chinois, le japonais, l’italien, et quelques autres), ce qui vous aurait permis d’obtenir une approximation de l’impact mondial des politiciens français qui serait bien meilleure qu’avec le seul anglais.

De la même manière que vous surestimez assez grossièrement l’importance de l’anglais, vous sous-estimez la portée internationale du français. La part hexagonale dans l’internet francophone est d’un peu plus de 50%; les un peu moins de 50% restants sont très divers: non seulement le Québec, la Belgique, le Maghreb, l’Afrique noire,… bref, tous les pays qui composent ce qu’il est convenu d’appeler l’ensemble francophone, mais aussi une foule d’organisations internationales, et aussi des pays comme l’Allemagne ou le Royaume-Uni, qui ont pas mal de pages en français. Le français est, à côté de l’anglais, la seule langue proprement internationale (même s’il est vrai qu’elle est beaucoup plus petite).

Deux prémisses fausses viennent donc biaiser vos résultats: la sphère anglo-saxonne n’est pas le monde entier; la langue française n’est pas limitée à la France.

04 mars, 2006 23:43  
Anonymous Agnès a écrit...

Il n'y a plus qu'à espérer que le blocage CPE laisse le temps à Jean de perfectionner son CPI.

Il a bossé pendant des jours
Tâchant avec amour
D'améliorer l'modèle
Quand il déjeunait avec nous
Il avalait d'un coup
Sa soupe au vermicelle
On voyait à son air féroce
Qu'il tombait sur un os
Mais on n'osait rien dire
Et pis un soir pendant l'repas
V'là tonton qui soupir'
Et qui s'écrie comm' ça

05 mars, 2006 12:29  
Blogger Jean Véronis a écrit...

Agnès>

C'est quand même pas sur tous les blogs que les lecteurs vous citent du Boris Vian! Quelle chance j'ai! Merci Agnès.

Mais la suite c'est:

A mesure que je deviens vieux je m'en aperçois mieux j'ai le cerveau qui flanche
Soyons sérieux disons le mot c'est même plus un cerveau c'est comme de la sauce blanche

Aaaargh ;-)

05 mars, 2006 13:15  
Blogger Jean Véronis a écrit...

Torsade> J'ai pris un peu de temps pour vous répondre parce que je voulais faire quelques calculs. Sur le fond, vous avez raison: je calcule un coefficient de penetrance anglophone. J'aurais pu facilement rapporter le français à l'ensemble du web, puisqu'il suffit de cocher l'option "tout le web" et faire la différence. Toutefois, il y a des effets étranges, notamment sur les fréquences faibles, sans doute liés à plusieurs facteurs (spam, problèmes de détection de la langues, etc.). ils sont moins dramatiques chez Yahoo que chez Google (dont j'avais montré le caractère hautement fantaisiste des comptes en février 2005).

Je viens de faire l'expérience, et j'ai comparé les résultats obtenus. On obtient évidemment un coefficient systématiquement plus grand, mais la corrélation est quasi parfaite, puisque le coefficient de détermination (R2) est de 0.98. Donc, grosso modo, cela revient au même.

Je crois que vous sous-estimez un paramètre: si l'anglais n'est pas la langue la plus fréquente (c'est le chinois), sur le Web, elle l'est. Sur Yahoo, par exemple, 75% des pages indexées sont en anglais. Donc, CPA, CPI même combat.

06 mars, 2006 13:50  
Anonymous Torsade de Pointes a écrit...

Cela veut dire simplement que le Web (et moins encore le Web tel qu’il est indexé par Yahoo) n’est pas représentatif du monde! Le Web n’est pas un bon outil statistique, si du moins le but est de savoir dans quelle mesure les politiciens français sont connus dans l’ensemble des pays étrangers.

Que 7% de la population mondiale «pèse» 75% dans votre échantillon, est une distorsion intolérable. La solution (laborieuse) serait d’appliquer une façon de coefficient de pondération, de sorte que, dans vos calculs, chaque communauté linguistique ou chaque pays ait un poids équivalent à son importance démographique réelle. C’est un peu compliqué, mais à défaut d’une telle correction, votre CPI serait en réalité un CPWI: un coefficient de pénétration sur le Web international.

Cela dit, la petite réserve que je formule ici n’enlève rien à l’intérêt que je porte à vos billets!

07 mars, 2006 11:10  
Anonymous Agnès a écrit...

D'un autre côté si les chercheurs ne recherchaient qu'en fonction d'une utilité certaine de leur découverte, il n'y aurait pas beaucoup de progrès. Il n'y a qu'à lire les commentaires-devinettes sur l'utilité du pourrisseur de texte de Jean pour s'apercevoir que l'utilité d'une découverte n'est pas nécessairement évidente, même si elle est avérée. Il s'agit ici de mesurer la performance internationale de candidats potentiels. Nous savons pertinemment que les Français choissisent leur Président en fonction aussi de sa renommée internationale, réelle ou supposée. Celle-ci n'est pas du tout fonction de la représentativité numérique des peuples et de leurs langues. Il est vrai que l'allemand devrait être intégré, puisque par exemple la photographie de Kohl/Mitterrand main dans la main, restera ancrée dans les mémoires. On peut même aller jusqu'à prétendre que la renommée en Allemagne, en Italie, en GB d'un candidat potentiel est largement plus importante aux yeux des électeurs, que l'avis de millions de chinois qui sont très éloignéss, ne connaissent pas de langues européennes, et de surcroît n'ont pas accès à internet.

07 mars, 2006 13:48  
Anonymous Alex a écrit...

La Cécile Duflot (la "dernière trouvaille des Verts" pour Profession Politique) qui vous intrigue est là : www.cecileduflot.net

17 mars, 2006 10:21  
Anonymous Fortissimots a écrit...

La liste (réelle ou fantasmée) des présidentiables pour 2007 est impressionnante, une vraie mêlée..!!!
Pressons-nous d'en rire, de peur d'être obligés d'en pleurer.
Je vous propose donc un petit exercice ludique, nettement moins scientifique que le CPI, et modestement intitulé "le méli-mélo des présidentiables" :
http://www.fortissimots.com/grilles/meles/grille17.html

Amusez-vous bien !!

21 mars, 2006 12:45  

Enregistrer un commentaire

jeudi, février 23, 2006

Moteurs: Et le gagnant est...



Google et Yahoo ex æquo!

Tel est le résultat de l’évaluation que j’ai réalisée en décembre 2005 avec mes étudiants aixois et dont j’ai déjà dévoilé quelques aspects sur ce blog (voir 1, 2, 3, 4, 5). Le dernier volet de l’étude (sans doute le plus intéressant) concerne le classement des différents moteurs en fonction de la pertinence – du moins de la pertinence telle qu’elle peut être perçue par un panel d’utilisateurs. Je rappelle tout d’abord brièvement le protocole utilisé. L’étude complète est disponible ici au format pdf si vous voulez connaître plus de détails.



Les moteurs choisis sont trois moteurs américains, Google, Yahoo et MSN, ainsi que trois moteurs français, Exalead, Voilà (développé par France Telecom et offert sur le portail Wanadoo) et Dir.com du groupe Iliad, qui constitue plus une plate-forme expérimentale qu’un moteur à visée commerciale (Dir. Com vient de mettre en ligne une nouvelle version améliorée, mais elle n’a malheureusement pas pu être prise en compte dans l’étude). D’autres moteurs, tels que MozDex ou AskJeeves, n’ont pas été retenus car ils n’offraient pas de version francophone (ou seulement une version bêta dans le cas de AskJeeves).

Quatorze thèmes ont été retenus de façon à refléter une grande variété d’utilisations (Actualités, Animaux, Cinéma, etc.). Chaque thème a été attribué à un étudiant différent, qui choisissait librement cinq requêtes. Le format (avec ou sans guillemets, en un seul ou plusieurs mots) était également totalement libre. L’étude devant se faire «en aveugle», c’est-à-dire sans que les utilisateurs sachent de quel moteur proviennent les résultats, j’ai soumis moi-même les 70 requêtes aux six moteurs. La première page de 10 résultats non marqués comme sponsorisés a été archivée pour chaque requête et chaque moteur (4200 résultats au total), puis débarrassée automatiquement des informations autres que les seules URL des résultats.

Les couples requête-URL correspondant à chaque thème ont été fournis à l’étudiant concerné, qui devait évaluer le document pointé par l’URL (voir étude détaillée), et en particulier fournir une note de pertinence entre 0 et 5, 0 correspondant à un document totalement inutile ou hors-thème, 5 correspondant à un document répondant de façon parfaite à la question posée.

Le classement est le suivant:


Google et Yahoo arrivent en tête ex æquo, avec une note de 2,3, mais le résultat sans doute le plus frappant est le degré de satisfaction très médiocre des utilisateurs. Aucun des moteurs n’atteint la moyenne (2,5 sur 5) et les notes peuvent même être extrêmement faibles (1,2 pour Voilà). Les liens notés 0 (c’est-à-dire totalement inutiles) sont étonnamment nombreux: 53,1 % pour Voilà, mais même les meilleurs ne font pas tellement mieux: 28,6 % pour Google et 27,7 % pour Yahoo. A l’inverse, les résultats notés 5 (excellent) n’atteignent même pas 16 % pour les deux meilleurs moteurs).

Même en restreignant l’étude à la première position dans l’écran de résultats (le lien le plus cliqué par les utilisateurs), les performances sont à peine meilleures: Google et Yahoo dépassent à peine la moyenne avec 2,9 et 2,8 respectivement. Curieusement, les performances de Voilà sont moins bonnes sur le premier lien non marqué comme sponsorisé, puisque sa note y atteint seulement 0,5.


J’ai fait remarquer dans un précédent billet que la proportion de liens à caractère commercial (non marqués comme sponsorisés) est élevée, puisque elle varie entre 7 et 16% environ selon les moteurs. En soi, la présence de liens commerciaux n’est pas nécessairement nuisible à la qualité: sur une requête telle que «Harry Potter», faire apparaître la page Amazon où le livre peut être acheté peut être pertinent. Néanmoins, on observe, dans l’état actuel des choses, une nette dégradation des résultats en terme de pertinence perçue sur les liens commerciaux, et ce pour tous les moteurs: la note attribuée aux liens commerciaux est systématiquement inférieure à celle attribuée aux autres résultats. Google et Yahoo perdent ainsi environ un point sur les liens commerciaux, ce qui est beaucoup sur une échelle de 5 points, surtout quand la note maximale n’est que de 2,3.

Je suis sûr que cette étude va susciter pas mal de réactions. En tous cas, il me semble qu’au moins deux conclusions s’imposent. D’une part, les satisfecit que s’auto-attribuent certains moteurs sont mal fondés: il reste manifestement un immense travail de recherche à faire pour mieux satisfaire les utilisateurs. On oublie parfois que les technologies sous-jacentes sont fort jeunes, et encore quelque peu dans leurs balbutiements. D’autre part, rien dans cette étude ne permet d’expliquer la préférence massive des internautes pour le moteur Google, puisque, globalement Google et Yahoo ont des performances à peu près équivalentes, et se détachent de leurs concurrents. Il faut donc supposer que les raisons en sont autres que des critères de pure pertinence des résultats.


Lire la suite


49 Commentaires:

Anonymous Chandon a écrit...

Merci pour cette étude qui démontre ce dont on se doutait un peu, sans pouvoir l'affirmer.
Il sera intéressant de la refaire à intervalles réguliers, pour mesurer d'éventuelles modifications de résultats.
PS : une petite coquille ici, non ? : "systématiquement intérieure".

23 février, 2006 08:48  
Blogger Jean Véronis a écrit...

Chandon> Oui, ce serait intéressant de refaire à intervalles réguliers. Mais je ne sais pas si j'aurais le courage (c'est beaucoup de travail!). Merci pour la coquille.

23 février, 2006 08:53  
Blogger ylyad a écrit...

Deux exemples personnels pour expliquer la préférence Google:
- historique: comme beaucoup, j'ai découvert Google à travers Yahoo! quand ce dernier utilisait Google - belle réussite, à la Microsoft avec DOS chez IBM d'ailleurs - du coup, je suis allé voir l'original
- simplicité: l'interface de Google est d'une simplicité absolument inégalée, sans pubs, sans autre informations, zen - si "l'accueil personalisé" devient la règle, j'irai voir ailleurs - et c'est tout ce que je demande à un moteur de recherche

23 février, 2006 09:33  
Anonymous Bob a écrit...

La faible pertinence des moteurs qui ressort de cette étude est effectivement un fait très intéressant, et qui personnellement me surprend.

Le constat que vous faites devrait faire réflechir les nombreux responsables de projet internet qui consacrent un temps important au référencement sous Google (j'en suis...).

On le constate de plus en plus, et votre étude est une pierre de plus, la promotion d'un site doit également passer par la recommandation (blogroll, etc.).

Merci de nous faire profiter de votre travail.

23 février, 2006 09:33  
Anonymous Chandon a écrit...

Bob> effectivement cette étude permet aux administrateurs de site de relativiser la pertinence des référencements, même si ça reste incontournable.
En tout cas, inutile à mon avis de payer pour une telle prestation (j'ai encore reçu cette semaine des propositions en ce sens d'une boite pas très futée), mais plutôt se fier à son propre travail de référencement, qui sera plus diversifié et adapté. Bref le pagerank c'est bien, mais pas la panacée non plus...

A ce propos, je serai très intéressé d'avoir une étude pour connaitre la part des visiteurs sur les sites web provenant de moteurs, lequels, si ce sont des visites 'utiles' (+ d'une page), et si les mots clefs tapés sont en adéquation avec le site.
Ou une telle étude existe t'elle déjà ?

Au fait, mes sincères félicitations pour votre site que je consulte avec bonheur depuis quelques mois déjà.

23 février, 2006 10:10  
Anonymous Francois a écrit...

Merci de nous faire partager cette étude. Sur la première page du pdf votre adresse http://www.up.univ-mrs.fr/veronis/ est invalide.Il y a un ;

23 février, 2006 10:20  
Blogger Sophie a écrit...

Pour la préférence à google, je vais hasarder une explication : l'aspect visuel des pages d'accueil yahoo et google expliquent un peu cette préférence.
Google.com ou Google.fr est un moteur de recherche, la page est presque vide si on enlève les outils de recherche.
Yahoo est un portail, et propose tous ses services sur la même page, on n'a pas l'impression que c'est un moteur de recherche ?
Google propose d'autres services mais à d'autres url mail.google.com, maps.google.com, etc...

23 février, 2006 10:33  
Blogger Vicnent 31415 a écrit...

Je reste un peu sur ma faim concernant la notion de "pertinence" qui reste quand même extrêmement subjective...
D'autre part, très très gros utilisateur de moteur de recherche, et exclusivement de google, j'essaie, lors de mes requêtes, de trouver des phrases types qui pourraient se trouver légitimement dans le texte. Quite à faire plusieurs essais.
Enfin, quand le web sémantique sera en place, je n'ose imaginer les dégats qui seront faits à tous ces moteurs actuels lors de l'arrivée du vrai moteur de recherche, sémantique évidemment...

23 février, 2006 10:53  
Anonymous Linca a écrit...

A propos de la pertinence, un autre aspect important est le paragraphe présent avec le lien, par exemple sur google, qui permet de se faire rapidement une meilleure idée de la pertinence du lien, et donc de prendre la décision de le suivre. Il est peut être "normal" d'avoir des liens peu pertinents suite à une requète, si ce paragraphe permet de séléctionner des liens bien plus pertinents.

23 février, 2006 11:39  
Blogger Jean Véronis a écrit...

Ylyad, Sophie> Oui, c'est vrai, la simplicité de la page d'accueil de Google a peut être son importance. En fait, Yahoo a aussi une page où il n'y a que le moteur:

http://fr.search.yahoo.com/

Mais il est vrai que si on tape simplement www.yahoo.com on tombe sur un portail assez touffu...

23 février, 2006 12:30  
Anonymous Philippe a écrit...

Toutes mes félicitations à l'équipe.

Toutefois, serait il possible d'avoir plus de détails sur l'éventuelle variation de l'indice de pertinence des résultats par rapport aux thèmes sélectionnés.

Si j'ai bien tout compris, l'indice de pertinence était jugé par rapport au contenu des pages renvoyés par les moteurs. Même si le nombre de pages Web est aujourd'hui énorme, j'ai le sentiment (et non la certitude) que l'intéret des pages diffusées sur le Web dépend énormément du thème abordé. Je constate très souvent qu'une page traitant d'informatique ou des sciences a un contenu bien plus pertinent qu'une page abordant des sujets moins "techniques". Ce faible indice de pertinence pourrait alors tout aussi bien refléter la "qualité" moyenne des pages Web disponibles sur le Web.

23 février, 2006 13:00  
Blogger Jean Véronis a écrit...

Philippe> Merci!

Effectivement, ce serait intéressant d'avoir une idée de la pertinance par thème. Malheureusement, étant donné que chaque thème a été traité par un utilisateur différent, on ne peut pas séparer la variabilité individuelle (sévérité différente, habileté inégale à poser de bonnes requêtes, etc.) de la variabilité due au thème. Il faudrait une dizaine d'utilisateurs par thème au moins, ce qui dépasse un peu mes possibilités.

Voici les résultats bruts (moyenne de la note par thème), mais j'hésiterais vraiment à conclure quoi que ce soit. Tout au plus une vague indication de tendance:

sports 3,1
divertissements 2,6
personnages 2,5
voyages 2,4
animaux 2,1
litterature 1,8
actualites 1,8
musique 1,8
histoire 1,6
sante 1,6
surnaturel 1,5
cinema 1,5
nature 0,9
politique 0,8

23 février, 2006 13:08  
Blogger Jérôme Charron a écrit...

Quelques commentaires rapides ... http://motrech.blogspot.com/2006/02/search-engine-for-dummies.html.

Beau boulot Jean, et merci à tes étudiants également.

23 février, 2006 13:17  
Anonymous arno. a écrit...

Bonjour,
je lis :
Ont été considérés comme commerciaux les liens figurant parmi les liens normaux, non
marqués comme sponsorisés, renvoyant vers les sites proposant des achats ou transactions
en ligne.

Je me pose la question de savoir si cette définition n'est pas un peu trop rigide. Comment avez-vous classé par exemple, les sites amateurs qui ont un bouton paypal pour payer leurs hébergement ?
D'un autre côté, je perçois le site d'une entreprise comme un site commercial. Même si elle ne vend rien sur son site, et qu'il sert seulement de vitrine.
À part ça, l'étude est vraiment très intéressante. Merci beaucoup de l'avoir mise en ligne.

23 février, 2006 13:51  
Anonymous Yazerty a écrit...

Intéressante étude. Et la réflexion de Philippe est extrêmement intéressante ! Les moteurs ne sont peut-être pas les seuls "fautifs" de leurs résultats : y-a-t-il seulement des pages sur internet qui correspondraient mieux à la requête qui leur est soumise... ?

ps : relier les points du graphique entre eux signifie, mahtématiquement parlant, qu'il y a une relation mathématique entre ces différents moteurs, ce qui n'est pas le cas. Petite erreur ou vision différente ?

23 février, 2006 14:02  
Anonymous hermes a écrit...

Tres interessant!

Je ne sais pas si tu l'avais deja vu, mais une etude sur la pertinence des moteurs principaux a ete faite l'ete dernier, avec un protocole assez similaire mais dont la participation etait ouverte a tous.

http://www.rustybrick.com/search-engine-challenge.php

Les resultats on aussi l'air a peu pres similaires : http://www.rustybrick.com/rustysearch-results.php

23 février, 2006 14:53  
Anonymous hermes a écrit...

a propos de la pertinence par theme, il faudrait faire le rapprochement avec les 'infospheres' les plus spammees/optimisees.
bien sur, une page cloakee peut pointer vers un site pertinent, mais connaitre l'etat general du webspam sur un theme donne
pourrait apporter un plus a ce genre d'etudes.
Exemple : "Cloaking and Redirection: A Preliminary Study"
www.ra.ethz.ch/CDstore/www2005-ws/workshop/wf06/wu.pdf

Dans cette etude, B.Wu et B.Davison se concentrent sur les redirections et le cloaking. Parmis les angles d'approches, ils
ont aussi repartis leurs repartis leur resultats par theme, pour determiner quels sujets etaient plus exposes au cloaking
et autre sneaky redirections :

"Since we retrieved top 10 hot queries from each of 16 categories from AOL, we can consider the topic of the cloaking pages.
Intuitively some popular categories, such as sports or computers, may contain more cloaking pages in the top ranking list.
So we also calculated the fraction of cloaking pages within each category. The results are shown in Figure 7. Some categories,
such as Shopping and Sports, are more likely to have cloaked results than other categories."

Je ne sais pas si ca confirme ou infirme tes propres resultats (vu que le theme qui semble donner les resultats les plus pertinents
dans ton etude est le sport, ca n'a pas l'air de coller), sachant que cela n'est qu'une technique de spamdexing, que la consequence
sur la pertinance n'est pas evidente (long debat en perspective...), que cette etude a deja un an, et qu'elle semble etre exclusivement
faite sur le web anglophone.

Enfin bon, ca peut etre utile, qui sait..

23 février, 2006 15:17  
Anonymous Vincent a écrit...

Bravo pour votre travail.
rien dans cette étude ne permet d’expliquer la préférence massive des internautes pour le moteur Google, puisque, globalement Google et Yahoo ont des performances à peu près équivalentes
Deux pistes...
1. Une piste déjà évoquée dans les commentaires. Pour un francophone "google" c'est un moteur de recherche avant tout, et l'adresse est simplement "google.fr", le reste vient apès. Pour Yahoo, yahoo.fr c'est un site surchargé. Pour trouver la page du moteur de recherche seul, il faut fouiller et "fr.search.yahoo.com" c'est pas vraiment mnémotéchnique.

2. L'antériorité, l'avantage au service. J'ai découvert google à l'université il y a quelques années, à l'époque c'était le seul à être si efficace et dépouillé, j'ai conseillé et répandu google autour de mois. Je n'étais pas le seul et beaucoup de gens ont joué le rôle de "commerciaux" involontaires pour google. Les habitudes prises ont la vie dure, c'est une histoire récurrente de la technologie et des "standards" de faits, parmis les exemples on peut citer le pal/secam, windows et MSoffice...
Ce n'est pas aussi difficile de changer de moteurs de recherche que d'OS ou de carburant pour la chaudière, certes. Mais google est installé et possède une image de marque qu'il entretient. Enfin l'impression et les a priori compte souvent autant que la "réalité" mesurée...
À propos de l'installation de google, on peut citer les mots et expressions dérivés :
verbe : googler vs yahooiser
expression "google est ton ami" vs "yahoo est ton ami"
pour comparer : http://www.googlefight.com :)

23 février, 2006 15:24  
Anonymous Aurélien a écrit...

Moi je constate une chose sur mon blog.

Les mots que les gens tapent dans google avant de finir chez moi ont le plus souvent un vrai rapport avec mon blog.

La pluspart de mes visites qui viennent de yahoo ont peu de rapport avec mon blog ou concerne des mots clés surlesquels je suis anormalement bien classé dans yahoo.

23 février, 2006 17:16  
Blogger Jean Véronis a écrit...

Jerôme> Merci pour cette réaction très intéressante (et super rapide!). Mystère: pourquoi est-ce que ton blog ne sort pas dans les trackbacks (alors qu'il est sur Blogger aussi)?

23 février, 2006 17:21  
Blogger jencris a écrit...

Pour ma part et sans doute comme pas mal d'autres utilisatuers, je vais d'abord sur Google - et maintenant sur Dir.com- pour la page d'accueil simple et efficace, ce qui n'est pas le cas des autres.

23 février, 2006 17:22  
Blogger Jean Véronis a écrit...

Arno> (définition des liens commerciaux) : c'est évidemement extrêmement difficile... Pour ne pas laisser trop de place à la subjectivité (encore que...) la définition était volontairement restrictive: le document au bout du lien proposait une transaction. Il est certain que plus de documents ont un caractère "commercial", donc le pourcentage donné est un peu une borne inférieure. Ce qui était important c'était d'avoir un critère stable, même s'il était un peu restrictif, car appliqué de la même façon à tous le smoteurs, il permet de les comparer.

23 février, 2006 17:25  
Blogger Jean Véronis a écrit...

Hermes> Oui, je connais l'expérience Rustybrick, mais il me semble un peu fumeuse du point de vue méthodologique. Par exemple, la langue n'est pas maîtrisée: les utilisateurs tapent une requête dans n'importe quelle langue, mais les moteurs restent réglés sur "web" (et accèdent probablement la version US (il y a de grosses différences de classement entre google.com et google.fr par exemple). D'autre part, je crois qu'il doit y avoir d'importants bais: pour l'avoir testé il me semble qu'on a tendance à cliquer sur les liens que l'on comprend, donc qui sont bons; En tous cas, l'idée est bonne, et l'interface très intéressante. Ca permet de juger aussi de l'influence du résumé et du titre (plusieurs commentaires ont souligné leur importance).

23 février, 2006 17:36  
Anonymous airyn a écrit...

Ah, je suis dégoûté !
J'ai essayé de créer une liste de tous les "anti-mots-clefs" (les mots qui n'ont aucun intérêt dans un index - genre les articles ou les pronoms) et elle est disponible librement sur votre site sous le nom de "stoplist".
Votre recensement a l'air plus complet que le mien, je vais prendre votre liste ! En vous remerciant !

23 février, 2006 17:57  
Blogger Jean Véronis a écrit...

Airyn> (liste) c'est fait pour servir!

23 février, 2006 21:06  
Anonymous Emmanuel Barthe a écrit...

Chapeau bas ! Mes petits "tests" -- ici et surtout (voir en bas de la page) -- de juriste documentaliste peuvent aller se rhabiller :-) Chez vous, c'est nettement plus sérieux. Et évidemment, mon champion G. en prend encore plein dans la poire face au prétendant Y. :-)

Et pourtant ... Je fais chaque jour des recherches en droit français sur Google et parfois je compare avec Yahoo. Et dans ma pratique -- limitée à ce domaine juridique certes --, même très récente, je constate que Google.fr reste légèrement plus pertinent -- disons de 5 à 10% selon moi si on se base sur les 10 premiers résultats -- que Yahoo.fr.

Mais si vous utilisez une ferme de serveurs Google qui est déjà passée sur BigDaddy (http://66.249.93.104/ par exemple), la différence est beaucoup plus nette : j'estime, toujours selon mes tests dans le domaine du droit français qu'on passe à 40% plus pertinent pour Google ...

Un exemple avec la requête
télévision abus de position dominante, une quetion sur laquelle Yahoo sort 0 zéro résultat pertinent (ici, un résultat pertinent est une page web où on parle d'un litige mettant en cause des chaînes ou des programmes de télévision pour des questions de concurrence), Google standard 1 résultat pertinent (l'arrêt du Conseil de la concurrence) et BigDaddy 4 résultats pertinents (les 4 premiers) :
- Google.fr standard
- Google BigDaddy
- Yahoo.
(NB : Parfois, Google.fr standard sort les mêmes résultats que BigDaddy. Des webmestres ont déjà signalé ce phénomène. A terme (mars 2006 d'après Matt Cuts), ils seront identiques ou très proches.)

C'est un avis personnel de praticien de la recherche, cependant. Mes questions sont souvent plus complexes et mes requêtes sont souvent -- mais pas toujours -- plus travaillées que celles que votre étude cite.

Alors ? Est ce que mes constatations me trompent parce que partielles ou bien sont elles juste justement parce que partielles ? En clair, la pertinence de Google serait meilleure que celle de Yahoo sur les sujets techniqus/scientifiques/professionnels et égale sur les sujets plus grand public. C'est l'impression plus ou moins nette que j'ai. Ce qui n'empêche pas que sur des recherches difficiles, j'utilise aussi Yahoo. Vu que, comme vous le montrez, les résultats de ces deux poids lourds ne se recoupent que pour 25%, on pourrait -- on devrait, même -- les interroger ensemble plus souvent.

Votre sentiment ?

23 février, 2006 22:44  
Blogger Loran Bernardi a écrit...

Merci!

Une remarque concernant le changement d'habitude (google vs Yahoo par exemple)
Je n'arrive pas a utiliser autre chose que google comme moteur "classique".
Je pense a la lecture de votre etude que la pertinence equivalente, voire inferieure des resultats ailleurs en est peut etre la raison.

En revanche, j'ai de plus en plus tendance a chercher ailleurs en premiere recherche (les gros index restent indispensables pour les recherches plus fines).

J'utilise de plus en plus le search de del.icio.us (si je veux connaitre les incontournables d'un sujet inconnus), technorati/feedster (pour le buzz et l'actualite), et aussi wikipedia (pour decortiquer une idee/notion) directement a partir de la barre de search de Firefox.

Bonne journée.

24 février, 2006 11:21  
Blogger Natalie Bissonnette, bibliothécaire a écrit...

Félicitations! Vous avez entrepris une démarche à laquelle plusieurs pensaient, mais n'osaient entreprendre...
Nous sommes dépendants et même à la remorque de ces outils de travail, malgré leurs imperfections. Je me dis souvent: à quand l'indexation des sites par de véritables spécialistes des sciences de l'information?

24 février, 2006 15:21  
Anonymous hermes a écrit...

Natalie:

Natalie Bissonnette :

Connaissez vous le LII - Librarian's Internet Index ?
C'est un annuaire mis a jour par des bibliothecaires, qui est 'respecte' et a une certaine anciennete maintenant ( http://web.archive.org/web/*/http://lii.org )

L'adresse: http://lii.org

Sur certains sujets, il vaut mieux passer par le LII que par l'ODP, surtout depuis les derniers 'scandales' concernant les
editeurs de l'ODP..

Mais peut etre que dans votre commentaire vous faisiez allusion a un moteur de recherche, et non pas a un annuaire ?

En tout cas, un projet du type LII en francais, je vote pour !

24 février, 2006 17:46  
Anonymous JM Salaun a écrit...

Merci pour, une nouvelle fois, ce joli travail.

Petite remarque sur la notion de pertinence qui est par nature relative. Ici elle parait relative au jugement des usagers sur leur satisfaction. On peut donc en conclure que, par rapport à ce qu'ils considèrent comme un idéal, les résultats ne sont pas fameux et qu'il y a encore du travail intéressant pour les experts en linguistique.

Mais cet idéal est-il l'étalon le plus pertinent ? En fait, dans la pratique, les usagers ne réagissent pas par rapport à un idéal déclaré, mais un optimum implicite : c'est à dire le moins mauvais résultat divisé par l'énergie (en temps, en cognition..) dépensée. On appelle cela l'économie de l'attention. Pour le dire autrement, le moteur n'a besoin que d'être modérement pertinent pour être utile.

Il est bien délicat de mesurer cet optimum. Néanmoins, on peut se demander si les résultats trouvés ne placent pas les moteurs très haut, au-dessus d'autres moyens de recherche ou d'accès : bibliothèques ou médias. Et dès lors, s'il est économiquement rentable pour un moteur d'affiner une pertinence qui n'accroitra pas nécessairement sa fréquentation. Mais c'est moins valorisant pour les linguistes..

Quoi qu'il en soit, vos travaux montrent une nouvelle fois combien nous aurions besoin d'un organisme pour mesurer tout cela. Je le répète chaque fois.. peut-être qu'un jour je serai entendu ;-)

24 février, 2006 19:07  
Anonymous Brig Otton a écrit...

Notre traditionnel Anti GG se manifeste...

In cauda venum!

Mais pourquoi pas Google ?
GG était là avant Yahoo, et malgré les campagnes de publicités et une pertinence équivalente, ça me parait logique que les utilisateurs préfèrent Google...

24 février, 2006 19:45  
Blogger Jean Véronis a écrit...

Yazerty> relier les points du graphique entre eux signifie, mahtématiquement parlant, qu'il y a une relation mathématique entre ces différents moteurs, ce qui n'est pas le cas. Petite erreur ou vision différente ? -- Il me semble qu'il est assez commun de relier les points dans des séries de moyennes lorsqu'elles sont classées dans un ordre particulier (chronologique, par exemple, ou par valeur décroissante, comme ici). C'est le même principe que les polygones de fréquences qu'on applique dans le cas d'effetifs (et également sur des variable nominales). La relation qui est en fait visualisée est une relation entre le rang du moteur et sa note moyenne. Donc, je revendique. Merci de la remarque!

27 février, 2006 08:25  
Anonymous activeille a écrit...

Ce travail est vraiment intéressant et susceptible d'interpeller les utilisateurs de base.
J'y ajoute quelques commentaires en rapport avec le monde de l'entreprise.

27 février, 2006 09:31  
Anonymous Baleydier Laurent a écrit...

Il n'y a pas forcément de lien entre la qualité et le succès, il n'y a qu'à écouter certains tubes à la radio pour s'en rendre compte, c'est une histoire de marketing viral ou non. Google est simple et encore parmi les plus pertinents donc indétronable. Surtout par YahOO qui traine son image de roi déchu. Je me demande d'ailleurs si YahOO ne devrait pas lancer avec son algo actuel un moteur avec un autre nom et quelques innovations au niveau de l'interface.

27 février, 2006 11:00  
Anonymous Bolzano a écrit...

La notion de "pollution" de la pertinence évolue: il y a eu le temps des sites pornos, celui des sites commerciaux perdure, mais arrive aussi celui des partis politiques.
A trop vouloir faire du chiffre d'affaires, les moteurs en perdent de vue leur objectif: la pertinence pour l'utilisateur, qui fera qu'ils seront utilisés ou non. Google a longtemps été le meilleur en pertinence, les utilisateurs avertis l'ont dit aux autres qui l'ont cru, mais Fiat ne lutte-t-il pas encore avec ses pubs contre l'image qu'il avait dans les avis éclairés des spécialistes de l'auto des années 60-70?
Exemple de pollution de la pertinence:
- cherchons pour discuter de nos passions "forum voile" et "forum natation": dans les deux cas eBay me propose en lien commercial "Achat ou vente Voile", et même "Achat ou vente Natation", choix énorme, inscription gratuite!
Le lien commercial est pollueur et non pertinent; par contre le lien commercial d'un livre ou d'un film sur l'apprentissage de la voile ou de la natation serait lui pertinent et m'aiderait dans ma recherche, mais il n'est pas là!
- une fois sur un site d'actualités de voile ou de natation, les AdSense arrivent: des stages de natation, des boutiques de sport, des vols secs pour l'Australie quand l'article parle des championnats de Melbourne, bien vu, mais "Le débat avec N. Sarkozy" sur ump.org qui tourne 1 fois sur 3, ça m'énerve: pollution inutile car aucun mot dans les articles ni dans le thème du site n'a de coloration politique
La situation devient grave du point de vue de la pertinence sur des mots très concurrentiels même s'ils sont techniques: impossible de rechercher une référence d'appareil pour en avoir les caractéristiques sans passer par des pages et des pages de prix et vendeurs en ligne: le site du constructeur ou la fiche technique sont enterrés dans le bac à sable, alors qu'ils devraient être en tête.
Donc un bon algorithme de pertinence doit éliminer correctement les pollutions, refuser les pollutions non pertinentes (par exemples les catégories pornographique, politique ou commerciale) même par des mots-clés payants et faire sortir "le bon grain de l'ivraie" en faisant remonter la pertinence quand la page est d'une source ayant autorité sur le sujet: "walkman sony" devrait me donner l'historique et les gammes du constructeur avant Kelkoo
C'est ce que font certains moteurs comme Mozbot ou les filtres avancés de google, mais taper systémtiquement "-prix" est contraire à l'esprit de Google: je ne devrais avoir les sites de comparaison de prix qu'en tapant "prix walkman" ou "prix voyage canada"; c'est la contre-pertinence ou pertinence "forcée" qui l'emporte: google a cru que je ne m'intéressais qu'au prix alors que ce n'était pas dans ma requête

27 février, 2006 18:47  
Anonymous blop a écrit...

Bonjour,
j'ai lu votre etude. Elle me parait pertinente pour ce qui est de la comparaison des moteurs de recherche entre eux. Par contre, les conclusions sur la "pertinence" me paraissent erronees ou, pour le moins, tres exagerees. En effet, la satisfaction est notee de 0 a 5 de maniere totalement arbitraire par les utilisateurs. Cet arbitraire est le meme pour tous les moteurs donc leur comparaison est valide. Mais affirmer que les moteurs de recherches sont mediocres c'est aller un peu vite en besogne.
J'ai, a titre d'exemple, essaye votre premiere requete ("abbe pierre" celibat pretres) sur Google. Resultat : les 10 sites renvoyes me paraissent parfaitement pertinents ! Peut-etre que votre etudiant cherchait les propos exacts de l'abbe Pierre sur le celibat des pretres, auquel cas il a certainement ete decu. Mais peut-etre cherchait-il la date de parution de son livre, ou un extrait video d'ONPP, ou... Un moteur de recherche ne peut pas deviner ce genre de choses*.
Vous pourriez faire ce test simple pour un moteur de recherche (disons google): demander a 10 etudiants une requete, demander a chaque etudiant d'evaluer la pertinence des reponses de google pour sa propre requete (A), puis demander a chaque etudiant d'evaluer la pertinence des reponses de google pour les autres requetes (B), enfin demander a un autre groupe d'etudiants d'evaluer la pertinence de toutes ces reponses par rapport a un certain nombre de criteres qu'ils auraient eux-meme defini auparavant (C).
La moyenne de B ou de C vous donnerait une idee de la pertinence des moteurs. La difference entre les moyenne de (A+B) et de A vous permetrait de mesurer la pertinence des requetes !


*Quoiqu'on puisse imaginer cela dans un futur proche: si un utilisateur s'identifiait aupres d'un moteur de recherche et notait la pertinence des liens retournes, un algorithme baysien permettrait a un moteur de recherche, apres un certain temps, de "deviner" les preferences de l'utilisateur.

28 février, 2006 14:41  
Anonymous Anonyme a écrit...

Juste pour dire que traiter la candidature de Dieudonné de "farfelue" et l'exclure de l'étude n'est ni scientifique, ni démocratique. C'est mépriser environ 90% de l'opinion de la population noire française, plus un nombre non négligeable de française qui n'ont guère goûté l'incroyable campagne de haine dont il a fait l'objet. Rappelons aussi que 30 procès ont été lancés contre lui, notamment par des associations juives et anti-racistes pour son sketch soi-disant antisémite et que les 30 cours de justice (y compris en appel et en cassation) ne l'ont pas condamné. Alors soit la justice est totalement corrompue et antisémite soit il y a un petit problème chez tous ceux qui excluent d'office Dieudonné du débat public comme si c'était un monstre.
Il aurait été intéressant de voir ce que donne l'étude de webatisation avec ce candidat qui en vaut bien d'autres puisque on prédit qu'il peut éventuellement recueillir jusqu'à 5% des votes réels à l'élection présidentielle.

01 mars, 2006 17:48  
Blogger Jean Véronis a écrit...

Bolzano> Vous soulevez un point capital (la pertinence des liens commerciaux). D'une part, comme vous le dites, ils peuvent être pertinents (livres, etc.), d'autre part, pour l'instant on ne connaît pas d'autre modèle économique qui permettrait à un moteur d'exister. Le problème est que les associations sont la plupart du temps très mauvaises. Les moteurs en sont conscients; google a d'ailleurs créé un métier de "maximizer" pour, comme son nom l'indique, essayer de maximiser la rentabilité des annonces côté annonceur et évidement côté moteur.

Il y a, bien sûr, un énorme problème technologique (qui relève de l'analyse du langage!). Je crois que le premier moteur qui réussira à franchir ce fossé se taillera d'un coup la part du lion sur le marché.

01 mars, 2006 21:16  
Blogger Jean Véronis a écrit...

Blop> vous avez raison. La notion de "pertinence" peut recouvrir des tas de choses. ce qui est pertinent pour moi ne l'est peut-être pas pour vous, et ce qui est pertinent pour moi à un moment t1 ne l'est peut-être pas à un moment t2. C'est pour cela que je parle de "pertinence perçue", par un utilisateur en fonction de la requête qu'il a en tête à un moment précis. On pourrait tout à fait faire ce que vous dites (sauf que c'est coûteux!). Mais je me demande si on ne ferait pas que reporter le problème: finalement, tout finit par être pertinenet pour quelqu'un dans un contexte donné. Exemple: je cherchais il y a quelques jours les sites qui m'avait spammé, c'est-à-dire qui utilisaient "veronis" dans du pseudo-texte de remplissage. Donc à ce moment-là, des pages qui n'ont pas d'intérêt direct sur cette requête pour 99.999% des gens dont devenues hautement pertinentes pour moi! Sacré problème que vous soulevez!

Je crois qu'une piste pour les moteurs est de ne pas retourner tout en vrac, mais de faire des propositions par catégorie: livres, voyages, encyclopédie, etc. Il y a déjà des essais dans ce sens comme Seekport.

Au demeurant, n'est-ce pas ce que nous commençons à faire, je m'aperçois que je me sers de plus en plus de moteurs spécifiques (et de moins en moins de Google/Yahoo): quand je veux une info encyclopédique je cherche directement dans Wikipédia, quand je veux une actualité, je cherche dans Yahoo News, quand je veux acheter quelque chose dans Alapage, etc.

Le moteur qui fédèrera tout ça dans une interface ergonomique touchera le jackpot. En France, il y en a un qui pourrait, s'il le voulait... ;-)

01 mars, 2006 21:27  
Anonymous thierry a écrit...

Bonjour,

Je suis désolé de vous faire part, encore une fois, de mon mécontentement. A quoi rime de faire une étude pour aboutir à ce que tout le monde connait ? Bon je sais, vous pouvez dire, mon étude a le mérite de démontrer scientifiquement ce que nous savions tous... Est-ce que vous êtes payer pour ça ?

04 mars, 2006 10:37  
Blogger Guide Webmaster a écrit...

Merci pour cette étude intéressante.
Je pense que le moteur qui parviendra à personnaliser les résultats en fonction des préférences et de l'historique des recherches et de la navigation de chaque utilisateur arrivera à les satisfaire.
Un résultat individualisé pour chaque utilisateur ne me semble plus une utopie aujourd'hui.

07 mars, 2006 13:18  
Anonymous makulele a écrit...

je souhaite ajouter une petite nuance à propos de la qualité des moteurs. On parle bien ici de pertinence de résultats. toutefois comme vous le soulignez dans l'article "Nuages: D'un CPE à l'autre...", le temps joue une influence sur la qualité des réponses à donner. Or, quand on réalise un site internet et qu'on s'amuse à le référencer, on s'aperçoit qu'un seul moteur(et pourtant il n'est pas que mon ami...) indexe les pages en masse sur une durée d'un mois: google. Pour les autres moteurs, c'est catastrophique en général. grâce à lui par exemple, mon dernier site personnel est déjà visité.

18 mars, 2006 20:38  
Anonymous pierre a écrit...

Efectivement il y a une sérieuse dégradation de la pertinence de la recherche, les résultats font apparaitre surtout les liens commerciaux à partir d'un mot de recherche, pour y échapper, je suis pour ma part obliger d'utiliser plusieur mots pour la recherche et les fermer par ce signe "...".

Je pense que les moteurs devront évoluer et créant une catégorie pour les sites commerciaux distincte de la recherche d'informations (pure et dure), mais est-ce dans leur intérêt ?

27 avril, 2006 16:43  
Blogger eric a écrit...

si google est le plus complet, c'est qu'il est le meilleur!!

09 août, 2006 13:39  
Anonymous albert le vert a écrit...

Il n'y a qu'un véritable source donnant des résultats satisfaisants en matière de pertinence, c'est le trop peu utilisé DMOZ ODP, qui est un produit fait main, et qui est pompé mais mal pompé c'est le comble par les grands moteurs de recherche

12 octobre, 2006 17:49  
Anonymous Anonyme a écrit...

l'étude n'est plus a jour!
aujourd'hui, Google est de plus en plus puissant. Le moteur Yahoo est en train de mourrir.
Viva la révolution google :-)

20 octobre, 2006 15:35  
Anonymous astrozygote a écrit...

Bonjour, existe t'il une traduction en anglais de votre étude ?
Je serais très interessé pour pouvoir la diffuser.
Cordialement,

13 novembre, 2006 12:03  
Blogger Jean Véronis a écrit...

Oui, cliquez sur le drapeau anglais en haut à droite.

13 novembre, 2006 12:08  
Anonymous Thibault a écrit...

Et aujourd'hui... toujours ex-aequo!?? ;)

08 mai, 2008 22:40  

Enregistrer un commentaire

mercredi, février 22, 2006

Text: Books of the Word


To little Elias, born of two cultures
at a time when the world is quite strange ...

It’s only a coincidence, of course, but in these times of growing intolerance and fanaticism, the latest exhibition at the Bibliothèque Nationale de France (BnF) "Books of the Word: Torah, Bible, Koran" serves as a strong reminder of everything that we share, often without realising - whether we be Jewish, Christian, Muslim or atheist. We are all sons and daughters of the Book, with or without a capital B.


In this dark little room where the manuscripts shine like bright lights, the emotion is intense, but for those who aren’t lucky enough to be able to make it to Paris, the BnF has put a magnificent virtual exhibition online that presents the majority of the documents on display. I may be critical at times [fr], but in this case, I must admit that this is an excellent piece of work.

One of the documents that most struck me is this representation of the Virgin and Child taken from a Persian manuscript dating from the 16th century.


The prophets are marked out by the ring of golden flames around their heads (Islam hasn’t always rejected the representation of the prophets: the exhibition at the BnF even shows us some very beautiful representations of Mohammed). I imagine that most people know that Jesus (‘Issa), son of Mary (Maryam) is one of the prophets of Islam. I can’t help myself: my work means I have a compulsion to count everything. Who would suspect that Jesus is mentioned 28 times in the Koran? Mary is mentioned 34 times, more than in the Christian scriptures (19 times, in both the Gospel and the Acts put together). Abraham (Ibrahim) and Moses (Musa) are there too, 70 and 162 times respectively. Aaron (Harun), David (Dawud), Elijah (Ilyas), Elisha (Yash’a), Isaac (‘Ishaq), Jacob (Yaqub), Job (Ayyub), Jonah (Yunus), Noah (Nuh), Solomon (Sulaiman) and Zachary (Zakariyya) also put in an appearance, along with many others …

But let’s return to the BnF. I was moved by the fragments of the Epistles of Paul in Arabic from the 9th and 10th centuries, and by a Pentateuch in Arabic from the 16th century, used by Jews in Egypt. These are beautiful symbols that show the secular mix of cultures around the Mediterranean.

I’m not going to take you through the whole exhibition: go and see for yourself, it’s worth a visit. I’ll just end by mentioning that the room (surprisingly lacking in security measures) contains what I believe to be the first caricature of the Prophet Mohammed.


This manuscript (which is truly tiny: I’d seen it in a photograph, but was surprised when I saw its real size) is the first translation into Latin of the Koran, carried out around 1140 on the orders of Peter the Venerable, abbot of Cluny. This is no ecumenical work; it was translated with the aim of understanding Islam in order to fight it. Mohammed is mentioned as the “pseudo-prophet” and represented on this page with a fish tail and feathers on his body. Hardly a fine example of tolerance. And I believe matters were even taken a bit further not long afterwards; the second crusade began in 1147. So we too know all about fanaticism (and indeed we still do): yet another point we have in common.

1 Commentaires:

Blogger justin barker a écrit...

Great! Thank you very much for translating this one.

25 février, 2006 19:03  

Enregistrer un commentaire

dimanche, février 19, 2006

Texte: Livres de Parole


Au petit Elias, né de deux cultures
à un moment où le monde est bien étrange...

Ce n’est qu’une coïncidence, évidemment, mais en ces temps d’intolérance et de fanatisme croissants, la dernière exposition de la BnF « Livres de Parole : Torah, Bible, Coran » vient nous rappeler fort à propos tout ce que nous partageons, sans toujours le comprendre, que nous soyons Juif, Chrétien, Musulman ou athée. Nous sommes tous des enfants du Livre, avec grand ou petit L.


Dans cette salle obscure où les manuscrits brillent comme de petites lumières, l’émotion est intense, mais pour ceux qui n’ont pas l’occasion d’aller à Paris, la BnF a mis en ligne une magnifique exposition virtuelle, qui présente la plupart des documents exposés. Je critique parfois un peu, mais là, je reconnais que le travail est superbe.

L’un des documents qui m’a le plus frappé est cette représentation de la Vierge à l’Enfant extraite d’un manuscrit persan du XVIème siècle :


Le nimbe de flammes d'or autour de la tête distingue les prophètes (l’Islam n’a pas toujours rejeté la représentation des prophètes : l’exposition de la BnF nous montre même de très belles représentations de Muhammad). J’imagine que la plupart des gens savent que Jésus (‘Issa), fils de Marie (Maryam) fait partie des prophètes de l’Islam (?). Je ne peux pas m’empêcher de faire de petits comptages : c’est de la déformation professionnelle. Qui soupçonne que Jésus est mentionné 28 fois dans le Coran ? Marie est mentionnée 34 fois, plus que dans les Ecritures chrétiennes (19 fois, Evangiles et Actes confondus). Abraham (Ibrahim) et Moïse (Musa) y sont aussi, respectivement 70 et 162 fois. Figurent aussi Aaron (Harun), David (Dawud), Elie (Ilyas), Elisée (Yash’a), Isaac (‘Ishaq), Jacob (Yaqub), Job (Ayyub), Jonas (Yunus), Noé (Nuh), Salomon (Sulaiman), Zacharie (Zakariyya), et bien d’autres…

Mais revenons à la BnF. J’ai été ému par des fragments des Epîtres de Paul en langue arabe des IXème ou Xème siècles, par un Pentateuque en arabe du XVIè siècle, utilisé par les Juifs d'Egypte. De beaux symboles, qui montrent le mélange séculaire des cultures autour de la Méditerranée.

Je ne vais pas refaire l’exposition : allez voir par vous-même, cela vaut la peine. Je mentionne simplement pour finir que la salle (étonnamment dépourvue de mesures de sécurité renforcées) contient ce qui à ma connaissance est la première caricature du Prophète Muhammad :


Ce manuscrit (tout petit : je le connaissais en photographie, mais j’ai été surpris en voyant sa vraie taille) est la première traduction en latin du Coran, commanditée vers 1140 par Pierre le Vénérable, abbé de Cluny. Il ne s’agissait pas de faire œuvre œcuménique, mais de comprendre l’Islam pour le combattre. Muhammad y est mentionné comme le « pseudo-prophète », et il est représenté sur cette page avec une queue de poisson et des plumes sur le corps. Pas vraiment un exemple de tolérance. Et je crois même qu’on est allé un peu leur chercher querelle sur place peu de temps après, aux musulmans. La deuxième croisade a commencé en 1147. Alors, le fanatisme, hélas, on connaît nous aussi (et ça n’est pas vraiment fini) : encore une chose qu’on partage.

13 Commentaires:

Anonymous Trasimarque a écrit...

Le lien "pas vraiment fini" est certainement intéressant, hélas il conduit à une page 404 de blogger.

19 février, 2006 22:06  
Anonymous deborah a écrit...

love reading your blog ..... à propos le Coran, Bible etc

voici un petit extrait copié du TLS (Times Literary Supplement) du 2 décembre 2005 écrit par William Boyd (qui vit en France et moi aussi, quel bonheur)
ce numéro a le titre 'Books of the Year'

In this era of warring religions, with Almighty God being invoked as the key ally by all sides, it was with gratitude and relief that I read MIchel Onfray's Traité d'athéologie (Grasset). It is both a passionate and coolly reasoned advocacy of atheism, setting the positive values of secularity squarely against the three great monotheisms and their multitude of hates: "Haine de la raison et d'intelligence; haine de la liberté ... haine de la vie; haine de la sexualité, des femmes et du plaisir; haine du féminin; haine des corps, des désirs, de pulsions". Free of all pretentious obfuscation and written with great verve, wit, scholarship and all the devastating logic of the French intellectual tradition, it deserves an English translation, at the very least. A wonderful, invigorating blast of sanity delivered against the fog of high-toned mumbo-jumbo we have to endure everywhere today.

Well I thought of you Mr Véronis, great verve, wit, scholarship and devastating logic!
cheers
a fan

19 février, 2006 22:44  
Blogger NoNameNoBlame a écrit...

Une question à propos de l'expo... Où est le necronomicon ??? :)

19 février, 2006 23:21  
Blogger TOMHTML a écrit...

Excellent article Jean
J'ai appris des choses, je me coucherai moins bête ce soir :)

19 février, 2006 23:56  
Blogger all a écrit...

A noter l'universalité du nom de Moïse encore de nos jour :
Moïse nom chrétien, Moussa en arabe, Moshé en hébreu, Shlomo en yiddish.

MSH = né des eaux

20 février, 2006 09:54  
Blogger VinZ a écrit...

Ah, enfin, quelqu'un qui n'oublie pas de rajouter "et athée" après avoir cité les 3 principales religions...

A propos de Mahomet, ce lien (trouvé sur kopikol) est en effet très intéressant, par rapport à ce qu'on nous affirme aujourd'hui sur la non-représentation du prophète

20 février, 2006 12:14  
Anonymous Hubbub Hum a écrit...

Je vous conseille d'aller voir la nouvelle religion du Pastafarianisme qui utilise les mêmes moyens que les fondamentalistes chrétiens américains pour tenter de faire enseigner sa vision de la création du monde aux élèves américains ;0)
http://en.wikipedia.org/wiki/Flying_Spaghetti_Monster
http://www.venganza.org/index.htm

21 février, 2006 11:45  
Anonymous Hubbub Hum a écrit...

et la branche française du pastafarianisme :
http://homepage.mac.com/tristanmf/PASTA/

21 février, 2006 11:49  
Anonymous fuligineuse a écrit...

J'ai eu la chance de voir l'exposition "en vrai" et je confirme qu'elle est à la fois magnifique par la splendeur des ouvrages présentés et tout à fait passionnante. Je précise qu'elle continue jusqu'au 30 avril : paresseux de tout poil, vous avez encore le temps sans vous presser...

22 février, 2006 09:27  
Blogger Jean Véronis a écrit...

Vinz> Merci de le souligner. J'en profite pour signaler un excellent article de Max Gallo sur le Chevalier de La Barre dans Marianne de cette semaine. 2,5 € en kiosque.

22 février, 2006 10:50  
Blogger Vicnent 31415 a écrit...

Etrange, personne ne relève...
Qui est Elias ? Nous faudrait il adresser sans plus attendre nos plus sincères félicitations à Jean ainsi qu'à sa famille ? Ne pas oublier de demander comment va la maman ? hein ? J'suis complétement à coté de la plaque ? Comme le Chronologue ne renvoie rien...

22 février, 2006 12:06  
Blogger Jean Véronis a écrit...

Vicnent 31415> C'est un petit coucou de bienvenue à un petit ange qui vient de naître -- mais je n'y suis pour rien, je le jure. Ma petite fée à moi vient de souffler ses deux bougies...

22 février, 2006 13:00  
Anonymous épi a écrit...

Pour "rééquilibrer" en ces temps où l'on souffle sur les braises jamais éteintes du fanatisme et de l'intolérance (il faut veiller à souffler dessus de temps en temps, de peur qu'elles ne s'éteignent... ou pour détourner l'attention d'une saloperie que l'on prépare), j'aimerais, puisqu'il s'agit des "Livres", évoquer ici André Chouraqui, juif né en Afrique du Nord et qui a passé son enfance au sein des trois communautés, et les a aimées tout autant les unes que les autres. Il a traduit les trois livres.

Pour ma part, je ne connais qu'un peu sa traduction de l'héritage juif et chrétien, mais ce que j'en ai retenu, c'est qu'elle fait sur certains textes capitaux justice de certaines traductions antérieures (et même nouvelles depuis - un comble) qui faisaient - et font encore, donc - de l'humain un être fatalement soumis.

Que dire de "Dieu prend Adam et le met dans le Jardin pour le garder (lui Adam) et le servir (lui Adam)" - et non "pour qu'il le cultive et le garde", ou pire, dans une "Nouvelle" traduction, l'injonction "qu'il y travaille!"
Que dire des "Béatitudes" ou chaque verset commence par "En marche...!", et non par "Bienheureux...!".

Peut-être que si l'on voulait bien s'attacher à l'énergie positive et à l'invitation à agir debout que délivrent les textes sacrés, plutôt qu'à la manière dont on peut les utiliser pour accabler l'être humain, il y aurait moins de place pour la "concurrence assassine" entre les braillards du doute (ceux qui veulent imposer par la menace, l'invective, l'injure ou le crime leur "vérité" pour cacher leur propre doute), mais une sorte de nouvelle Andalousie, même si l'ancienne est peut-être un mythe...

Mais ce n'est peut-être pas le lieu ici...

11 avril, 2006 11:43  

Enregistrer un commentaire

mardi, février 14, 2006

Agenda: Saint-Valentin

N'oubliez pas (si vous n'avez pas compris mes messages submiminaux):


[Généré avec le Nébuloscope]

Nos amis québécois semblent plus actifs que nous sur ce coup!

7 Commentaires:

Anonymous Jeannot a écrit...

Une étude sociologique vite fait-bien fait (à la Desproges) :
Papa
Maman
Bébé
Père
Mère
Enfant

Les thèmes de la santé ou de la famille sont liés plus fréquemment à la composante féminine du ménage (maman), alors que la radio ou la "sonnerie du téléphone portable" semblent relever plus de la sphère masculine (papa). Et le bébé est lié à la maman et aux parents, mais pas vraiment au papa...

Etonnant non ?

14 février, 2006 10:34  
Anonymous Neville a écrit...

Juste une remarque en passant : un message sur la Saint-Valentin, avec cartes, amour, amoureux, cadeau ou cadeaux... suscite moins de remarques que ceux de la semaine dernière sur la pornométrie. Etonnant, non ?

14 février, 2006 14:13  
Blogger Jean Véronis a écrit...

Jeannot> Excellent! Je joue moi aussi avec des séries comme ça, j'ai même fait un petit outil qui permet d'avoir un comparatif -- si j'arrive à grapiller quelques heures sur mon sommeil (déjà bref!) il faudra que je mette ça en ligne! C'est vrai que c'est très instructif. Etonnant dans ce cas précis (maman aux fournaux, papa aux technos)? Certain(e) diraient pas trop...! ;-)

14 février, 2006 17:11  
Blogger Jean Véronis a écrit...

Neville> C'est un peu comme la remarque de Jeannot: pas trop étonnant, finalement... Ainsi va le monde.

14 février, 2006 17:25  
Anonymous Dominique a écrit...

En faisant un peu le tour des blogues, on peut constater surtout des billets hostiles à la Saint-Valentin... Tiens, un lien
http://bricablog.net/index.php/2006/02/14/819-saint-valaprout

14 février, 2006 22:26  
Blogger Jean Véronis a écrit...

Dominique> Blasphème! A quand des caricatures du Père Noêl???

J'adore, merci pour le lien!

15 février, 2006 19:52  
Anonymous Agnès a écrit...

Vous avez lu ça?

Des fissures dans la Web muraille de Chine
LEMONDE.FR | 17.02.06 | 16h08 • Mis à jour le 17.02.06 | 19h17


ne technologie développée conjointement par plusieurs laboratoires de prestigieuses universités canadienne, américaine et anglaise pourrait arriver à détourner la censure numérique qui sévit dans plusieurs pays du monde, et notamment en Chine. Ce système est en phase d'achèvement au Canada, et pourrait rendre rapidement un peu d' " e-liberté " aux quelque cent dix millions d'internautes chinois.

Suite sur

http://abonnes.lemonde.fr/web/article/0,1-0@2-651865,36-742651,0.html

17 février, 2006 21:40  

Enregistrer un commentaire

lundi, février 13, 2006

Récré: La poésie à l'index

C'est beau non?

A
AA
AAA
AAAA
AAAAA
AAAAAA
AAAAAAA
AAAAAAAA
AAAAAAAAA
AAAAAAAAAA
AAAAAAAAAAA
AAAAAAAAAAAA
AAAAAAAAAAAAA
AAAAAAAAAAAAAA
AAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAASSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAH
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAARRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRRR
AAAAAAAAAAAAAAAAAAAAAH
AAAAAAAAAAAAAAAAAAAAH
AAAAAAAAAAAAAAAAAAANS
AAAAAAAAAAAAAAAAAAH
AAAAAAAAAAAAAAAAAAHHHHHHHHHHHHHHHHH
AAAAAAAAAAAAAAAAAH
AAAAAAAAAAAAAAAAH
AAAAAAAAAAAAAAAH
AAAAAAAAAAAAAAH
AAAAAAAAAAAAAH
AAAAAAAAAAAAH
AAAAAAAAAAAH
AAAAAAAAAAH
AAAAAAAAAAHHHH
AAAAAAAAAAHHHHH
AAAAAAAAAAHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH
AAAAAAAAAAHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH
AAAAAAAAAH
AAAAAAAAAHHHH
AAAAAAAAH
AAAAAAAAHHHHHH
AAAAAAAAND
AAAAAAAH
AAAAAAAHHHHH
AAAAAAAHHHHHHH
AAAAAAAHHHHHHHH
AAAAAAAHHHHHHHHHHHHHH
AAAAAAARGHT
AAAAAAD
AAAAAAH
AAAAAAHHH
AAAAAAHHHH
AAAAAAHHHHH
AAAAAAHHHHHH
AAAAAAHHHHHHH
AAAAAAHHHHHHHH
AAAAAARGH
AAAAAH
AAAAAHHH
AAAAAHHHH
AAAAAHHHHH
AAAAAHHHHHH
AAAAAHHHHHHH
AAAAAL
AAAAARGH
AAAAEOA
AAAAH
AAAAHH
AAAAHHH
AAAAHHHH
AAAAHHHHH
AAAAMMJJ


C'est le début de l'index de Dir.com (Merci Philippe)...

16 Commentaires:

Anonymous MBt a écrit...

AAAAAAAAAAAAAAAAAAAAAA
Il manquait dans la liste pour faire joli. Y'a plus qu'à attendre que Dir.com passe dans le coin...!

Désolé!

13 février, 2006 10:35  
Anonymous Yazerty a écrit...

Rien compris. Quelqu'un peut m'expliquer ce billet svp :-?

13 février, 2006 11:32  
Anonymous airyn a écrit...

J'ai l'impression que ce sont les premières entrées du lexique ultime : le recensement de tous les mots utilisés sur le web (par exemple le français compte 336500 formes différentes - pluriels et déclinaisons verbales compris).

Il arrivera peut-être un temps où toutes les combinaisons de lettres seront prises et auront un sens... (soit 26^(~30)=2.8e42 possibilités)

13 février, 2006 13:38  
Blogger Jean Véronis a écrit...

Airyn> Oui, c'est bien ça! enfin, du moins la partie du Web (francophone) recensée par Dir. J'ai eu une surprise en ouvrant le fichier, et en voyant que ça composait une jolie poésie lettriste.

Il arrivera peut-être un temps... -- vous connaissez peut-être la Bibliothèque de Babel de Borges?

13 février, 2006 13:44  
Anonymous Sam a écrit...

Ca me dirai bien de fair un petit master 2 à aix si on apprend ca !

13 février, 2006 13:55  
Anonymous airyn a écrit...

Véronis> oui, bien sûr !
Cela me rapelle aussi la machine de la Cité Volante de Laputa dans le roman de Swift (et pas dans le dessin animé de Miyazaki!) - si mes souvenirs sont bons. Le texte est créé aléatoirement et des philosophes sélectionnent les meilleurs passages !

De quoi relativiser le génie d'une oeuvre littéraire : ce n'est qu'une combinaison de lettres parmi d'autres, et un bon tirage vaut mieux que tout le savoir du monde !! (ce n'est pas l'euromillionnaire qui me contredira) ;-D

13 février, 2006 14:15  
Blogger Vicnent 31415 a écrit...

juste deux questions :
- il fait quelle taille l'index ? (nb de lignes, taille)
- mais c'est pas zippé ????!!!!
- C'est quoi la taille du mot "moyen" ?
(bon d'accord, ça fait trois...)

13 février, 2006 14:58  
Anonymous hermes a écrit...

Apparemment, pas de pages francaises indexees par dir.com qui contiennent les extraits des monty python
et la fameuse quete du graal.

Je vois des "AAAAAARGH" et "AAAAARGH", mais pas de "Aaaaarrrrrrggghhh", qui est l'orthographe exacte du
Chateau de Aaaaarrrrrrggghhh. (mefiez vous de sa legendaire bete noire)

(preuve : http://www.google.com/search?q=%22But+if+he+was+dying+he+wouldn.t+bother+to+carve+*%22)

Pas de Graal pour les francais donc, contrairement a ce que raconte le film en question :(

13 février, 2006 15:03  
Blogger Jean Véronis a écrit...

Vicnent 31415> c'est un peu confidentiel, ça ;-)

13 février, 2006 15:21  
Anonymous Yazerty a écrit...

Mais comment sait-on qu'il s'agit des premières entrées de Dig ? En tapant "*" par exemple, on n'obtient rien. Comment obtenez-vous cela :-?

13 février, 2006 19:07  
Blogger Jean Véronis a écrit...

Yazerty> Comment obtenez-vous cela? -- Facile: j'ai eu accès à l'index. Evidemment, il n'est pas acessible pour les internautes en général.

13 février, 2006 19:07  
Blogger Jean Véronis a écrit...

ps: il y a d'autres fragments amusants:

TROOO
TROOOO
TROOOOO
TROOOOOO
TROOOOOOO
TROOOOOOOO
TROOOOOOOOO
TROOOOOOOOOO
TROOOOOOOOOOO
TROOOOOOOOOOOOOOOP
TROOOOOOOOOOOP
TROOOOOOOOOOP
TROOOOOOOOOP
TROOOOOOOOP
TROOOOOOOP
TROOOOOOP
TROOOOOP
TROOOOP
TROOOP
TROOP

C'est trop, non?

13 février, 2006 19:10  
Anonymous Yazerty a écrit...

Jean Véronis > Aaaaah d'accord :-) ! Je comprends nettement mieux maintenant :). Merci ;-).

ps : c'est vraiment très très relou ce système de commentaires...

13 février, 2006 23:00  
Blogger jencris a écrit...

je découvre avec vous un univers infini, et je me marre sans arrêt. Je me renseigne sur les formations avec vous ! J'arrête l'urbanisme pour la linguistique, et hop .

14 février, 2006 22:30  
Anonymous Agnès a écrit...

Si ça peut te rassurer jencris, tu n'es pas le seul urbaniste à lire Jean Veronis.

17 février, 2006 21:31  
Blogger Jean Véronis a écrit...

Jencris (et Agnès)> Pitié! n'arrêtez pas l'urbanisme: on n'a jamais eu autant besoin de gens qui réfléchissent à de belles villes habitables et humaines! Le langage c'est juste bon pour la tchatche, et la poésie...

17 février, 2006 22:43  

Enregistrer un commentaire

vendredi, février 10, 2006

Web: A short study in pornometry (2)


I demonstrated in my previous post how Google has a very particular vision of what it considers to be pornographic pages. Google has clearly gone from not doing enough (see here [fr]) to doing just a little too much … What’s more, the intensity of its filtering seems to differ quite considerably from one language to another. A more careful study shows that Google considers the French version of the European Constitution to be “unsafe”, but not the English version. This observation led me to compare the behaviour of several search engines when dealing with these two languages, French and English.

The search engines I used were the same as the ones looked at in the comparative study that I carried out with my students in Aix-en-Provence (see [fr] 1, 2, 3, 4, 5) and for which I will give you the final results in the coming days (if you can bear the suspense …!) I looked at the three American “giants”, Google, Yahoo! and MSN, and three French search engines, Exalead, Voilà and the highly experimental Dir.com. Where possible, I compared the behaviour of these search engines when dealing with French and English: for each of the two languages I randomly selected 150 words (making sure that none of them accidentally had sexual connotations). I calculated the percentage of pages suspected by each engine of being pornographic (searches were limited to each language). The averages can be seen in the diagram below.


This diagram tells us a lot. Most striking of all is undoubtedly the clear difference between the two languages. The search engines behave far more regularly when dealing with English (although the highest figure is still almost double the lowest). For French, however, the results run from 2% to Exalead to 10% for Google. Does this mean that certain search engines (in particular Exalead) are less effective at filtering pornographic content than others? Not necessarily. For “normal” searches such as those used in the study carried out with my students [fr], the behaviour of each engine was remarkably similar. The filter is extremely powerful for all the engines studied: in total, out of 4200 results returned, only one or two were frankly pornographic (with another handful where it’s open to debate, such as a few risqué exchanges on forums).

The other striking discovery is how a single engine may treat the two languages very differently. MSN, and especially Google, filter far more pages in French than in English. This is particularly apparent with Google, which goes from 3.5% to 10.0%. Conversely, Exalead goes from 2.0% for French to 5.6% for English. Yet I can’t see any particular difference in passing from one language to another on the same search engine.

It seems to me that the explanation for these differences is twofold. Firstly, the search engines undoubtedly go too far: since they are unable to work with the level of delicacy required (it’s difficult, I admit!), they have a tendency to overfilter, perhaps using criteria that go beyond simple lexis (as is clearly the case for the European Constitution with Google). This is a general trend, particularly with Google: under pressure from the web-surfing public, filters were put in place very quickly, and apparently, the only way to make a filter work without a particularly discriminating linguistic technology behind it is to bring out the biggest ladle you can find and skim off a lot more than just the cream. I have mentioned this type of problem before when discussing splogs (here and here).

The other part of the explanation comes from the fact that, in terms of linguistic competences, the different search engines vary considerably. I’ve already had cause to mention that Google doesn’t seem to be very good at handling languages other than English (for instance here). The results above would seem to confirm this. Conversely, we can see how Exalead, which is a French search engine, is better with French than with English. Yahoo! is more or less stable from one language to the other.

In any case, that 10% of all French pages disappear from Google when the SafeSearch filter is on seems to smack of overkill. With such a strategy, we are more or less certain not to be troubled by porn-spam, but how many perfectly legitimate sites and documents will also fall into our trap? Of course, it’s mainly sites with a low PageRank that are affected (which is undoubtedly why no-one has protested), but still …

Libellés :


2 Commentaires:

Blogger justin barker a écrit...

I probably missed it, but were the searches limited to pages in their respective languages?

Or is that a given?

15 février, 2006 17:27  
Blogger Jean Véronis a écrit...

justin barker> Yes,searches were limited to each language. I will add the info. Thanks!

15 février, 2006 17:34  

Web: A short study in pornometry (1)


In the current climate, where the trend seems to be towards making it easier to kick people out of office (see here), the administrations should make use of modern tools for the cybersurveillance of their agents. Corporations could also use them (along with graphology and astrology) as a way of deciding whether to fire their “hot” staff … Needless to say, Google – which can be used for everything – can also be used in this domain. How it works is quite simple. Type a person’s name twice in Google: once with the SafeSearch filter activated, once the SafeSearch filter deactivated (don’t forget to put the name between quotation marks) … One subtraction and one division later and voilà, you’re left with the number of pages where the individual in question is mentioned that Google considers to be pornographic! To make things even easier, a team of Jack-the-Lads have even developed a tool based on Google that does exactly that: the Slut-O-Meter.




When you encounter this kind of a tool, the first thing you usually do is type in your own name: the temptation is too strong to resist. Sadly, I’m no exception, and the results were quite clear: I’m a total perv.



Unfiltered, Google recognises a total of 607,000 pages that contain the word veronis (Google seems to have slimmed down a bit, as I was close to 2 million in September – it seems that the search engine was particularly hungry back then and would gobble up anything in sight) and only 376,000 of those pages are “safe”! In other words, nearly 62% of the pages containing my own sweet name are considered pornographic by Big Google! There aren’t too many of us Véronis out there, either, and certainly none of us are porn stars. I am in trouble, in deep trouble.

But hang on a second before you give up on me completely. These are pages that talk about me, but not necessarily pages that I wrote. Let’s look, for instance, at some other celebrities:

Celebrity%
"Rocco Siffredi"91.23
"Linda Lovelace"79.65
"Jennifer Lopez"64.24
"Britney Spears"52.89
"George Clooney"28.97
"Brad Pitt"28.80
"George W. Bush"5.93
"Jacques Chirac"3.28

Quite clearly, these people haven’t written all those pages themselves. Some of them are fantasised over by half the planet – others, a little less. I knew I had a fan club [fr], but still, to find myself up there with Britney Spears and Jennifer Lopez is all a bit much …

My first thought was that I’d been spammed. The creators of fake sites, both porn sites and others, like to stuff their pseudo-pages full of all kinds of different words and texts, in order to (try to) trick the search engines … One very common technique consists of automatically gathering the results on Google for certain relevant searches, and simply copying the results into these dummy sites being built. And since I’ve mentioned sex a couple of times [fr: 1 and 2] and that I’m even top of the list for certain risqué searches [fr], I wouldn’t be surprised if my text had been leeched in this way.

Clearly, this is what has happened … And how do I know? Just type in the word veronis along with any other dirty word (for which I’m sure you don’t need a suggestion from me, since that might get me in trouble with my boss the Minister). You’ll find page after page of porno-spam like this:

Delireecom amateur Pages similaires GRATUITewwwesexeinsexeecom films En 2005 ultra perso, decouvrez du partouzes, Pages similaires achat liensedruunaenet googles Vidéo sexe xxx, Pages similaires : avertis liens videos.
de.
sexe.
hardcoreehtml (+4) vous Pages similaires gratuit, sexe.
shop, Allopasswwwetirez.
moiecomFilles .
pour 21 annuaire sexe .
cgi.
veronis harde .

I haven’t chosen the “hottest” extracts either (I sometimes feel like there’s someone reading over my shoulder), but as you can see all of this is just rehashed Google results. The spammers haven’t even gone to the trouble of removing the famous “Similar Pages”.

So, does that explain why I’m a cyber-tart? In fact, no, it doesn’t. After carrying out some systematic searches, I discovered that Google only returns a few hundred pages of this sort containing the word veronis. The explanation lies elsewhere: despite my best intentions, I really am the author of these hundreds of thousands of disgusting pages. And here’s the proof. As you know, with Google you can limit your search to one particular site by using the keyword site:


Unfiltered


Filtered

Caught red-handed! I’ve put no fewer than 387,000 – 93,700 = 293,300 pornographic pages on the University’s server. My days are numbered …

But what are these pages, you must be wondering? Long-time readers of this blog may remember that back in April I made available a little search engine (a “concordance program”) for the European Constitution. It’s still online [here and here]. In its desperate quest for new pages with which to pump up the size of its index, Google fell into this involuntary “spider trap” I’d set, and during the summer indexed hundreds of virtual fragments of the Constitution (see here) …

What I didn’t realise was that Google obviously considered this draft Constitution a work of hardcore pornography. Certainly not something to be shown to children: some in France [fr] have even called the document obscene!




Read follow-up


Libellés :


1 Commentaires:

Blogger simple citoyen a écrit...

By the way, the Slut-o'meter has ceassed to exist...
Interesting subject for what it reveals on the intricacies of search indexes.

26 mai, 2010 14:15  

Enregistrer un commentaire

jeudi, février 09, 2006

Web: Petites études pornométriques (2)


J'ai montré dans le précédent billet que Google avait une vision bien à lui de ce que pouvaient être des pages à caractère pornographique. Google n'en faisait manifestement pas assez (voir ici). Maintenant, il semble bien qu'il en fasse un peu trop... De plus, l'intensité du filtrage semble assez différente selon les langues. Un examen un peu plus attentif montre que Google considère la version française de la Constitution Européenne comme "unsafe", mais pas la version anglaise. Cette constatation m'a incité à comparer le comportement de plusieurs moteurs sur les deux langues, français et anglais.

Les moteurs que j'ai retenus sont les mêmes que ceux qui ont servi à l'étude comparative que j'ai entreprise avec mes étudiants de la licence MASHS à Aix (voir 1, 2, 3, 4, 5) et dont je vous donnerai les résultats finaux dans les tout prochains jours (suspense...!). Il s'agit des trois "grands" américains: Google, Yahoo! et MSN, auxquels j'ai ajouté trois moteurs français, Exalead, Voilà et le très expérimental Dir.com. J'ai comparé, lorsque c'était possible, le comportement des moteurs sur le français et l'anglais: pour chacune de ces deux langues j'ai sélectionné 150 mots de façon aléatoire (en m'assurant tout de même qu'aucun n'était par accident un mot à connotation sexuelle). J'ai relevé pour chaque moteur le pourcentage de pages qui étaient suspectées de pornographie par chacun de moteurs. Les moyennes sont résumées par le diagramme ci-dessous:


Ce diagramme est plein d'enseignements. Le plus frappant est sans doute la très nette différence entre les langues. Le comportement des moteurs est beaucoup plus homogène sur l'anglais (encore qu'il varie tout de même presque du simple au double). En revanche, pour le français, les résultats vont de 2% pour Exalead à 10% pour Google. Est-ce à dire que certains moteurs (Exalead en particulier) filtrent moins bien les pages pornographiques que d'autres? C'est moins que certain: sur des requêtes "normales" comme celles qui ont été utilisées dans l'étude entreprise avec mes étudiants, tous les moteurs ont un comportement équivalent. En fait, le filtre est extrêmement performant pour tous les moteurs: au total, sur 4200 résultats retournés, seuls un ou deux sont de caractère franchement pornographique (et peut-être une petite poignée discutables, comme des échanges un peu chauds sur des forums).

L'autre point frappant est la différence de comportement pour un même moteur, lorsqu'il traite les deux langues. MSN, et surtout Google, filtrent beaucoup plus de pages en français qu'en anglais. C'est particulièrement net pour Google qui passe de 3,5% à 10,0%. A l'inverse, Exalead passe de 2,0% pour le français à 5,6% pour l'anglais. Je ne note pourtant pas de différence particulière en passant d'une langue à l'autre sur le même moteur.

L'explication de ces différences me semble être double. Tout d'abord, les moteurs en font certainement trop: ne sachant pas faire un travail très fin (c'est difficile, je le reconnais!), ils ont tendance à surfiltrer, peut-être en utilisant des critères autres que lexicaux (c'est manifestement le cas pour la Constitution Européenne avec Google). C'est une tendance générale, particulièrement chez Google: sous la pression des internautes, des filtres sont mis en place très vite, et évidemment, la seule façon de faire marcher un filtre quand on n'a pas une technologie linguistique très fine est de sortir sa plus grande louche, et d'écrémer généreusement. J'ai mentionné ce type de problème à propos du splog (ici et ici).

L'autre partie de l'explication vient du fait que les compétences linguistiques des moteurs sont très variables. J'ai déjà eu l'occasion de mentionner qu'à mon sens Google n'est pas très bon sur les langues autres que l'anglais (par exemple ici). Les résultats ci-dessus semblent le confirmer. A l'inverse, on voit qu'Exalead, moteur français, est meilleur sur le français que sur l'anglais. Yahoo! est à peu près stable d'une langue à l'autre.

En tous cas, que 10% des pages françaises disparaissent dans Google lorsque le filtre SafeSearch est activé me paraît un peu fort de café. Avec de telles stratégies, on est à peu près certain de ne plus être importuné par le porno-spam, mais combien de sites et de documents tout à fait corrects et légitimes passent-ils à la trappe? Bien sûr, ce sont principalement des sites de PageRank faible qui sont affectés (et c'est sans doute pour ça que personne ne proteste), mais tout de même...

Libellés :


6 Commentaires:

Anonymous Ludovic a écrit...

J'ai travaillé sur le filtrage pornographique sur le Web (en utilisant le texte et le texte+image), je vous fais part des constatations que j'avais eu à faire à ce moment :
* Un système de filtrage performant est aujourd'hui capable de détecter environ 92% des pages pornographiques; en contrepartie, il va bloquer de l'ordre de 3 à 5 % de pages non pornographiques (en particulier des pages dites "ambigues" : sexualite, medecine,...)
* Après des test sur une multitude de langues européennes, il apparaît qu'il n'y a que très peu de différences de performances à attendre d'un langage à l'autre, si ce n'est pour l'allemand qui est une langue dont la taille du vocabulaire est très grande.
* Enfin, les différences constatées entre les différentes langues pour les moteurs étudiées proviennent en grande partie du fait que les modèles de filtrage de ces moteurs sont loins d'être parmi les plus performants !! (cependant, les contraintes des sociétés comme Google, Yahoo, etc.. ne sont pas les mêmes que celles avec lesquelles j'ai travaillé)

Pour finir, l'utilisation des images permet de gagner quelques precieux pourcentages (en particulier pour les pages Web qui ne contiennent que des images et pas de texte !); l'autre avanatage est que les images sont quant à elles indépendantes de la lange utilisée


Cordialement,

Ludovic

P.S : A l'heure d'aujourd'hui, il est marrant de constater que les performances des moteurs de filtrage se degradent. Ceci est du aux tresors d'ingeniosite que les Webmaster de sites pornos deploient pour empecher le filtrage.

09 février, 2006 15:26  
Anonymous Dominique a écrit...

Ludovic : si ce n'est pour l'allemand qui est une langue dont la taille du vocabulaire est très grande.

Est-ce que vous pourriez expliquer parce que je ne suis pas. Le lexique de l'allemand est sans doute plus étendu que celui de l'anglais si l'on prend en compte les formes fléchies et les termes régionaux ou les graphies dialectales, mais euh... la base lexicale de l'allemand standard me semble juste un peu plus réduite que pour l'anglais et le français. Est-ce qu'une langue comme le hongrois serait aussi difficile à filtrer du fait de la multitude de formes avec des affixes qui créent encore plus de pseudo-mots qu'en anglais ?

09 février, 2006 21:28  
Anonymous Merome a écrit...

"Cette constation m'a incité à comparer"
=> constaTAtion.

Maitre Capello a parlé.

10 février, 2006 08:26  
Blogger Jean Véronis a écrit...

Merci Capello!

10 février, 2006 13:09  
Blogger Kaa a écrit...

J'aime bien l'"avanatage", ça sonne avanie...

Maître-es Capella.

Très juste remarque, Dominique. Je dirais même que le lexique de l'anglais est l'un des plus étendus.

Cela dit, les capacités d'analyse linguistique des moteurs actuels sont si pauvres (quand ils en proposent) que l'on comprend le problème.

Il va en falloir des blogs pour démontrer l'intérêt de ces technos... dur dur de faire du mou ;-)

10 février, 2006 15:44  
Blogger Jean-Marie Le Ray a écrit...

Franchement, je me demande si Google va oser filtrer ma turlutte, ce qui serait bien dommage :-)
Jean-Marie Le Ray

17 février, 2006 09:41  

Enregistrer un commentaire

mardi, février 07, 2006

Web: Petites études pornométriques (1)


En ces temps où elles ont tendance à révoquer un peu facilement (voir ici), les administrations devraient se doter d'outils modernes pour la cybersurveillance de leurs agents. Les entreprises pourraient s'en servir également (en complément à la graphologie et à l'astrologie) pour licencier les licencieux: de la débauche à la débauche, direct... Bien entendu, Google, qui sert à tout, peut aussi servir à ça. Le principe est simple: tapez le nom d'un personne dans Google deux fois: une fois avec le filtre SafeSearch activé, une fois avec le filtre SafeSearch désactivé (n'oubliez pas les guillemets)... Une soustraction et une division, et hop, vous avez le pourcentage de pages mentionnant cet(te) individu(e) que Google considère comme pornographiques! Pour rendre la chose encore plus simple, une équipe de joyeux lurons utilomanes ont même développé un outil basé sur Google et qui fait exactement ça: le Slut-O-Meter.



Sur ce genre d'outil, la première chose qu'on fait, c'est généralement taper son nom: c'est irrésistible. Je n'ai pas dérogé à la règle, et la conclusion est sans appel; je suis un gros dégueulasse:



Google connaît 607 000 pages contenant le mot véronis au total, c'est-à-dire sans le filtre (tiens, Google a dégraissé, j'ai frisé les 2 millions en septembre, mais il faut dire que le moteur était affamé), et seulement 376 000 de ces pages sont "safe"! Donc, près de 62% des pages qui contiennent mon doux nom sont considérées comme pornographiques par Big Google! Or, je n'ai pas tellement d'homonymes et en tous cas, pas parmi les actrices de film porno. Je suis mal. Très mal...

Ah oui, mais attendez avant de me révoquer, ce sont des pages qui parlent de moi, pas forcément des pages écrites par moi. Voyons par exemple d'autres célébrités:

Célébrité%
"Rocco Siffredi"91.23
"Linda Lovelace"79.65
"Jennifer Lopez"64.24
"Britney Spears"52.89
"George Clooney"28.97
"Brad Pitt"28.80
"George W. Bush"5.93
"Jacques Chirac"3.28

Il est évident que ces gens-là n'ont pas écrit toutes ces pages eux-mêmes. Certains font manifestement fantasmer la planète -- d'autres moins. Je savais que j'avais un fan club, mais tout de même, que je me retrouve quelque part entre Britney Spears et Jennifer Lopez, ça me la coupe...

Première hypothèse: je suis spammé. Les créateurs de sites bidons, porno et autres, aiment bien truffer leurs pseudo-pages de mots et textes divers et variés, de façon à (essayer de) feinter les moteurs de recherche... Une technique très répandue consiste à récupérer automatiquement les résultats de Google sur certaines recherches appropriées, et à tout bêtement copier les résultats dans les sites bidons à construire. Et comme j'ai parlé une ou deux fois de sexe [ici ou ici], et que je me classe même premier sur certaines requêtes chaudes, ça ne m'étonnerait pas que ma prose ait été vampirisée.

Évidemment, c'est le cas... Comment le savoir? Il suffit de taper veronis suivi d'un autre mot-clé bien crad (je suis sûr que vous n'avez pas besoin que je vous en suggère, ça pourrait m'attirer des ennuis avec mon Ministre). Vous tombez sur des pages de porno-spam du genre:

Delireecom amateur Pages similaires GRATUITewwwesexeinsexeecom films En 2005 ultra perso, decouvrez du partouzes, Pages similaires achat liensedruunaenet googles Vidéo sexe xxx, Pages similaires : avertis liens videos.
de.
sexe.
hardcoreehtml (+4) vous Pages similaires gratuit, sexe.
shop, Allopasswwwetirez.
moiecomFilles .
pour 21 annuaire sexe .
cgi.
veronis harde .

Je n'ai pas choisi les extraits les plus chauds (j'ai ce sentiment diffus qu'on lit par-dessus mon épaule [mise à jour 08/02: voir aussi ici]), mais vous voyez que tout ceci est du brassage de résultats de Google. Les spammeurs ne s'embarrassent même pas à enlever le célèbre "Pages similaires".

Alors, ceci expliquerait-il ma cyber-cochonceté? En fait, non; j'ai fait des recherches systématiques, et Google ne retourne pas plus de quelques centaines de pages de ce type contenant le mot veronis. L'explication est ailleurs: c'est bien moi qui suis l'auteur de ces centaines de milliers de pages abjectes, à l'insu de mon corps défendant. En voici la preuve. Vous savez que l'on peut restreindre la recherche de Google à un site particulier, avec le mot-clé site:


Sans filtre


Avec filtre

Me voilà pris la main dans la culotte le sac. J'ai donc déposé 387 000 - 93 700 = 293 300 pages pornographiques sur le serveur de l'Université. Je suis bon pour l'exil...

Mais que sont ces pages, vous demandez-vous? Vous vous souvenez peut-être, si vous êtes un vieux lecteur de ce blog, que j'ai mis en ligne au mois d'avril un petit moteur de recherche (un "concordancier") sur la Constitution Européenne. Il est toujours là. Dans sa quête désespérée de pages nouvelles pour gonfler son index, Google s'était engouffré pendant l'été dans ce véritable "spider trap" involontaire, et avait indexé des centaines de fragments virtuels de la Constitution (voir ici)...

Ce que je n'avais pas réalisé, c'est que Google considère manifestement ce projet de Constitution comme de la haute pornographie. A ne pas montrer aux enfants: certains l'avaient bien dit que ce document était obscène...





Lire la suite


30 Commentaires:

Anonymous Anonyme a écrit...

hmmm, le slut-o-meter marche curieusement

sodomie

Promiscuity: -354750.75% (-9507320000 / 2680000)
Popularity: 2

en anglais les résultats semblent plus logiques.

07 février, 2006 15:54  
Anonymous Frédéric a écrit...

ça alors, j'ai un score négatif !

07 février, 2006 15:57  
Blogger Jean Véronis a écrit...

Les scores négatifs sont dus au fait que certains mots comme celui que notre anonyme a mentionné sont éliminé de la requête lorsque le filtre est activé. En fait, Google retourne alors un nombre de résultats de l'ordre de 9,5 milliards (on ne sait pas trop pourquoi).

Donc 2,5 millions (sans filtre) - 9,5 milliards (avec filtre), ça donne un résultat négatif.

Les concepteurs auraient pu facilement prévenir le bug.

Plus amusant : ceci

07 février, 2006 16:03  
Blogger Jean Véronis a écrit...

Frédéric> C'est la première étape vers la béatification.

07 février, 2006 16:05  
Anonymous Laurent a écrit...

Mes résultats sont étranges :
gloaguen
Promiscuity: -103.81% (-300000 / 289000) [négatif !]
Popularity: 6

laurent gloaguen
Promiscuity: 13.05% (8000 / 61300)
Popularity: 5

embruns
Promiscuity: 8.23% (48000 / 583000)
Popularity: 5

Ber, je suis bien moins cochon que Véronis, étonnant, non ?

07 février, 2006 16:15  
Blogger Kaa a écrit...

Très intéressant... Je me demande si c'est le domaine qui veut ça :
NLP
Promiscuity: 55.62% (4900000 / 8810000)
Popularity: 1

Toutes les pornographies ne sont décidemment pas reconnues :
CPE
Promiscuity: 0.99% (90000 / 9120000)
Popularity: 10

07 février, 2006 16:29  
Blogger Jean Véronis a écrit...

Kaa> NLP -- ça doit être parce que les mêmes pages me citent ;-)

07 février, 2006 17:15  
Anonymous Neville a écrit...

garfieldd : à peine plus de 14 %
Galouzeau : plus de 42 %

à votre avis, lequel des deux est suspendu pendant 6 mois ferme,après avoir failli être révoqué ?

J'ai quand même l'impression que cet outil est un peu approximatif : viol moins de 9%.


Neville

07 février, 2006 18:12  
Anonymous Neville a écrit...

Au fait, Veronis à 61,94 %, c'est à peine plus que Benoit XVI, à 58,96 %. Mais Ratzinger est à 8,91 % Alors, est-ce la fonction papale qui incite à la débauche ?

Bref, cet outil est un peu n'importe quoi quand même.

Neville

07 février, 2006 19:07  
Blogger Jean Véronis a écrit...

Neville> Cet outil est un peu n'importe quoi quand même -- Comme l'outil ne fait que retourner les comptes de Google, des conclusions s'imposent! Mais ne me coupez pas l'herbe sous le pied: j'ai prévu une suite ;-)

07 février, 2006 19:10  
Blogger TOMHTML a écrit...

moi aussi je suis à un pourcentage négatif (-102%) : je suis un saint ! :D

07 février, 2006 19:55  
Anonymous Malaiac a écrit...

Et si au lieu de faire des pages pornographiques, vous passiez la bague au doigt de la charmante jeune fille origine de l'Europe ?

A quel doigt ?

D'après Google, ca doit être l'annuaire :
http://www.google.fr/search?q=annulaire+index
credit : Phobos / WRI

07 février, 2006 22:41  
Blogger Vicnent 31415 a écrit...

Jean est un pornographe pornologue car il n'a pas les bonnes lectures...

Par contre, Nicolas a dû lire le livre, François, non...

07 février, 2006 22:59  
Blogger Jean Véronis a écrit...

Vicnent 31415> Excellent! Bravo. Moi je me lance dans "La pornométrie pour les nuls" ;-)

08 février, 2006 07:49  
Blogger Jean Véronis a écrit...

Malaiac>Et encore pire: requête

annulaire index -annulaire

Voilà un bel exemple de truc démarré par Google et jamais fini: ils ont commencé à mette en place une correction orthographique automatique, mais c'est ni fait ni à faire (et en tous cas on ne sait pas exactement ce que ça fait!)

08 février, 2006 07:52  
Anonymous Laurent Roussarie a écrit...

Les résultats négatifs sont expliqués sur la page d'info: http://slut-o-meter.com/about/. Encore une imposture de Google ?

Et Jean, sais-tu que tu es nettement devant Brigitte Lahaie ?...

08 février, 2006 12:48  
Blogger Jean Véronis a écrit...

Laurent> Je crois que je vais me recycler ;-)

08 février, 2006 13:04  
Anonymous Guess Who a écrit...

C'est bien la première fois qu'une constitution me fait rire !

08 février, 2006 14:27  
Anonymous Anonyme a écrit...

Rien à voir avec le billet, mais BigloTron (http://www.biglotron.fr/) utilise sur sa page d'acceuil le Nébuloscope !

08 février, 2006 16:41  
Blogger Jean Véronis a écrit...

Anonymous> Oui, je sais, ils m'ont prévenu (ça n'est pas ma version). J'espère qu'ils mettront un petit mot pour qu'on se rappelle l' "inventeur"... (je ne suis "inventeur" que de l'idée qui consiste à présenter les résultats de moteurs sous forme de nuages, pas des nuages aux-mêmes, bien sûr!)

08 février, 2006 17:16  
Blogger Loran Bernardi a écrit...

Bonjour,
les plus grands talents ont des joies inavouables!!
Heureusement Godgle sait bien lui trier le bon grain... ;)

Toutes blagues mises a part, je comprends mal en quoi la constitution est reconnue comme tendancieuse par Google.

Comment faites vous le lien entre l'indice pornographique et ce pauvre texte?
J'imagine que c'est en analysant les pages manquantes dans la version expurgée de la recherche?

Cela dit je ne comprends toujours pas bien...
Le contenu ne contient pas (a priori) un pourcentage démesuré de mots cochons.. a peine 10 reponses pour le mot "sexe"... et je ne vois pas quels autres mots pourraient etre tendancieux?
Est ce la méthode (le "spider trap" involontaire) qui vous transforme en affreux pornographe aux yeux (percants) de Google?

Bonne soiree.

08 février, 2006 17:40  
Blogger Jean Véronis a écrit...

Loran> Oui, je fais le lien en regardant quelles sont les pages qui disparaissent avec le filtre. Pourquoi sont-elles condérées comme "unsafe", c'est une bonne question...

08 février, 2006 17:59  
Anonymous Neville a écrit...

Loin de moi l'intention de vous couper l'herbe sous le pied. Je m'abstiens donc de vous mentionner d'autres requêtes que j'ai effectuées, qui m'ont laissé perplexe. J'attends la suite.

Juste une remarque : je ne conaissais pas le mot "pornométriques". J'ai essayé de voir sur le chronologue s'il était fréquemment employé. Non, sauf depuis un jour ou deux, mais alors-là, quel décollage !

Votre néologisme part très fort, bravo !

08 février, 2006 19:14  
Blogger Jean Véronis a écrit...

Neville> l'herbe sous le pied -- je rigole: vos remqrques m'intéressent beaucoup!

chronologue -- diable, je n'avaispas remarqué. On dirait quej'ai lancé une nouvelle science: la pornométrie!

08 février, 2006 19:16  
Anonymous toutinou a écrit...

En fait, ce n'est pas complétement curieux que des pages de concordancier soient condidérées comme pornographiques. Tout ceux qui ont déjà bossé sur des concordances (ou tout simplement qui en ont regardé deux-trois) savent à quoi ça ressemble : des morceux de textes, sans queue ni tête (littéralement). Je ne sais pas trop à quoi ressemblent les textes qui sont insidieusement insérés dans les sites pornos pour faire grimper le taux de réponses, mais ça ne m'étonnerais vraiment pas qu'il aient la même structure formelle.
Que google considère que c'est une caractéristique de site porno est donc plutôt normal.

08 février, 2006 22:43  
Blogger Agnès a écrit...

Aux futurs parents: deux outils très intéressants pour le test de prénoms.

Illustre inconnue, je n'ai que mon prénom à tester:

slut-o-meter:
Promiscuity: -214.73% (-9620 / 4480)
Popularity: 6

Le nébuloscope y associe principalement: France, Marie, Sainte.

Jeanne d'Arc n'a qu'à bien se tenir.

En Chine, j'ai été surprise de rencontrer le mot gril dans la saisie automatique:
http://www.google.fr/search?hl=fr&q=grils&meta=
La consultation de l'historique a confirmé cet usage approximatif de l'anglais.


Sur "animaux", cela s'est beaucoup calmé, il me semble que c'était odieux il y a quelques années.
"Regarde bébé on va regarder des images d'animaux!" Surprise!

09 février, 2006 12:12  
Anonymous Neville a écrit...

Monsieur le Professeur de licence, rassurez-vous, j'avais bien compris que votre remarque me demandant de ne pas vous couper l'herbe sous le pied était de l'humour, et n'avait pour but que de m'inciter à ne pas... comment dire... voilà, j'ai trouvé le mot juste : m'inciter à ne pas DEFLORER la suite.

09 février, 2006 16:54  
Blogger Jean Véronis a écrit...

Neville> Excellent!

Et j'ajouterai même: quel métier, professeur de licence! (on va voir s'il y a des habitués de l'Album de la Comtesse ;-)

09 février, 2006 17:02  
Anonymous Frédéric Meunier a écrit...

En fait, à la requête "Veronis +site:www.up..." il n'y a que 983 réponses "les plus pertinentes", et ceci dans les deux cas (avec et sans filtrage). A première vue, cela devrait te rassurer.

Toutefois, les ensembles d'URLs réponse ne sont pas identiques !...

Par ailleurs, il apparaît que sur les 983 réponses, plus de 750 sont des pages générées par le Nebuloscope (nous avons par exemple un "Nuage de couille" superbement filtré par Google).

Ainsi, Google récupère non seulement des pages dynamiques (au risque de tomber dans des spider traps comme tu le dis), mais également des pages "non déterministes", i.e. générées automatiquement sur la base d’information entrée par l’internaute, et ceci, par l’intermédiaire des fonctions avancées de la Google Toolbar (me semble-t-il).

10 février, 2006 16:38  
Anonymous JC Heckers a écrit...

Ben voilà... je veux tester, et paf:

"Le site slut-o-meter.com est bloqué.
(La catégorie "Sexualité" est filtrée.)

Cette catégorie est bloquée en permanence."

Faudra que je tente ma chance ailleurs que dans mon administration...

31 mai, 2007 16:03  

Enregistrer un commentaire

vendredi, février 03, 2006

E-Pub: L'UMP achète Mahomet

L'UMP soutient la liberté d'expression:


C'est bon à savoir.

Pourvu qu'aucun extrémiste n'aille vandaliser leur siège...

29 Commentaires:

Anonymous freeman a écrit...

Le service marketing de l'UMP est vraiment excellent...
Moi je serais pour le developpement d'une petite application qui pourrait faire des clics multiples sur leur liens commerciaux. Genre générer quelques millions de clics. Je ne sais pas si google a paré a cette éventualité, mais cette manip aurait deux effets bénéfiques, l'un est de le faire payer, et comme les achats de liens commerciaux ont l'air de fonctionner par "lots" d'un certain nombre de clics, de faire disparaître ceux-ci.
Cela dit, moi je dis ça, je ne dis rien.. C'est juste une idée en l'air, une idée de non-développeur

03 février, 2006 23:37  
Blogger Jean Véronis a écrit...

Freeman> Google contrôle les numéros IP...

03 février, 2006 23:48  
Anonymous Joël a écrit...

L'U-M-P a aussi acheté « France Soir » !

03 février, 2006 23:51  
Blogger Martin Lessard a écrit...

Je crois qu'il ne faut pas voir là une caution du parti au thème. De la même manière que le spot 30 secondes n'a pas de lien éditorial avec l'émission o'u elle passe. Ils ont un public cible qu'ils veulent rejoindre.

Je crois que nous avons là l'équivalent d'un spot publicitaire qui recherche "l'émission la plus écoutée" pour passer son message.

Avouez que Mohamet est un mot clef porteur de visiteurs en ce moment.

04 février, 2006 04:38  
Anonymous Joris a écrit...

Bonjour,

C'est mon premier post ici alors je vais commencer par un "bravo pour ce blog" et principalement pour le nebuloscope. Ca m'etonne presque qu'il n'ai pas encore été copié et recopié !

Sinon je me demandais au sujet de l'u-m-p et de leurs adWords, s'il existait un moyen de connaitre la liste des mots qu'ils ont acheté. Un moyen autre que de contacter le service commercial de l'ump (euh, service communication voulais-je dire) pour leur demander.

Je trouverais ça sympa (bien que totalement inutile certes) de dresser une liste évolutive des umpAdWords.

Si ça n'a pas déja été fait, je veux bien m'y essayer, ça doit pouvoir faire une page assez vivante vu leur reactivité. Un genre de Chrono-sarko-adWords-logue.

04 février, 2006 12:02  
Anonymous MccMcRc a écrit...

bonne nouvelle! l'ump n'a pas acheté "petit zizi"!!!

04 février, 2006 13:56  
Blogger Jean Véronis a écrit...

Joris> Liste des adwords -- sarkostique a commencé.

04 février, 2006 21:45  
Anonymous Dominique a écrit...

La liste des AdWords des œufs de lump change sans cesse. Par exemple, le mot immigration a disparu et c'est maintenant émigration. De même, on a vu apparaître discrimination, intégration qui n'étaient pas dans la liste de la semaine dernière. Je pense que l'UMP fait plusieurs choses :
— présenter des invariants (le nom du Conducator par exemple) ;
– acheter les variantes orthographiques possibles, mais c'est Google qui les enregistre au fur et à mesure des demandes (Sharko a été demandé au moins une fois par un googlenaute auparavant et Google a ajouté le mot automatiquement) ;
– modifier la liste des termes génériques par des termes synonymes ou analogiques afin de ratisser plus large, comme dans mon exemple ;
– insérer des termes qui collent à l'actualité immédiate, termes supprimés très vite. Par exemple, juste après l'affaire RATP, l'UMP avait acheté la RTM.
Comme cela change toutes les semaines, une liste exhaustive ou à jour n'est pas possible. Dans une semaine, il se peut que l'on ait parmi les AdWords carte de séjour ou étudiants qui ne figurent pas encore dans la liste.

05 février, 2006 12:50  
Blogger Gilles a écrit...

Et pendant ce temps la communication coûte de plus en plus cher :D
Je pense qu'ils doivent raquer ;)

05 février, 2006 18:55  
Blogger necuidaz a écrit...

Je ne suis pas particulierment au fait de l'actualitée mais j'ecoute la radio régulierement et je suis un peu etonné du peu de bruit que fait cette affaire.

Sans être ilegalle la methode est assez peu "Fair-Play" et il serait peut être interessant qur le principal concerné soit interpellé sur ce sujet. Non ?

05 février, 2006 19:04  
Blogger Agnès a écrit...

Liste puis concours d'adwords

http://blogs.sortilege.org/stephane/index.php/2005/11/07/68-grand-concours-des-mots-preferes-de-sarkozy?cos=1


Très bien de noter que cette liste devrait être évolutive, notamment au sujet de personnalités, elles vont et viennent dans cette liste. Ca peut-être bien sûr du quota de clics, mais peut-être aussi se refreinent-ils eux-mêmes.

Lemeur est dedans, mais pas Véronis.

05 février, 2006 19:34  
Anonymous Emmanuel a écrit...

Il semblerait que l'UMP aie également acheté Ségolène ROYAL ...

Ils ne reculent devant rien ...

06 février, 2006 03:02  
Anonymous Vince a écrit...

Mais franchement, ou vont-ils s'arreter? Le budget Adwords de l'UMP doit être vraiment énorme...

06 février, 2006 10:50  
Anonymous Sarkozy fan tutte a écrit...

Ne serait-il pas techniquement possible de faire remonter, par "Google bombing", une page dont le titre serait "l'homme dont le nom figure à droite de cette page proclame solennellement qu'il renonce à se présenter à l'élection présidentielle de 2007 en France, et autorise quiconque à le traiter de menteur s'il le faisait quand même" ?
J'avoue que si une telle page existait, et faisait l'objet d'une Google Add postérieure, çà pourrait être drôle !

SFT

06 février, 2006 19:14  
Anonymous Thr a écrit...

Le parti socialiste (François Hollande en tout cas) n'est pas en reste : http://www.villepin2007.com/ redirige vers www.fhollande.net ...

06 février, 2006 20:10  
Anonymous Jules T. a écrit...

Thr. Il est patent que villepin2007.com n'appartient pas au PS mais à des spéculateurs.

Registrant:
Charles-Andre Landemaine dns@auriance.com +55.413523555
Auriance
Av. Joao Gualberto, 1673, SL 27
Curitiba,PR,BR 80030-001

En revanche, en écrivant ce commentaire, je teste lepen2007.com et que trouvè-je

Domain Name: lepen2007.com
Name: Nicolas Sarkozy
Address: UMP, 55, rue La Bo�ie Paris 75384
Country: France

ce qui est fort amusant, mais malheureusement plus probablement une malveillance qu'une réelle dinguerie de l'équipe de Sarko (usage d'un obscur registrar en Turquie...). Cela étant, ils ne seraient pas à une près, et c'est drôle quand même...

06 février, 2006 20:56  
Anonymous Dominique a écrit...

Il y a plusieurs problèmes.
1) Est-ce que c'est bien ou mal, légal ou illégal ? Disons que la légalité peut changer. Et que cette action peut changer la légalité actuelle vu la concentration des moyens et des pouvoirs. Ce dernier fait me semble plus grave que les campagnes de pubs.
2) Est-ce que l'on peut ruiner l'UMP ? Non. Sauf dans des fantasmes d'ados adeptes de jeux vidéos qui croient qu'un clic tue.
3) Cela vaut-il la peine de recenser tous les mots pris par l'UMP ? Non. Surtout si on vérifie toutes les variantes orthographiques assez ineptes et figurant dans la base Google juste parce que l'on a cliqué précédemment pour les vérifier. Il vaut mieux se concentrer sur certains mots qui portent un sens comme banlieues, immigration, émeutes, RATP, grèves, RTM.
4) Les absences de certains mots clés sont aussi très parlantes. Rien sur le CNE, le CPE, les contrats, l'emploi, le chômage. Ce serait plus pertinent de voir à quel moment cela va apparaître.

06 février, 2006 21:26  
Anonymous Dominique a écrit...

Bon. L'UMP vient juste d'acheter le CNE afin d'appeler à signer une pétition, mais elle n'a pas pris d'option sur le CPE qui est trop lié à Villepin. De même, les mots liés à l'emploi ne sont pas pris (trop de liens publicitaires à côté).

07 février, 2006 07:49  
Anonymous ladybird a écrit...

Je viens de voir qu'ils ont aussi acheté "grève" et "manifestation", prudent non?


PS: votre conférence à Nantes était vraiment passionnante !

07 février, 2006 09:30  
Anonymous Dominique a écrit...

Grève, manifestation et aussi syndicats ou service minimum font partie des AdWords de l'UMP depuis les grèves dans les transports publics à la fin de l'année dernière. Disons qu'ils ont dû réactiver ces mots en fonction de l'actualité.

07 février, 2006 10:37  
Anonymous Weetabix a écrit...

un petit plug-in firefox pour ceux qui sont contre la prédominance de Sarko

http://www.3pblog.net/index.php?entry=entry060204-221929

a voir non ?

07 février, 2006 13:43  
Anonymous Daniel a écrit...

Comme je l'ai ecrit dans une note l'UMP devrait d'abord acheter les mots clefs correspondant aux nom de ses responsables il me semble

assez curieux de voir qu'ils ont acheté Robien mais pas Douste-Blazy par exemple...

(pour combien de temps)

http://danielbroche.typepad.com/daniel_broche/2006/02/lump_et_les_lie.html

08 février, 2006 15:50  
Anonymous m a écrit...

... et Outreau !

08 février, 2006 16:11  
Anonymous esKaloO a écrit...

Un plugin pour Firefox, pour faire barrage aux pubs croissantes pour l'UMP. Marrant !
http://www.3pblog.net/index.php?entry=entry060204-221929

08 février, 2006 16:42  
Anonymous Anonyme a écrit...

Et voilà que la Belgique est touchée par le phénomène google ad politique

http://www.google.be/search?hl=fr&q=cdh&meta=
http://www.google.be/search?hl=fr&q=ecolo&meta=
http://www.google.be/search?hl=fr&q=mr&meta=

et vous obtenez un lien commercial 'Force nationale' un des dissidence du Front National en belgique.

18 février, 2006 18:42  
Anonymous Anonyme a écrit...

Sur l'affaire des caricatures de Mahomet, wikipedia n'est ni exacte ni honnête. L'article déforme complètement les faits et donne une version insidieuse et insidieusement orientée en faveur de la version islamiste données par les acteurs de l'histoire protagonistes de l'orchestration du scandale supposé indigner les foules. La provocation des imams radicaux est complètement passée sous silence.
Vous risqueriez d’être trompé par wikipedia si vous croyiez qu'elle pourrait être une source fiable.
Je me permets de vous inciter à consulter mon blog http://wikipedia.un.mythe.over-blog.com où j'analyse les méthodes et les résultats de wikipedia qui sont souvent erronés, faux, et relèvent même de la propagande pour les sujets d'actualité. Sur ces derniers les extrémismes occupent une bonne place et prospèrent en toute impunité et sans contrôle. Principalement extrême-droite et islamisme , mais aussi soi-disant extrême-gauche ayant abouti au FN tel Alain Soral, Dieudonné, et leur comparse Th. Meyssan, des "antiaméricains" fanatiques, antisionistes et antisémites, qui finissent par soutenir les islamistes d'Iran du Hezbollah, du Hamas et d'ailleurs et ici rallier le FN .
Regardez de + près ce que publie wikipedia et vous mettrez en garde vos lectuers, contre la propagande qui s'y déploie.

08 février, 2007 15:43  
Anonymous alithia a écrit...

Sur l'affaire des caricatures de Mahomet, wikipedia n'est ni exacte ni honnête. L'article déforme complètement les faits et donne une version insidieuse et insidieusement orientée en faveur de la version islamiste données par les acteurs de l'histoire protagonistes de l'orchestration du scandale supposé indigner les foules. La provocation des imams radicaux est complètement passée sous silence.
Vous risqueriez d’être trompé par wikipedia si vous croyiez qu'elle pourrait être une source fiable.
Je me permets de vous inciter à consulter mon blog http://wikipedia.un.mythe.over-blog.com où j'analyse les méthodes et les résultats de wikipedia qui sont souvent erronés, faux, et relèvent même de la propagande pour les sujets d'actualité. Sur ces derniers les extrémismes occupent une bonne place et prospèrent en toute impunité et sans contrôle. Principalement extrême-droite et islamisme , mais aussi soi-disant extrême-gauche ayant abouti au FN tel Alain Soral, Dieudonné, et leur comparse Th. Meyssan, des "antiaméricains" fanatiques, antisionistes et antisémites, qui finissent par soutenir les islamistes d'Iran du Hezbollah, du Hamas et d'ailleurs et ici rallier le FN .
Regardez de + près ce que publie wikipedia et vous mettrez en garde vos lectuers, contre la propagande qui s'y déploie.

08 février, 2007 15:43  
Anonymous alithia a écrit...

http://wikipedia.un.mythe.over-blog.com
je rectifie quelques fautes, excusez-moi
Sur l'affaire des caricatures de Mahomet, wikipedia n'est ni exacte ni honnête. L'article déforme complètement les faits et donne une version insidieuse, et insidieusement orientée, en faveur de la version islamiste donnée par les acteurs qui ont fabriqué toute l'histoire et les protagonistes de l'orchestration du scandale supposé indigner les foules.
La provocation des imams radicaux (tendance Frères musulmans) qui ont fabriqué des fausses caricatures, particulièrement choquantes là pour le coup, car méprisantes pour les musulmans ou insultantes (scènes de sodomie durant al prière et choses de ce genre), et qui sont allés en ambassadeurs les porter à leurs collègues imams radicaux pour provoquer l’indignation dans les pays musulmans, est complètement passée sous silence.
Vous risqueriez d’être trompé par wikipedia si vous croyiez qu'elle pourrait être une source fiable.
Je me permets de vous inciter à consulter mon blog http://wikipedia.un.mythe.over-blog.com où j'analyse les méthodes et les résultats de wikipedia qui sont souvent erronés, faux, et relèvent même de la propagande pour les sujets d'actualité. Sur ces derniers les extrémismes occupent une bonne place et prospèrent en toute impunité et sans contrôle. Principalement extrême-droite et islamisme , mais aussi soi-disant extrême-gauche ayant abouti au FN tel Alain Soral, Dieudonné, et leur comparse Th. Meyssan, des "antiaméricains" fanatiques, antisionistes et antisémites, qui finissent par soutenir les islamistes d'Iran du Hezbollah, du Hamas et d'ailleurs et ici rallier le FN .
Regardez de + près ce que publie wikipedia et vous mettrez en garde vos lecteurs, contre la propagande qui s'y déploie.

08 février, 2007 15:49  
Anonymous Anonyme a écrit...

Attention, le blog d'Alithia, qui se fait passer pour un site d'observation et d'analyse de Wikipédia, est en réalité un fatras irrationnel où se mêlent mensonges, falsifications, théorie du complot, diffamations et injures, et une très grande méconnaissance des règles élémentaires de Wikipédia. Ce blog est une escroquerie intellectuelle.

Je vous invite à la plus grande prudence si jamais vous décidiez de le consulter, car Alithia manipule systématiquement les propos de ses contradicteurs pour leur faire dire le contraire de ce qu'ils disent, jusqu'à les accuser d'antisémitisme, voir de tendance cryptique au nazisme... La pluplart des affirmations de sa part, ou des pseudos-commentaires des articles, sont des affirmations gratuites, sans preuve, sans analyse, ou purement et simplement des insultes, ou encore même des inventions complètes (par exemple, si vous avez le malheur de montrer les nombreuses lacunes des propos d'Alithia, vous serez qualifié de wikipédien comploteur, même si vous dites plusieurs fois que vous n'êtes pas wikipédien).

Cette personne s'acharne à insulter tous ceux qui ne sont pas d'accord avec sa thèse que Wikipédia est par nature un repère d'antisémites-fasciste-racistes-sexistes-néo-nazis et j'en passe et des meilleurs.

23 novembre, 2007 00:57  

Enregistrer un commentaire

mercredi, février 01, 2006

E-Pub: Jack Lang réagit

J'avais alerté Jack Lang sur le fait que son nom avait été acheté par l'UMP (voir copie d'écran), et je lui avais demandé son opinion sur les campagnes pour le moins agressives de ce parti sur Google (voir 1, 2, 3). A la fois homme politique et professeur de droit public, il me semblait qu'il pouvait apporter un point de vue intéressant sur la question.



Je ne m'attendais pas à une réponse aussi rapide. Ses collaborateurs m'ont informé cet après-midi que Jack Lang avait réagi sur son blog ("Quand l’UMP pirate Jack Lang et autres noms sur Google") :

Bonjour

Jack Lang vient de mettre un blog en ligne sur ce sujet. Merci de nous avoir alerté.

Pas de réponse juridique définitive pour l'instant, mais le sujet fait beaucoup parler sur la blogosphère depuis 2 jours.

Amicalement,

Mathieu Maire du Poset

Bureau de Jack Lang
www.jacklang.net

Bravo, belle réactivité! Jack Lang avait déjà pris position très rapidement sur l'affaire Garfieldd (voir son billet). J'étais un peu dubitatif sur les blogs politiques (dont on parle beaucoup dans le récent numéro de Netizen). Disons que j'attendais de voir... Il me semble que ces deux prises de positions récentes et rapides (que l'on soit d'accord avec leur auteur ou pas) montrent que les blogs pourraient être un instrument formidable de rapprochement des politiques et des citoyens, s'ils veulent bien s'en donner la peine (les deux).

Quant au fond, eh bien, je vous laisse lire Jack. Juste une citation qui résume le tout:

Quand Nicolas Sarkozy paye pour acheter les noms "Lionel Jospin", "Parti Socialiste" ou "Jack Lang", il utilise des méthodes que j’estime être celles de voyous.

Ca commence fort: je sens que la campagne (présidentielle) ne va pas être triste!


Post-sciptum


L'UMP retire Jack Lang des AdWords [voir ici]

19 Commentaires:

Blogger all a écrit...

Si le Monde publie une interview de M. Jack LANG, qui et au nom de quoi empêchera/empêcherait l'UMP d'acheter une page de pub dans ce même journal ?
Ou un espace publicitaire vendu à Cochonou au milieu d'un documentaire sur l'Islam.
Si la pub n'est pas déloyale elle est légale, assez d'atermoiements il y longtemps que le marketing s'est affranchi des règles de morales, et c'est aujourd'hui que c'est découvert ?

01 février, 2006 21:00  
Anonymous Anonyme a écrit...

Il y a (normalement) une différence entre le commerce et la politique.

01 février, 2006 23:48  
Blogger Philippe a écrit...

Et c'est:???

02 février, 2006 00:57  
Blogger Jean Véronis a écrit...

All> Justement, les journaux font attention (normalement) à éviter ce genre de chose. Ils n'ont intérêt à choquer ni leurs lecteurs ni leurs annonceurs. En tous cas, s'il y a des maladresses (et il y en a) ce sont des plutôt des bugs et rarement de la provocation.

La situation me paraît complexe: les médias fonctionnent tous différement: journaux, radios, télé, et évidemment web. A la fois du point de vue social et du point de vue technique. Le fait qu'autant de gens soient surpris (y compris aux USA!) par la campagne UMP me semble montrer que le débat mérite au moins d'être ouvert...

Du point de vue social, ce n'est pas trop mon job et je ne pourrais pas dire grand-chose de plus que des remarques "café du commerce" sur les rapports journaux/web, mais du point de vue technique, je vois au moins une grande différence. Dans le cas des journaux, il y a une instance régulatrice, le journal lui-même, qui choisit généralement une politique de modération et de consensus (mais peut aussi choisi la provocation!). Dans le cas des AdWords, c'est l'annonceur qui choisit les associations. Donc, je peux faire afficher Hitler quand on tape Véronis et ainsi de suite. Peut-être que je m'en fous finalement. Peut-être que tout le monde s'en foutra très vite. Peut-être. Mais j'aimerais bien avoir deux minutes pour y penser, et écouter l'opinion de tas d'autres gens, pour ou contre. Et c'est justement ça qui se passe. Pas formidable le Net?

02 février, 2006 09:05  
Anonymous Merome a écrit...

Concernant les blogs politiques, je suis moi aussi surpris dans le bon sens. Il y a quelques mois, j'avais réussi à attirer l'attention de DSK lui-même sur un article de mon modeste blog (voir ici : http://merome.net/dotclear/index.php?2005/09/12/125-la-democratie-internet-dominique-strauss-kahn-et-moi). Sans internet, et sans les blogs, je ne pense pas que j'aurais eu ne serait-ce que l'idée prétentieuse de soumettre une idée ou une réflexion personnelle à un homme politique.

Je suis personnellement convaincu que l'internet va modifier grandement la démocratie dans les années à venir, et j'ai espoir que cela soit dans le bon sens. Le succès du site d'Etienne Chouard, à propos du référendum, me semble être une première pierre importante. La réactivité de la blogosphère face aux coups bas, scandales, désinformations et son poids grandissant ne fait que confirmer mon impression.
Même si nous ne sommes qu'une minorité, pour l'instant, à comprendre et maitriser les outils, notre poids est déjà considérable. Je suis impatient à l'idée de suivre la prochaine campagne présidentielle sur internet. On va bien rigoler...

(remarque au passage : quand on prévisualise un commentaire, la date est au format anglais : February 02, 2006 1:07 AM)

02 février, 2006 10:09  
Anonymous Pilou a écrit...

L'étonnement général me surprends. Que Sarkozy donne des boutons, normal ; il doit être l'allergène le plus puissant actuellement recensé. Mais qu'y a-t-il d'anormal à voir de la pub sur un panneau publicitaire ?
N'avez vous point remarqué que les pubs d'Acadomia sont plus souvent à proximité des lycées que des agences bancaires ? N'est-il pas habituel qu'a l'approche d'une grande surface, un panneau signale que l'enseigne concurrente n'est qu'a 3mn ?
La publicité comparative est légale ; et dans ce cadre on peut utiliser le nom d'une marque concurrente, voire son logo (avec précaution, la jurisprudence étant encore balbutiante).

Finalement c'est comme le panneau publicitaire en face de chez vous. N'importe qui peut, dans le respect des lois, le louer pour une pub ciblée.

Et que pense Sarkozy de l'achat de son nom par le Nouvel Obs ?

02 février, 2006 15:40  
Anonymous Anonyme a écrit...

Firefox + extension CustomizeGoogle (www.customizegoogle.com) -> Options -> Remove Ads

Plus jamais d'AdWords.

02 février, 2006 16:39  
Anonymous WhilelM a écrit...

Moi aussi l'étonnement général me surprend, pas tant sur la problématique abordée dans le billet mais sur l'interpellation des hommes politiques.

Il ne me semble pas qu'il y ait réellement besoin d'un blog pour interpeler un homme politique sur un sujet, on peut également simplement lui adresser une lettre écrite par le canal postal, si le sujet l'intéresse, il la notera très certainement et répondra probablement à l'auteur de la lettre.

Le net n'est pas aussi révolutionnaire que l'on voudrait bien le penser...

02 février, 2006 16:54  
Anonymous Anonyme a écrit...

Bonjour,
Pour info l'UMP prépare une campagne de pub "traditionnelle". On devrait voir fleurir des bannières sur les sites d'ici peu de temps.
Reste à savoir s'il y aura la tête de Sarkozy dessus :)

Je tiens cette info d'une régie de pub qui est à la recherche d'espaces... Si l'UMP paye bien je crois que je me laisserai tenter ;)

02 février, 2006 17:32  
Anonymous stéphane a écrit...

ce que j'aime dans l'article est la 1ere phrase de l'email du bureau de Jack : "Jack Lang vient de mettre un blog en ligne sur ce sujet. Merci de nous avoir alerté."

Il faut lui dire que "mettre un blog en ligne" à chaque fois que l'on a quelquechose à dire, ce n'est pas le plus pratique !

02 février, 2006 18:02  
Blogger Jean Véronis a écrit...

Whilelm>un blog pour interpeler un homme politique -- en ce qui concerne Jack Lang, je lui ai simplement envoyé un petit courrier électronique...

02 février, 2006 18:20  
Blogger Jean Véronis a écrit...

Stéphane> Oui, ça fait quand même beaucoup de clics sur le mulot!

02 février, 2006 18:21  
Anonymous Dominique a écrit...

Il y a du nouveau et cela commence à faire du bruit. Cela va sortir dans la presse écrite demain :
http://fr.news.yahoo.com/02022006/7/liens-sponsorises-l-ump-utilise-jack-lang-pour-gonfler-l.html

02 février, 2006 21:55  
Anonymous Merome a écrit...

whilelm : Le blog est une interpellation publique, c'est là toute la différence. Tout le monde n'a pas la possibilité de faire une "lettre ouverte" publiée dans Le Monde ou Libération. Prendre un politicien à parti, sur son blog, si c'est fait intelligemment, ça me semble à la fois très nouveau et très intéressant.
Je ne suis vraiment pas sûr que DSK aurait répondu a mon courrier, même s'il avait eu le même contenu. Et d'ailleurs, je ne l'aurais jamais envoyé, pour des tas de raisons pas toutes bonnes.

Par ailleurs, j'ai envoyé un mail à Ségolène Royale et Arnaud Montebourg, récemment (j'ai aussi posté récemment un commentaire sur le blog de Dupont-Aignan :) ), la première m'a fait une réponse automatique (et m'a envoyé ses voeux électroniques en début d'année :/), le second n'a même jamais répondu.

Cela conforte mon impression que le blog est une réelle avancée en la matière : celui qui met en ligne un blog, qu'il soit politicien ou non, d'ailleurs, s'expose à la critique et aux commentaires, et il est en cela plus enclin à y répondre, me semble-t-il.

03 février, 2006 13:51  
Anonymous Anonyme a écrit...

Bravo à l'auteur pour ce blog et pour ses prises de position !!
ca me change des loic lemeur et autres fans de monsieur le ministre de l'interieur.

A lire l'article de libé du jour sur Blog et politique


sea

03 février, 2006 14:31  
Blogger Vicnent 31415 a écrit...

Cette histoire de untel achète le nom de tel autre est de bonne guerre, ni plus ni moins. D'accord avec Jean pour dire qu'effectivement, comme c'est neuf, prendre deux minutes pour y réfléchir, et écouter les autres n'est pas mauvais.
Félicitations à Jack Lang pour sa réponse d'une hypocrisie sans nom. Lui même avoue l'avoir fait, et quand il annonce que sa campagne se fera sous le signe de l'éthique et du respect, je me marre... rendez vous dans quelques mois, quand on l'entendra parler de ses amis du parti socialiste, puis des camps d'en face...

06 février, 2006 09:17  
Anonymous Anonyme a écrit...

Voilà ce qu'on obtient aujourd'hui (060207) quand on essaie de consulter le blog de l'illustre Jack, grand donneur de leçons et maître es-toutes choses éthiques:

Authorization Required
This server could not verify that you are authorized to access the document requested. Either you supplied the wrong credentials (e.g., bad password), or your browser doesn't understand how to supply the credentials required.
--------------------------------
Apache/1.3.34 Server at www.jacklang.net Port 80

Je ne pense pas que mon "browser doesn't understand how to supply the credentials required", je pense plutôt que l'équipe de Jack "doesn't know how to run a website, or a blog".

Sur le fond, les derniers posts de ce blog sur les campagnes UMP semblent méconnaître le fonctionnement d'AdWords, qui suggère de façon plus ou moins automatique (avec il est vrai une étape de validation manuelle) des mots-clé associés à un mot-clé de départ.

Une fois l'information connue selon laquelle les gens qui effectuent telle recherche effectuent aussi telle autre (par exemple, - c'est une supposition - les personnes qui cherchent "émeutes" cherchent aussi "jospin"), quoi de plus normal que de souhaiter afficher une communication sur l'ensemble de ces recherches et non pas sur une seule?

De plus, en principe, les publicités AdWords cessent de s'afficher si leur taux de clic tombe en-deça d'un certain seuil; si les pubs de l'UMP s'affichent, c'est que les utilisateurs de Google cliquent dessus; s'ils cliquent dessus, n'est-ce pas qu'elles sont légitimes?

07 février, 2006 14:32  
Anonymous Anonyme a écrit...

Et les pubs qui utilisent SEGOLENE ?

Des annonces proposent d'acheter des socialistes !

15 avril, 2006 21:45  
Blogger Ayissi le Duc a écrit...

Toute ma gratitude à Son Excellence Jack Lang pour la Fête de la Musique. ayissileduc.blogspot.com

15 juin, 2006 13:03  

Enregistrer un commentaire

Moteurs: Scoop

C'est l'événement majeur de ce début d'année 2006: l'UMP lance son propre moteur de recherche! Nos premières impressions sont très positives: présentation sobre mais soignée, rapidité extrême. Les internautes ne devraient pas se sentir désorientés. Seule petite ombre au tableau: le moteur semble pour l'instant retourner le même résultat pour toutes les requêtes. Interrogé, le responsable marketing du nouveau moteur, M. Arnaud Rogant, nous a répondu avec un sourire énigmatique que ce n'était "pas un bug". M. A. Rogant a ajouté que ce nouvel outil ferait faire des économies importantes à l'UMP, qui dépensait des sommes croissantes en achat de mots-clés sur d'autres moteurs (voir 1, 2, 3). Il devrait même lui permettre d'engranger des bénéfices substantiels grâce à la vente de mots-clés avec un nouveau système du nom de code de SarkoWords. Nous avons pu constater que les annonceurs se sont déjà précipités (de petits malins semblent hélas avoir immédiatement repéré les failles du système: nous ne pouvons que condamner de tels comportement déloyaux).


[Crédits: néologisme, logo]

Dernière minute


Le Ministre de l'Intérieur vient d'annoncer l'interdiction de l'accès à Google depuis le territoire français jusqu'au 22 avril 2007, à titre de sanction contre le comportement ce moteur en Chine, jugé "intolérable et contraire aux droits de l'homme". Félicitations pour cette décision courageuse (malheureusement isolée sur le plan international)!

12 Commentaires:

Anonymous Etienne a écrit...

Alors là chapeau !

Le pire est qu'on ne se sent pas si loin que ça de la réalité ...

01 février, 2006 09:11  
Anonymous Anonyme a écrit...

Deux mois d'avance ?

01 février, 2006 09:41  
Blogger Vicnent 31415 a écrit...

Pour avoir eu hier soir Nicolas à manger à la maison, (avec Cécilia [Mon Dieu, cette femme, quelle belle femme])celui ci m'a donné une info : Sarkoogle indexe 10e80 atomes dans l'univers. et pas que des xml ;-)))

il parait (source sûre...) qu'on devrait aussi avoir prochainement un Chiracoogle, un Hollandoogle, un Strausskoogle, un Langoogle, un Villepintoogle, un Royaloogle, un Fabioogle, un Arlettoogle (qui pourrait s'appeller travailleurtravailleusoogle), un Bovoogle, un Besancenoogle.

01 février, 2006 10:02  
Anonymous hermes a écrit...

ahahah :))

Je suppose que tout le monde a deja fait la comparaison suivante :

http://images.google.cn/images?q=tiananmen
http://images.google.com/images?q=tiananmen

mais avez vous fait cette meme recherche sur MSN, Yahoo, Ask etc.. ?

http://images.search.yahoo.com/search/images?p=tiananmen
http://image.yahoo.com.cn/search?p=tiananmen

MSN je n'arrive pas a lancer le services image en chine, ca me parait pas fonctionnel.

Tout ca pour dire: critiquer Google est a la mode (et c'est tant mieux), mais il ne faudrait pas oublier de voir le paysage en entier :)
Yahoo a tout simplement supprime l'access aux requetes a controverses..

01 février, 2006 10:56  
Blogger Vicnent 31415 a écrit...

Comment ça d-é-c-h-i-r-e !!!! ;-))))

01 février, 2006 10:57  
Anonymous neuro a écrit...

Ils avaient aussi acheté "porn" sur msn search...

01 février, 2006 11:01  
Anonymous hermes a écrit...

Toujours sur le sujet de la censure et le fonctionnement des autres moteurs :
Voici une recherche 'classique' sur le moteur (recherche web) yahoo version chinoise

http://www.yahoo.com.cn/search?p=test

Pas de probleme.
Maintenant attention les yeux :

http://www.yahoo.com.cn/search?p=tiananmen

Reponse: HTTP/1.x 302 Found
Location: http://xinwen.yahoo.com.cn/search.html?p=tiananmen&ei=utf-8&source=ysearch_www_filter_noresult

On a l'air d'etre rebalance vers yahoo news, ou les sources sont probablement filtrees soigneusement.
A noter aussi, le parametre 'source' qui indique : ysearch_www_filter_noresult

Ce parametre est normalement 'ysearch_www_result_topsearch' lorsque la requete n'est pas filtree.

Contournable ?

01 février, 2006 13:48  
Anonymous Ju. a écrit...

Tiens ca fait un peu Brave Patrie comme post mais ce n'est pas pour me deplaire ;-)

01 février, 2006 21:45  
Anonymous tangi bertin a écrit...

ouarf j'ai failli me faire avoir moi :-) très bon billet. A la sarkomania elle est partout. Faut se méfier qu'il achète pas technologies du language :-)

01 février, 2006 21:59  
Blogger Poulos a écrit...

Excellent ! Bravo Jean ! Quel talent !

02 février, 2006 00:29  
Anonymous hermes a écrit...

un petit mot pour signaler qu'il semblerait y avoir une faille (a confirmer) dans le filtre de censure de yahoo.
chez google, des petits malins avaient remarque qu'en mettant le keyword en capitales, le filtre ne fonctionnait plus. ca a ete fixe dans les heures qui ont suivis.

pour yahoo, j'ai remarque qu'en mettant 339 '+' devant le keyword on provoquait une sorte d'overflow, et le filtre ne marche plus :

338 + : http://tinyurl.com/aorxa
339 + : http://tinyurl.com/7lmun

reste a verifier si ce sont effectivement les resultats non censures. et combien de temps cela marchera..

02 février, 2006 19:43  
Anonymous al-manak a écrit...

et pour se détendre un peu...

http://image.yahoo.com.cn/search?p=mao

07 février, 2006 14:29  

Enregistrer un commentaire