Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, mai 01, 2012

Google: Fichier juif ?


Avant-hier, TF1 a perturbé ma sieste dominicale en m'envoyant une équipe pour recueillir quelques mots pour le JT de 20h sur l'affaire du « fichier juif » de Google... Une séquence de fin de JT n'est pas un format qui se prête beaucoup à l'élaboration, et je me suis dit que je pourrais essayer de rassembler ici mes réfléxions sur le sujet. Je pense que tout le monde a désormais entendu parler de l'affaire. Plusieurs associations, SOS Racisme, le MRAP, l'UEJF et l'AIPJ, ont assigné Google en référé demain 2 mai pour « trouble manifestement illicite », estimant que le moteur contrevient à la loi française, qui interdit tout fichage ethnique, en associant fréquemment le mot juif à des noms de personnalités dans son module de suggestion.






Je ne suis pas juriste et je laisse d'autres bien plus qualifiés s'exprimer sur le sujet. Je me contenterai d'apporter modestement quelques éléments de nature technique au débat.


1. Le problème est-il nouveau ?

Non. Au contraire, il ressort régulièrement. A ma connaissance c'est Colombe Schneck qui avait soulevé le lièvre en mai 2009 sur France Inter (écouter l'émission, voir également sur le blog de Renaud Revel). Il a été redécouvert par Emmanuele Anizon sur Telerama.fr début 2011, article qui avait été relayé par Le Monde (15 février, article de Stéphane Foucart uniquement en archives payantes), le Nouvel Obs, etc.

J'avais fait moi-même remarquer sur ce blog en 2010 que d'autres suggestions de Google reflétaient les stéréotypes les plus désagréables sur les juifs, les noirs, les femmes, les arabes...


(voir aussi de beaux exemples en écho sur Slate et une analyse intéressante d'Olivier Ertzscheid).

2. L'explication de Google

L'AFP avait relayé la chose et Google m'avait répondu par le même canal (voir ici), expliquant qu'il s'agissait d'une agrégation automatique, pur « reflet de l'activité de recherche de tous les utilisateurs du moteur ».

La ligne de défense de Google cette fois-ci est globalement la même. La firme affirme que les suggestions se sont « aucunement issues d'un choix éditorial de la part de Google », mais « générées de manière totalement algorithmique, sur la base de critères purement objectifs ».

Google Suggest « apprend » en effet ce que les internautes ont tapé, et le restitue ensuite en fonction des premières lettres tapées par l'utilisateur (cet algorithme existe depuis 2004, et avait fait l'objet d'un de mes premiers billets sur ce blog).


3. L'algorithme peut-il être leurré ?

Les suggestions reflètent-elles les vraies fréquences naturelles de requêtes ou bien peuvent-elles être « spammées » ? On m'a posé plusieurs fois la question et l'on peut en effet légitimement se demander si les décomptes sur lesquels sont basées les suggestions ne sont pas faussées par des individus ou groupes organisés. Je n'ai évidemment ni certitude ni preuve, mais on peut se poser la question en voyant par exemple un certain nombre de requêtes qui, comme par hasard, correspondent à des titres de posts sur des forums...

Diverses techniques existent qui pourraient permettre de contourner les limites de Google (campagnes coordonnées, utilisation de proxies, programmes malveillants divers implantés à l'insu d'utilisateurs sur de nombreuses machines, Amazon Mechanical Turk, etc.) et qui pourraient leurrer Google quant au nombre de requêtes de tel ou tel type. L'idée a certainement déjà traversé l'esprit de quelques spécialistes de SEO, et on peut imaginer que des groupes d'idéologies ou d'intérêts divers puissent mener des attaques ciblées sur des personnes ou entreprises. Google pourrait expliquer si le phénomène existe et si des mesures particulières sont prises pour le contrecarrer.

Dans le cas précis de la plainte qui sera étudiée demain, je crois plutôt que l'association de nombreux noms avec le mot juif résulte d'une ambiance délétère, et d'un souci malsain qui est de « débusquer les juifs » pour reprendre les termes de l'avocat de SOS Racisme.


4. Cela concerne-t-il seulement les juifs ?

Non. Toutes les religions y passent. On se demande visiblement si Obama ne serait pas musulman, Zidane chrétien ou Jospin protestant :




Dans certains cas l'association est vraie, dans d'autres non.... C'est sans doute la faiblesse de la plainte déposée contre Google. Il est difficile de voir dans ces associations un « fichier juif ». Parmi les requêtes les plus proposées, on a « Sarkozy juif » ou « Hollande juif », mais à ma connaissance ce n'est la religion ni de l'un ni de l'autre (pas plus qu'Obama n'est musulman). Nous verrons ce que dit la justice demain.

Remarquons au passage que les associations ne concernent pas que les religions. Un certain nombre de dénominations plus ou moins injurieuses sont récurrentes :



Sur ce point, notons que Google a déjà été attaqué en justice (et a perdu plusieurs fois). Dès 2009, Direct Energie avait condamné Google pour l'association du nom de cette société avec le mot arnaque. A ma connaissance c'était le premier cas en France et le jugement est extrêmement intéressant à lire (ici). En 2010, un particulier s'était plaint de voir son nom associé aux doux qualificatifs d'escroc, sataniste, arnaque ou violeur et avait obtenu gain de cause (voir ici). En février, la société de vente directe de produits diététiques Kriss Laure a fait condamner Google à supprimer la suggestion kriss laure secte sous une astreinte de 2 500 euros par jour (voir ici).

Nicolas Sarkozy serait donc fondé (comme d'autres) à attaquer Google et gagnerait probablement selon cette jurisprudence.

Dans le cas des religions, c'est peut-être un peu différent. A nouveau, je ne suis pas juriste, mais il me paraît difficile de voir dans les mots juif ou musulman des insultes (j'espère !). Le point de vue judiciaire sur ce cas serait intéressant (mais apparemment ce n'est pas la ligne d'attaque qu'ont choisie les associations, puisqu'elle ne se plaignent pas d'une insulte mais d'un fichage illégal).


5. Google intervient-il ?

Oui. Contrairement à ce que la firme déclare le processus n'est pas totalement algorithmique, et il y a bien intervention humaine (même en dehors des cas imposés par la justice comme ci-dessus). Certainement pas pour ajouter des suggestions mais pour en filtrer certaines. Par exemple, il est assez simple de vérifier que « les arabes... », « les nègres... » ou « les youpins... » ne ramènent aucune suggestion. Il y a donc bien une liste d'exclusion, mais elle semble assez rudimentaire, et le choix des termes filtrés paraît assez aléatoire.

On peut d'ailleurs, de façon assez intéressante, voir sous la surface de l'algorithme car la liste ne semble pas inclure les fautes d'orthographe...






6. Des solutions techniques existent-elles ?

Oui. Il serait assez trivial pour une firme qui a les moyens de Google d'opérer des filtrages sur un certain nombre de « patrons » de requêtes correspondant à ce qui choque le plus apparemment les sensibilités, à savoir l'association d'un patronyme avec une liste de mots tels que juif, musulman, escroc, etc.


7. Pourquoi Google ne réagit-il pas ?

Seule la firme a la réponse. Le phénomène est connu depuis plusieurs années et Google ne souhaite visiblement pas intervenir. Même dans les cas qui ont porté à condamnation (comme l'association avec le mot escroc) on voit qu'aucune action globale n'a été prise (exemple « Sarkozy escroc » ci-dessus).


8. Faut-il réagir ?

Je n'ai pas un penchant réglementeur et liberticide, mais visiblement des gens ou des groupes sont dérangés, voire choqués, par certaines suggestions. Mais jusqu'où faut-il aller ? Les correcteurs orthographiques n'osent plus proposer le mot arabe ou le mot juif... Est-ce bien raisonnable ?

Le débat est donc nécessaire, et même salutaire.

*

Finissons sur une note d'humour sur le mode de l'arroseur arrosé :


Peut-être que la dernière suggestion est la bonne. Cela expliquerait toutes ces questions qu'on lui pose sur les religions : Il doit savoir...


12 Commentaires:

Anonymous Anonyme a écrit...

article très instructif comme toujours,
je crois qu'il y a une erreur dans la date 5/1/12 pour 1/5/12
Emmanuel

01 mai, 2012 23:11  
Blogger Jean Véronis a écrit...

merci pour le compliment ! et merci de me signaler le coup de la date... Visiblement Blogger me la met au format américain. Je vais voir si ça se paramètre.

01 mai, 2012 23:15  
Anonymous Anonyme a écrit...

déjà en mars 2011...

01 mai, 2012 23:59  
Anonymous EtienneB a écrit...

Il y a bien moyen de leurrer Google Suggest assez facilement.

http://www.deliciouscadaver.com/comment-definitivement-pourrir-la-e-reputation-de-quelquun-pour-5e.html

02 mai, 2012 01:21  
Blogger Jean Véronis a écrit...

EtienneB> Un grand merci pour ce lien (je le remets en format cliquable).

02 mai, 2012 09:06  
Blogger Xavier a écrit...

Pour le point 3, la réponse est apparemment oui et cela a déjà été pratiqué à grande échelle. Ici par des roumains pour améliorer la perception de leurs concitoyens par les internautes: http://www.seomoz.org/blog/romanians-are-smart-or-how-to-change-the-google-autocomplete-suggestions

02 mai, 2012 09:18  
Blogger Jean Véronis a écrit...

Xaxier> Merci pour ce lien édifiant (cliquable ici).

Vous comprenez mon usage prudent du conditionnel, dans une affaire en cours de jugement. Mais on va dire qu'il ya des indices convergents...

02 mai, 2012 09:38  
Anonymous elifsu sabuncu a écrit...

Un détail, mais pas vraiment...Juif n'est pas que une religion, et donc se demander si quelqu'un est juif n'est pas tout à fait seulement une question sur sa religion...Quand on veut stigmatiser voire persécuter un juif, on ne s'intéresse pas tant à sa religion qu'à son orgine familale, ethnique, culturelle, géographique, etc. ou une combinaison de tout ça. Je sais que c'est difficile pour pas mal de personnes de comrpendre ça, et pourtant...c'est vrai.

02 mai, 2012 15:50  
Blogger Jean Véronis a écrit...

Oui. Cela vaut pour toutes les religions d'ailleurs...

02 mai, 2012 15:54  
Anonymous sebastien a écrit...

Et si on prenait du recul … et qu'on acceptait que Google ne soit pas un oracle ?

Ce ne sont que des algo. qui peuvent être manipulés (par du spam comment ou autre technique BH) … de plus ces réponses sont relatives (géoloc par ex. et temporaires) …

Encore une fois, ce n'est qu'un outil ! Google suggest est la manifestation statistique de ce que cherchent les utilisateurs … et de plus cela peut être manipulé …

Demander à Google de filtrer ? sur quelle base ? ou et la limite ?

si la réponse à Google serait un algo pour limiter ces réponses, il y aurait d'autres pb liés car de personnes mal intentionnées pourraient retourner ce filtrage à leur avantage (ou ceux de leur client).

bref, avant de voir le mal chez les autres, regardons en nous !


Sebastien

10 juin, 2012 11:28  
Anonymous grugru a écrit...

Pour le dernier point, oui, google est bien Dieu , voici l'argumentaire :
http://www.thechurchofgoogle.org/

26 octobre, 2012 23:48  
Blogger Khalid Nadir a écrit...

Au états unis, l'origine ou la "culture", la religion d'une personne n'est pas un tabou, il suffit de chercher des célébrités sur wikipedia us, pour être renseigné quand la personne est juive, ou arabe ou autre.

D'ailleurs l'affaire de l'application iphone ou on pouvait chercher qui est juif et qui ne l'est pas était crée par un juif (sic)
Je crois que bcp de gens cherchent à savoir si quelqu'un est juif mais sans arrière pensé antisémite.
Moi qui suit d'origine arabe, je faisais une recherche sur isabelle adjani par hasard, et il y était fais mention qu'elle était d'origine maghrébine, je le savais mais j'ai eu plus de détails, ce n’était pas le but de ma recherche, mais cela m'a intéressé
, pas par communautarisme, ça je m'en fous, mais cela vous donne une vision différente de la personne que vous pouvez recouper avec vote histoire dans mon cas.

Et c'est la la vrai difficulté, comment savoir qu'une recherche est antisémite?

Si on enlève toute les recherches dites antisemites, finalement il doit rester que des suggestions racistes et elle doivent être minime.

Et puis finalement aussi, je me rappelle être tombé sur une recherche sur le suicide (par hasard hein) le premier lien invitait a savoir comment se donner la mort le plus facilement, mais apres avoir cliqué dessus, on avait un long texte rassurant avec bcp d'espoir et bien ecrit qui tenter de rassurer le suicidaire et lui donner les moyens d'en sortir.

Bref, toute cette affaire est grossi et porté par des gens qui ne sont pas sur internet, les mêmes personnes qui disait que twitter ne servait exclusivement qu'a la délation.

L’hypocrisie de google qui me gène, c'est que la censure existe, celle des termes "porno" par exemple, qui est arbitraire, parce qu’on peut faire des recherches avec des mot crues, mais pas avec le but de tomber sur des sites purement pornos
Mais ils le font surement pour lutter contre le spam.

Le seul consensus sur la censure dans le web reste toujours la lutte contre le spam.

28 juin, 2013 09:45  

Enregistrer un commentaire