Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

jeudi, février 09, 2006

Web: Petites études pornométriques (2)


J'ai montré dans le précédent billet que Google avait une vision bien à lui de ce que pouvaient être des pages à caractère pornographique. Google n'en faisait manifestement pas assez (voir ici). Maintenant, il semble bien qu'il en fasse un peu trop... De plus, l'intensité du filtrage semble assez différente selon les langues. Un examen un peu plus attentif montre que Google considère la version française de la Constitution Européenne comme "unsafe", mais pas la version anglaise. Cette constatation m'a incité à comparer le comportement de plusieurs moteurs sur les deux langues, français et anglais.

Les moteurs que j'ai retenus sont les mêmes que ceux qui ont servi à l'étude comparative que j'ai entreprise avec mes étudiants de la licence MASHS à Aix (voir 1, 2, 3, 4, 5) et dont je vous donnerai les résultats finaux dans les tout prochains jours (suspense...!). Il s'agit des trois "grands" américains: Google, Yahoo! et MSN, auxquels j'ai ajouté trois moteurs français, Exalead, Voilà et le très expérimental Dir.com. J'ai comparé, lorsque c'était possible, le comportement des moteurs sur le français et l'anglais: pour chacune de ces deux langues j'ai sélectionné 150 mots de façon aléatoire (en m'assurant tout de même qu'aucun n'était par accident un mot à connotation sexuelle). J'ai relevé pour chaque moteur le pourcentage de pages qui étaient suspectées de pornographie par chacun de moteurs. Les moyennes sont résumées par le diagramme ci-dessous:


Ce diagramme est plein d'enseignements. Le plus frappant est sans doute la très nette différence entre les langues. Le comportement des moteurs est beaucoup plus homogène sur l'anglais (encore qu'il varie tout de même presque du simple au double). En revanche, pour le français, les résultats vont de 2% pour Exalead à 10% pour Google. Est-ce à dire que certains moteurs (Exalead en particulier) filtrent moins bien les pages pornographiques que d'autres? C'est moins que certain: sur des requêtes "normales" comme celles qui ont été utilisées dans l'étude entreprise avec mes étudiants, tous les moteurs ont un comportement équivalent. En fait, le filtre est extrêmement performant pour tous les moteurs: au total, sur 4200 résultats retournés, seuls un ou deux sont de caractère franchement pornographique (et peut-être une petite poignée discutables, comme des échanges un peu chauds sur des forums).

L'autre point frappant est la différence de comportement pour un même moteur, lorsqu'il traite les deux langues. MSN, et surtout Google, filtrent beaucoup plus de pages en français qu'en anglais. C'est particulièrement net pour Google qui passe de 3,5% à 10,0%. A l'inverse, Exalead passe de 2,0% pour le français à 5,6% pour l'anglais. Je ne note pourtant pas de différence particulière en passant d'une langue à l'autre sur le même moteur.

L'explication de ces différences me semble être double. Tout d'abord, les moteurs en font certainement trop: ne sachant pas faire un travail très fin (c'est difficile, je le reconnais!), ils ont tendance à surfiltrer, peut-être en utilisant des critères autres que lexicaux (c'est manifestement le cas pour la Constitution Européenne avec Google). C'est une tendance générale, particulièrement chez Google: sous la pression des internautes, des filtres sont mis en place très vite, et évidemment, la seule façon de faire marcher un filtre quand on n'a pas une technologie linguistique très fine est de sortir sa plus grande louche, et d'écrémer généreusement. J'ai mentionné ce type de problème à propos du splog (ici et ici).

L'autre partie de l'explication vient du fait que les compétences linguistiques des moteurs sont très variables. J'ai déjà eu l'occasion de mentionner qu'à mon sens Google n'est pas très bon sur les langues autres que l'anglais (par exemple ici). Les résultats ci-dessus semblent le confirmer. A l'inverse, on voit qu'Exalead, moteur français, est meilleur sur le français que sur l'anglais. Yahoo! est à peu près stable d'une langue à l'autre.

En tous cas, que 10% des pages françaises disparaissent dans Google lorsque le filtre SafeSearch est activé me paraît un peu fort de café. Avec de telles stratégies, on est à peu près certain de ne plus être importuné par le porno-spam, mais combien de sites et de documents tout à fait corrects et légitimes passent-ils à la trappe? Bien sûr, ce sont principalement des sites de PageRank faible qui sont affectés (et c'est sans doute pour ça que personne ne proteste), mais tout de même...

Libellés :


6 Commentaires:

Anonymous Ludovic a écrit...

J'ai travaillé sur le filtrage pornographique sur le Web (en utilisant le texte et le texte+image), je vous fais part des constatations que j'avais eu à faire à ce moment :
* Un système de filtrage performant est aujourd'hui capable de détecter environ 92% des pages pornographiques; en contrepartie, il va bloquer de l'ordre de 3 à 5 % de pages non pornographiques (en particulier des pages dites "ambigues" : sexualite, medecine,...)
* Après des test sur une multitude de langues européennes, il apparaît qu'il n'y a que très peu de différences de performances à attendre d'un langage à l'autre, si ce n'est pour l'allemand qui est une langue dont la taille du vocabulaire est très grande.
* Enfin, les différences constatées entre les différentes langues pour les moteurs étudiées proviennent en grande partie du fait que les modèles de filtrage de ces moteurs sont loins d'être parmi les plus performants !! (cependant, les contraintes des sociétés comme Google, Yahoo, etc.. ne sont pas les mêmes que celles avec lesquelles j'ai travaillé)

Pour finir, l'utilisation des images permet de gagner quelques precieux pourcentages (en particulier pour les pages Web qui ne contiennent que des images et pas de texte !); l'autre avanatage est que les images sont quant à elles indépendantes de la lange utilisée


Cordialement,

Ludovic

P.S : A l'heure d'aujourd'hui, il est marrant de constater que les performances des moteurs de filtrage se degradent. Ceci est du aux tresors d'ingeniosite que les Webmaster de sites pornos deploient pour empecher le filtrage.

09 février, 2006 15:26  
Anonymous Dominique a écrit...

Ludovic : si ce n'est pour l'allemand qui est une langue dont la taille du vocabulaire est très grande.

Est-ce que vous pourriez expliquer parce que je ne suis pas. Le lexique de l'allemand est sans doute plus étendu que celui de l'anglais si l'on prend en compte les formes fléchies et les termes régionaux ou les graphies dialectales, mais euh... la base lexicale de l'allemand standard me semble juste un peu plus réduite que pour l'anglais et le français. Est-ce qu'une langue comme le hongrois serait aussi difficile à filtrer du fait de la multitude de formes avec des affixes qui créent encore plus de pseudo-mots qu'en anglais ?

09 février, 2006 21:28  
Anonymous Merome a écrit...

"Cette constation m'a incité à comparer"
=> constaTAtion.

Maitre Capello a parlé.

10 février, 2006 08:26  
Blogger Jean Véronis a écrit...

Merci Capello!

10 février, 2006 13:09  
Blogger Kaa a écrit...

J'aime bien l'"avanatage", ça sonne avanie...

Maître-es Capella.

Très juste remarque, Dominique. Je dirais même que le lexique de l'anglais est l'un des plus étendus.

Cela dit, les capacités d'analyse linguistique des moteurs actuels sont si pauvres (quand ils en proposent) que l'on comprend le problème.

Il va en falloir des blogs pour démontrer l'intérêt de ces technos... dur dur de faire du mou ;-)

10 février, 2006 15:44  
Blogger Jean-Marie Le Ray a écrit...

Franchement, je me demande si Google va oser filtrer ma turlutte, ce qui serait bien dommage :-)
Jean-Marie Le Ray

17 février, 2006 09:41  

Enregistrer un commentaire