Web: Petites études pornométriques (2)
J'ai montré dans le précédent billet que Google avait une vision bien à lui de ce que pouvaient être des pages à caractère pornographique. Google n'en faisait manifestement pas assez (voir ici). Maintenant, il semble bien qu'il en fasse un peu trop... De plus, l'intensité du filtrage semble assez différente selon les langues. Un examen un peu plus attentif montre que Google considère la version française de la Constitution Européenne comme "unsafe", mais pas la version anglaise. Cette constatation m'a incité à comparer le comportement de plusieurs moteurs sur les deux langues, français et anglais.
Les moteurs que j'ai retenus sont les mêmes que ceux qui ont servi à l'étude comparative que j'ai entreprise avec mes étudiants de la licence MASHS à Aix (voir 1, 2, 3, 4, 5) et dont je vous donnerai les résultats finaux dans les tout prochains jours (suspense...!). Il s'agit des trois "grands" américains: Google, Yahoo! et MSN, auxquels j'ai ajouté trois moteurs français, Exalead, Voilà et le très expérimental Dir.com. J'ai comparé, lorsque c'était possible, le comportement des moteurs sur le français et l'anglais: pour chacune de ces deux langues j'ai sélectionné 150 mots de façon aléatoire (en m'assurant tout de même qu'aucun n'était par accident un mot à connotation sexuelle). J'ai relevé pour chaque moteur le pourcentage de pages qui étaient suspectées de pornographie par chacun de moteurs. Les moyennes sont résumées par le diagramme ci-dessous:
L'autre point frappant est la différence de comportement pour un même moteur, lorsqu'il traite les deux langues. MSN, et surtout Google, filtrent beaucoup plus de pages en français qu'en anglais. C'est particulièrement net pour Google qui passe de 3,5% à 10,0%. A l'inverse, Exalead passe de 2,0% pour le français à 5,6% pour l'anglais. Je ne note pourtant pas de différence particulière en passant d'une langue à l'autre sur le même moteur.
L'explication de ces différences me semble être double. Tout d'abord, les moteurs en font certainement trop: ne sachant pas faire un travail très fin (c'est difficile, je le reconnais!), ils ont tendance à surfiltrer, peut-être en utilisant des critères autres que lexicaux (c'est manifestement le cas pour la Constitution Européenne avec Google). C'est une tendance générale, particulièrement chez Google: sous la pression des internautes, des filtres sont mis en place très vite, et évidemment, la seule façon de faire marcher un filtre quand on n'a pas une technologie linguistique très fine est de sortir sa plus grande louche, et d'écrémer généreusement. J'ai mentionné ce type de problème à propos du splog (ici et ici).
L'autre partie de l'explication vient du fait que les compétences linguistiques des moteurs sont très variables. J'ai déjà eu l'occasion de mentionner qu'à mon sens Google n'est pas très bon sur les langues autres que l'anglais (par exemple ici). Les résultats ci-dessus semblent le confirmer. A l'inverse, on voit qu'Exalead, moteur français, est meilleur sur le français que sur l'anglais. Yahoo! est à peu près stable d'une langue à l'autre.
En tous cas, que 10% des pages françaises disparaissent dans Google lorsque le filtre SafeSearch est activé me paraît un peu fort de café. Avec de telles stratégies, on est à peu près certain de ne plus être importuné par le porno-spam, mais combien de sites et de documents tout à fait corrects et légitimes passent-ils à la trappe? Bien sûr, ce sont principalement des sites de PageRank faible qui sont affectés (et c'est sans doute pour ça que personne ne proteste), mais tout de même...
Libellés : Google
6 Commentaires:
J'ai travaillé sur le filtrage pornographique sur le Web (en utilisant le texte et le texte+image), je vous fais part des constatations que j'avais eu à faire à ce moment :
* Un système de filtrage performant est aujourd'hui capable de détecter environ 92% des pages pornographiques; en contrepartie, il va bloquer de l'ordre de 3 à 5 % de pages non pornographiques (en particulier des pages dites "ambigues" : sexualite, medecine,...)
* Après des test sur une multitude de langues européennes, il apparaît qu'il n'y a que très peu de différences de performances à attendre d'un langage à l'autre, si ce n'est pour l'allemand qui est une langue dont la taille du vocabulaire est très grande.
* Enfin, les différences constatées entre les différentes langues pour les moteurs étudiées proviennent en grande partie du fait que les modèles de filtrage de ces moteurs sont loins d'être parmi les plus performants !! (cependant, les contraintes des sociétés comme Google, Yahoo, etc.. ne sont pas les mêmes que celles avec lesquelles j'ai travaillé)
Pour finir, l'utilisation des images permet de gagner quelques precieux pourcentages (en particulier pour les pages Web qui ne contiennent que des images et pas de texte !); l'autre avanatage est que les images sont quant à elles indépendantes de la lange utilisée
Cordialement,
Ludovic
P.S : A l'heure d'aujourd'hui, il est marrant de constater que les performances des moteurs de filtrage se degradent. Ceci est du aux tresors d'ingeniosite que les Webmaster de sites pornos deploient pour empecher le filtrage.
Ludovic : si ce n'est pour l'allemand qui est une langue dont la taille du vocabulaire est très grande.
Est-ce que vous pourriez expliquer parce que je ne suis pas. Le lexique de l'allemand est sans doute plus étendu que celui de l'anglais si l'on prend en compte les formes fléchies et les termes régionaux ou les graphies dialectales, mais euh... la base lexicale de l'allemand standard me semble juste un peu plus réduite que pour l'anglais et le français. Est-ce qu'une langue comme le hongrois serait aussi difficile à filtrer du fait de la multitude de formes avec des affixes qui créent encore plus de pseudo-mots qu'en anglais ?
"Cette constation m'a incité à comparer"
=> constaTAtion.
Maitre Capello a parlé.
Merci Capello!
J'aime bien l'"avanatage", ça sonne avanie...
Maître-es Capella.
Très juste remarque, Dominique. Je dirais même que le lexique de l'anglais est l'un des plus étendus.
Cela dit, les capacités d'analyse linguistique des moteurs actuels sont si pauvres (quand ils en proposent) que l'on comprend le problème.
Il va en falloir des blogs pour démontrer l'intérêt de ces technos... dur dur de faire du mou ;-)
Franchement, je me demande si Google va oser filtrer ma turlutte, ce qui serait bien dommage :-)
Jean-Marie Le Ray
Enregistrer un commentaire