Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, février 07, 2006

Web: Petites études pornométriques (1)


En ces temps où elles ont tendance à révoquer un peu facilement (voir ici), les administrations devraient se doter d'outils modernes pour la cybersurveillance de leurs agents. Les entreprises pourraient s'en servir également (en complément à la graphologie et à l'astrologie) pour licencier les licencieux: de la débauche à la débauche, direct... Bien entendu, Google, qui sert à tout, peut aussi servir à ça. Le principe est simple: tapez le nom d'un personne dans Google deux fois: une fois avec le filtre SafeSearch activé, une fois avec le filtre SafeSearch désactivé (n'oubliez pas les guillemets)... Une soustraction et une division, et hop, vous avez le pourcentage de pages mentionnant cet(te) individu(e) que Google considère comme pornographiques! Pour rendre la chose encore plus simple, une équipe de joyeux lurons utilomanes ont même développé un outil basé sur Google et qui fait exactement ça: le Slut-O-Meter.



Sur ce genre d'outil, la première chose qu'on fait, c'est généralement taper son nom: c'est irrésistible. Je n'ai pas dérogé à la règle, et la conclusion est sans appel; je suis un gros dégueulasse:



Google connaît 607 000 pages contenant le mot véronis au total, c'est-à-dire sans le filtre (tiens, Google a dégraissé, j'ai frisé les 2 millions en septembre, mais il faut dire que le moteur était affamé), et seulement 376 000 de ces pages sont "safe"! Donc, près de 62% des pages qui contiennent mon doux nom sont considérées comme pornographiques par Big Google! Or, je n'ai pas tellement d'homonymes et en tous cas, pas parmi les actrices de film porno. Je suis mal. Très mal...

Ah oui, mais attendez avant de me révoquer, ce sont des pages qui parlent de moi, pas forcément des pages écrites par moi. Voyons par exemple d'autres célébrités:

Célébrité%
"Rocco Siffredi"91.23
"Linda Lovelace"79.65
"Jennifer Lopez"64.24
"Britney Spears"52.89
"George Clooney"28.97
"Brad Pitt"28.80
"George W. Bush"5.93
"Jacques Chirac"3.28

Il est évident que ces gens-là n'ont pas écrit toutes ces pages eux-mêmes. Certains font manifestement fantasmer la planète -- d'autres moins. Je savais que j'avais un fan club, mais tout de même, que je me retrouve quelque part entre Britney Spears et Jennifer Lopez, ça me la coupe...

Première hypothèse: je suis spammé. Les créateurs de sites bidons, porno et autres, aiment bien truffer leurs pseudo-pages de mots et textes divers et variés, de façon à (essayer de) feinter les moteurs de recherche... Une technique très répandue consiste à récupérer automatiquement les résultats de Google sur certaines recherches appropriées, et à tout bêtement copier les résultats dans les sites bidons à construire. Et comme j'ai parlé une ou deux fois de sexe [ici ou ici], et que je me classe même premier sur certaines requêtes chaudes, ça ne m'étonnerait pas que ma prose ait été vampirisée.

Évidemment, c'est le cas... Comment le savoir? Il suffit de taper veronis suivi d'un autre mot-clé bien crad (je suis sûr que vous n'avez pas besoin que je vous en suggère, ça pourrait m'attirer des ennuis avec mon Ministre). Vous tombez sur des pages de porno-spam du genre:

Delireecom amateur Pages similaires GRATUITewwwesexeinsexeecom films En 2005 ultra perso, decouvrez du partouzes, Pages similaires achat liensedruunaenet googles Vidéo sexe xxx, Pages similaires : avertis liens videos.
de.
sexe.
hardcoreehtml (+4) vous Pages similaires gratuit, sexe.
shop, Allopasswwwetirez.
moiecomFilles .
pour 21 annuaire sexe .
cgi.
veronis harde .

Je n'ai pas choisi les extraits les plus chauds (j'ai ce sentiment diffus qu'on lit par-dessus mon épaule [mise à jour 08/02: voir aussi ici]), mais vous voyez que tout ceci est du brassage de résultats de Google. Les spammeurs ne s'embarrassent même pas à enlever le célèbre "Pages similaires".

Alors, ceci expliquerait-il ma cyber-cochonceté? En fait, non; j'ai fait des recherches systématiques, et Google ne retourne pas plus de quelques centaines de pages de ce type contenant le mot veronis. L'explication est ailleurs: c'est bien moi qui suis l'auteur de ces centaines de milliers de pages abjectes, à l'insu de mon corps défendant. En voici la preuve. Vous savez que l'on peut restreindre la recherche de Google à un site particulier, avec le mot-clé site:


Sans filtre


Avec filtre

Me voilà pris la main dans la culotte le sac. J'ai donc déposé 387 000 - 93 700 = 293 300 pages pornographiques sur le serveur de l'Université. Je suis bon pour l'exil...

Mais que sont ces pages, vous demandez-vous? Vous vous souvenez peut-être, si vous êtes un vieux lecteur de ce blog, que j'ai mis en ligne au mois d'avril un petit moteur de recherche (un "concordancier") sur la Constitution Européenne. Il est toujours là. Dans sa quête désespérée de pages nouvelles pour gonfler son index, Google s'était engouffré pendant l'été dans ce véritable "spider trap" involontaire, et avait indexé des centaines de fragments virtuels de la Constitution (voir ici)...

Ce que je n'avais pas réalisé, c'est que Google considère manifestement ce projet de Constitution comme de la haute pornographie. A ne pas montrer aux enfants: certains l'avaient bien dit que ce document était obscène...





Lire la suite


30 Commentaires:

Anonymous Anonyme a écrit...

hmmm, le slut-o-meter marche curieusement

sodomie

Promiscuity: -354750.75% (-9507320000 / 2680000)
Popularity: 2

en anglais les résultats semblent plus logiques.

07 février, 2006 15:54  
Anonymous Frédéric a écrit...

ça alors, j'ai un score négatif !

07 février, 2006 15:57  
Blogger Jean Véronis a écrit...

Les scores négatifs sont dus au fait que certains mots comme celui que notre anonyme a mentionné sont éliminé de la requête lorsque le filtre est activé. En fait, Google retourne alors un nombre de résultats de l'ordre de 9,5 milliards (on ne sait pas trop pourquoi).

Donc 2,5 millions (sans filtre) - 9,5 milliards (avec filtre), ça donne un résultat négatif.

Les concepteurs auraient pu facilement prévenir le bug.

Plus amusant : ceci

07 février, 2006 16:03  
Blogger Jean Véronis a écrit...

Frédéric> C'est la première étape vers la béatification.

07 février, 2006 16:05  
Anonymous Laurent a écrit...

Mes résultats sont étranges :
gloaguen
Promiscuity: -103.81% (-300000 / 289000) [négatif !]
Popularity: 6

laurent gloaguen
Promiscuity: 13.05% (8000 / 61300)
Popularity: 5

embruns
Promiscuity: 8.23% (48000 / 583000)
Popularity: 5

Ber, je suis bien moins cochon que Véronis, étonnant, non ?

07 février, 2006 16:15  
Blogger Kaa a écrit...

Très intéressant... Je me demande si c'est le domaine qui veut ça :
NLP
Promiscuity: 55.62% (4900000 / 8810000)
Popularity: 1

Toutes les pornographies ne sont décidemment pas reconnues :
CPE
Promiscuity: 0.99% (90000 / 9120000)
Popularity: 10

07 février, 2006 16:29  
Blogger Jean Véronis a écrit...

Kaa> NLP -- ça doit être parce que les mêmes pages me citent ;-)

07 février, 2006 17:15  
Anonymous Neville a écrit...

garfieldd : à peine plus de 14 %
Galouzeau : plus de 42 %

à votre avis, lequel des deux est suspendu pendant 6 mois ferme,après avoir failli être révoqué ?

J'ai quand même l'impression que cet outil est un peu approximatif : viol moins de 9%.


Neville

07 février, 2006 18:12  
Anonymous Neville a écrit...

Au fait, Veronis à 61,94 %, c'est à peine plus que Benoit XVI, à 58,96 %. Mais Ratzinger est à 8,91 % Alors, est-ce la fonction papale qui incite à la débauche ?

Bref, cet outil est un peu n'importe quoi quand même.

Neville

07 février, 2006 19:07  
Blogger Jean Véronis a écrit...

Neville> Cet outil est un peu n'importe quoi quand même -- Comme l'outil ne fait que retourner les comptes de Google, des conclusions s'imposent! Mais ne me coupez pas l'herbe sous le pied: j'ai prévu une suite ;-)

07 février, 2006 19:10  
Blogger TOMHTML a écrit...

moi aussi je suis à un pourcentage négatif (-102%) : je suis un saint ! :D

07 février, 2006 19:55  
Anonymous Malaiac a écrit...

Et si au lieu de faire des pages pornographiques, vous passiez la bague au doigt de la charmante jeune fille origine de l'Europe ?

A quel doigt ?

D'après Google, ca doit être l'annuaire :
http://www.google.fr/search?q=annulaire+index
credit : Phobos / WRI

07 février, 2006 22:41  
Blogger Vicnent 31415 a écrit...

Jean est un pornographe pornologue car il n'a pas les bonnes lectures...

Par contre, Nicolas a dû lire le livre, François, non...

07 février, 2006 22:59  
Blogger Jean Véronis a écrit...

Vicnent 31415> Excellent! Bravo. Moi je me lance dans "La pornométrie pour les nuls" ;-)

08 février, 2006 07:49  
Blogger Jean Véronis a écrit...

Malaiac>Et encore pire: requête

annulaire index -annulaire

Voilà un bel exemple de truc démarré par Google et jamais fini: ils ont commencé à mette en place une correction orthographique automatique, mais c'est ni fait ni à faire (et en tous cas on ne sait pas exactement ce que ça fait!)

08 février, 2006 07:52  
Anonymous Laurent Roussarie a écrit...

Les résultats négatifs sont expliqués sur la page d'info: http://slut-o-meter.com/about/. Encore une imposture de Google ?

Et Jean, sais-tu que tu es nettement devant Brigitte Lahaie ?...

08 février, 2006 12:48  
Blogger Jean Véronis a écrit...

Laurent> Je crois que je vais me recycler ;-)

08 février, 2006 13:04  
Anonymous Guess Who a écrit...

C'est bien la première fois qu'une constitution me fait rire !

08 février, 2006 14:27  
Anonymous Anonyme a écrit...

Rien à voir avec le billet, mais BigloTron (http://www.biglotron.fr/) utilise sur sa page d'acceuil le Nébuloscope !

08 février, 2006 16:41  
Blogger Jean Véronis a écrit...

Anonymous> Oui, je sais, ils m'ont prévenu (ça n'est pas ma version). J'espère qu'ils mettront un petit mot pour qu'on se rappelle l' "inventeur"... (je ne suis "inventeur" que de l'idée qui consiste à présenter les résultats de moteurs sous forme de nuages, pas des nuages aux-mêmes, bien sûr!)

08 février, 2006 17:16  
Blogger Loran Bernardi a écrit...

Bonjour,
les plus grands talents ont des joies inavouables!!
Heureusement Godgle sait bien lui trier le bon grain... ;)

Toutes blagues mises a part, je comprends mal en quoi la constitution est reconnue comme tendancieuse par Google.

Comment faites vous le lien entre l'indice pornographique et ce pauvre texte?
J'imagine que c'est en analysant les pages manquantes dans la version expurgée de la recherche?

Cela dit je ne comprends toujours pas bien...
Le contenu ne contient pas (a priori) un pourcentage démesuré de mots cochons.. a peine 10 reponses pour le mot "sexe"... et je ne vois pas quels autres mots pourraient etre tendancieux?
Est ce la méthode (le "spider trap" involontaire) qui vous transforme en affreux pornographe aux yeux (percants) de Google?

Bonne soiree.

08 février, 2006 17:40  
Blogger Jean Véronis a écrit...

Loran> Oui, je fais le lien en regardant quelles sont les pages qui disparaissent avec le filtre. Pourquoi sont-elles condérées comme "unsafe", c'est une bonne question...

08 février, 2006 17:59  
Anonymous Neville a écrit...

Loin de moi l'intention de vous couper l'herbe sous le pied. Je m'abstiens donc de vous mentionner d'autres requêtes que j'ai effectuées, qui m'ont laissé perplexe. J'attends la suite.

Juste une remarque : je ne conaissais pas le mot "pornométriques". J'ai essayé de voir sur le chronologue s'il était fréquemment employé. Non, sauf depuis un jour ou deux, mais alors-là, quel décollage !

Votre néologisme part très fort, bravo !

08 février, 2006 19:14  
Blogger Jean Véronis a écrit...

Neville> l'herbe sous le pied -- je rigole: vos remqrques m'intéressent beaucoup!

chronologue -- diable, je n'avaispas remarqué. On dirait quej'ai lancé une nouvelle science: la pornométrie!

08 février, 2006 19:16  
Anonymous toutinou a écrit...

En fait, ce n'est pas complétement curieux que des pages de concordancier soient condidérées comme pornographiques. Tout ceux qui ont déjà bossé sur des concordances (ou tout simplement qui en ont regardé deux-trois) savent à quoi ça ressemble : des morceux de textes, sans queue ni tête (littéralement). Je ne sais pas trop à quoi ressemblent les textes qui sont insidieusement insérés dans les sites pornos pour faire grimper le taux de réponses, mais ça ne m'étonnerais vraiment pas qu'il aient la même structure formelle.
Que google considère que c'est une caractéristique de site porno est donc plutôt normal.

08 février, 2006 22:43  
Blogger Agnès a écrit...

Aux futurs parents: deux outils très intéressants pour le test de prénoms.

Illustre inconnue, je n'ai que mon prénom à tester:

slut-o-meter:
Promiscuity: -214.73% (-9620 / 4480)
Popularity: 6

Le nébuloscope y associe principalement: France, Marie, Sainte.

Jeanne d'Arc n'a qu'à bien se tenir.

En Chine, j'ai été surprise de rencontrer le mot gril dans la saisie automatique:
http://www.google.fr/search?hl=fr&q=grils&meta=
La consultation de l'historique a confirmé cet usage approximatif de l'anglais.


Sur "animaux", cela s'est beaucoup calmé, il me semble que c'était odieux il y a quelques années.
"Regarde bébé on va regarder des images d'animaux!" Surprise!

09 février, 2006 12:12  
Anonymous Neville a écrit...

Monsieur le Professeur de licence, rassurez-vous, j'avais bien compris que votre remarque me demandant de ne pas vous couper l'herbe sous le pied était de l'humour, et n'avait pour but que de m'inciter à ne pas... comment dire... voilà, j'ai trouvé le mot juste : m'inciter à ne pas DEFLORER la suite.

09 février, 2006 16:54  
Blogger Jean Véronis a écrit...

Neville> Excellent!

Et j'ajouterai même: quel métier, professeur de licence! (on va voir s'il y a des habitués de l'Album de la Comtesse ;-)

09 février, 2006 17:02  
Anonymous Frédéric Meunier a écrit...

En fait, à la requête "Veronis +site:www.up..." il n'y a que 983 réponses "les plus pertinentes", et ceci dans les deux cas (avec et sans filtrage). A première vue, cela devrait te rassurer.

Toutefois, les ensembles d'URLs réponse ne sont pas identiques !...

Par ailleurs, il apparaît que sur les 983 réponses, plus de 750 sont des pages générées par le Nebuloscope (nous avons par exemple un "Nuage de couille" superbement filtré par Google).

Ainsi, Google récupère non seulement des pages dynamiques (au risque de tomber dans des spider traps comme tu le dis), mais également des pages "non déterministes", i.e. générées automatiquement sur la base d’information entrée par l’internaute, et ceci, par l’intermédiaire des fonctions avancées de la Google Toolbar (me semble-t-il).

10 février, 2006 16:38  
Anonymous JC Heckers a écrit...

Ben voilà... je veux tester, et paf:

"Le site slut-o-meter.com est bloqué.
(La catégorie "Sexualité" est filtrée.)

Cette catégorie est bloquée en permanence."

Faudra que je tente ma chance ailleurs que dans mon administration...

31 mai, 2007 16:03  

Enregistrer un commentaire