Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

vendredi, avril 13, 2007

Splogs: L'invasion


Les splogs sont de retour, de façon massive. Ce sont de faux blogs (splog = spam + blog, écouter ici) destinés à vous vendre du viagra, des médicaments, de la pornographie, etc. ou simplement à faire de l’argent avec la publicité Google. J’avais mentionné une première invasion en septembre 2005, dont était largement responsable la plateforme gratuite de blogs de Google, Blogger (sur laquelle est d’ailleurs hébergé le présent blog). Une estimation rapide montrait qu’à peu près 60% des blogs créés sur Blogger à l’époque étaient du spam, créé par des robots automatiques (voir ici et ici). Le résultat était catastrophique en termes de recherche sur Google, puisque la plupart des requêtes se mettaient à retourner des splogs en guise de résultats.



Blogger et Google avaient réagi assez vite. Blogger avait mis en place des mesures visant à empêcher la création de faux blogs, dont le système assez pénible, mais devenu maintenant standard, de « captchas » (ces petites lettres tordues qu’il faut taper pour prouver que vous n’êtes pas un robot).

De son côté, Google avait appliqué des algorithmes de détection de spam assez drastiques (au détriment d’ailleurs de vrais blogs qui se sont retrouvés pénalisés, mais aux grands maux les grands remèdes). Il faut dire que le business de la firme, dont le modèle économique dépend à 98% des recettes publicitaires liées au moteur (c’est son talon d’Achille), était sérieusement menacé. Les utilisateurs ont montré dans le passé (souvenez-vous d'Altavista) qu’ils peuvent en quelques mois tourner le dos au leader du marché et aller voir un concurrent plus performant.

Mais voilà que ça recommence. Depuis la mi-mars, environ, la blogosphère est à nouveau envahie par les splogs. Cette fois-ci, ce n’est plus le référencement à travers Google qui est visé, puisque le moteur a bétonné la chose. Ce sont les « trackbacks » ou rétroliens automatiques qui sont visés. On est entré dans l’ère du « trackback spam ».

Vous savez certainement ce que sont ces rétroliens automatiques. Lorsque quelqu’un met dans un de ses billets un lien vers l’un des vôtres, votre plateforme de blogs crée automatiquement (si vous la configurez pour ça, évidemment) un lien en retour vers ce billet qui vous cite. Très pratique. J’utilise ce système moi-même sur ce blog. D’une part en colonne de gauche (« Ils en parlent… »), et d’autre part à la fin de chaque billet. Je trouve que c’est vraiment l’une des forces des blogs, car le système permet à l’auteur du blog (et à ses lecteurs) de découvrir des sites nouveaux et souvent inattendus. Vous aurez remarqué, j’en suis sûr, que je n’ai pas de « blogroll », c’est-à-dire de liste de blogs amis. On m’a souvent demandé pourquoi. D’une part parce que je lis beaucoup de blogs, et je ne veux vexer personne en ne mentionnant pas tout le monde, mais aussi, et surtout, parce que je trouve que les blogrolls renforcent l’un des dangers que je vois dans les blogs : le communautarisme. Chacun a tendance naturellement à se renfermer sur une communauté de blogs qui lui sont proches : c’est plus facile que d’aller lire des choses nouvelles, d’aller affronter la contradiction. Les rétroliens automatiques me semblent aller dans un sens d’ouverture : ils créent la surprise, parfois la contradiction, et permettent de lutter contre l’enfermement communautaire.

Seulement, voilà. Les spammeurs ont vite compris qu’il y avait de l’argent à tirer de l’affaire. En mettant des liens vers votre blog, ils font apparaître chez vous des liens vers leurs sites de casinos en ligne, vente de viagra, et autres cochonneries ou arnaques du Web, et depuis la mi-mars cette pratique a littéralement explosé, au point de devenir une nuisance majeure. Imaginez par exemple un blog tout mignon relatant les activités de votre chérubin ou de votre école de quartier sur lequel se mettent à apparaître des propositions zoophiles… Succès garanti. Une fois de plus, le responsable numéro 1 de cette invasion est Blogger.

A titre d’exemple, je vais prendre ce blog. Je crée la liste des rétroliens de la rubrique « Ils en parlent » à partir d’une requête sur le système de recherche de blogs Google Blogsearch (link:aixtal.blogspot.com). Jusqu’ici j’affichais les 10 premiers résultats, et je n’avais que très rarement de rétroliens malodorants. Si peu que je n’avais pas à m’en soucier. Et puis à la mi-mars, ça a commencé à arriver. Un par jour, puis deux, trois… et pour finir, depuis quelques jours la totalité de la liste des 10 premiers rétroliens est du spam.

Voici par exemple les 10 premiers résultats retournés aujourd’hui. Tous sont des splogs qui pointent vers mon blog (entre autres) :
  • Decrank ringtone aa href http www motorola Krzr K...
  • Com mpringtones N nice To Know You ringtone middot...
  • Pl Sport, friant California cars. milwaukee casino...
  • Full tilt poker login window
  • Load mp3 songs to motorazr
  • Shoshone Indian Shoshone nba Championship Odds To ...
  • Pm Sunday Brunch am - betsoff Gambling Addiction, ...
  • Mp3 ringtone studio 6600
  • Apply online for a loan from Halifax Personal Loan...
  • Gambling akes
En allant plus loin, et en examinant les 100 premiers résultats, un seul est autre chose que du spam ! Tous les liens proviennent de Blogger :
  • http://letthatbeenoughblog.blogspot.com
  • http://dooney-alto-ring-flap-info.blogspot.com
  • http://black-jack-clubs-more.blogspot.com
  • http://full-tilt-poker-login-window-reports.blogspot.com
  • http://load-mp3-songs-to-mo-insights.blogspot.com
  • http://casino-in-daverport-blog.blogspot.com
  • http://soaring-eagle-casin-info.blogspot.com
  • http://mp3-ringtone-stud-reports.blogspot.com
  • http://cash-advances-for-peopl-blog.blogspot.com
  • http://gambling-akes-posts.blogspot.com
J'ai mis en place une parade drastique : je n'affiche plus aucun rétrolien en provenance de Blogger (c'est-à-dire blogspot.com), mais même en allant chercher 100 résultats, je n'ai pratiquement plus de rétroliens intéressants à afficher.

Alors vous vous dites sans doute : que fait la police ? C’est bien ce que je me demande aussi. Pourquoi est-ce que Google et Blogger laissent se dégrader la situation de manière aussi dramatique ? Du point de vue technique, il ne me paraît pas très compliqué de filtrer ces splogs. Ils ont des caractéristiques assez claires: une profusion de mots-clés évidents dans le texte (ringtones, loans, cars, cash, XXX, casino, etc.), des URLs qui contiennent elle-mêmes ces mots (souvent très longues avec des tirets), des blogs qui contiennent généralement un seul billet truffé de liens, etc. etc. etc. Le nettoyage est d’une simplicité enfantine. S’ils m’embauchent, je leur fais le job en deux jours.

Donc, la question subsidaire est : pourquoi ne le font-ils pas ? Pure négligence ? A moins qu’ils aient un intérêt à voir se dégrader le système de trackbacks pour une raison obscure ? Peut-être quelque chose de nouveau à vendre ?

15 Commentaires:

Blogger Vincent a écrit...

Est-ce un phénomène général ou un lien avec la campagne présidentielle existerait-il? Vous affichez tout de même une tête bien connue à la une de votre livre.

13 avril, 2007 13:24  
Anonymous Anonyme a écrit...

> Vincent : "Vous affichez tout de même une tête bien connue à la une de votre livre."

Je me suis dit : Tiens ! Je n'y avait pas prêté attention. Je vois le second livre sur Bayrou, avec Bayrou en couverture : normal. Mais le premier livre, Les politiques mis au Net. Là Bayrou est au milieu ...
Intéressant... Message subliminal ou désir d'avenir centriste ?


Bon, en fait, je fais ce commentaire juste pour vous dire que j'aime bien la couverture des Politiques mis au Net. Sans le faire exprès (?) le petit bouton "start" est situé sous le nez de JM Le Pen et c'est bizarre mais cela me fait penser à quelqu'un ? Entre Adolf et Charlie ... Non ?

13 avril, 2007 15:02  
Blogger b e n o i t a écrit...

Bonjour Jean,

Une nouvelle technique de contournement des robots est en train d'apparaître, plus "subtile" que les captchas : elle consiste à faire la différence entre un chat et un chien.

Peut-être en avez-vous entendu parler ? C'est une distinction très facile à faire pour un être humain, et très difficile pour une machine.

Chez Microsoft, le projet s'appelle ASIRRA :
http://research.microsoft.com/asirra/

13 avril, 2007 17:32  
Anonymous Olivier SC a écrit...

De peur de répondre à côté, je le fais dans un paragraphe d'un billet que je suis en train de préparer.

Où il apparait que : Google et Google Blog Search donnent des résultats différents ; on n'a pas ce type d'invasion sous WordPress ...

13 avril, 2007 18:30  
Blogger Benoît a écrit...

Oui, je rejoins mon "homologue éponyme" (sans savoir si ça se dit réellement) sur ce point, je connaissais déjà le système et je ne comprends vraiment pas pourquoi on ne l'utilise pas partout...
C'est pourtant tellement simple !

13 avril, 2007 23:55  
Anonymous D.Strohl a écrit...

Article intéressant, dans lequel on apprend plein de mots ou de concepts nouveaux.

J'aime bien la traduction de trackback (rétrolien); elle est courte, claire et précise.

Par contre, on n'a apparemment pas trouvé quelque chose d'équivalent pour les "catchas", terme plutôt ésotérique. Je propose "antirobs".

14 avril, 2007 16:52  
Blogger Jean Véronis a écrit...

Vincent> Non, il n'y a pas de lien avec la présidentielle. L'opération est d'ailleurs exclusivement anglophone.

14 avril, 2007 17:48  
Blogger Jean Véronis a écrit...

Anonyme> Je ne suis pas du tout auteur du graphisme, qui a été choisi et réalisé par l'éditeur. Sur le bouquin consacré à bayrou, c'est ormal qu'il y a ait sa tête, évidemment, mais sur l'autre, j'imagine qu'ils ont attribué une taille proportionnelle à la longueur des interviews de chaque candidat... Quant à la petite moustache, je n'avais pas remarqué, mais maintenant que vous le dites... ;-)

14 avril, 2007 17:51  
Blogger Adrien BREUILLIER a écrit...

bonjour Jean,

un mot entendu ce matin sur france info, néologisme lepénien particulièrement interessant.
après les européistes et autres sidaïques (je crois qu'en fait il faut dire sidéins) il a sorti pour qualifier les "sondagiers" le terme "sondomanes" à consonnance narcotique puisque : héroïnomanes, toxicomanes, opiomanes... les sondages, l'opium du peuple ?

Bon début de semaine (elle va etre rude)

A.

16 avril, 2007 10:05  
Blogger Jean Véronis a écrit...

Adrien> Oui, j'ai vu ça. La sondomanie... Mais -mane vient de mania, la folie, chez les Grecs. La sondomanie est peut-être la folie des sondages...

16 avril, 2007 12:33  
Anonymous Anonyme a écrit...

Oui, mais c'est sûrement la folie des accros du sondage... Enfin, vu le rapport fiabilité/prix des sondages,
il aurait plutôt dû les appeler les sondomites ;o)

17 avril, 2007 14:59  
Anonymous Alexis a écrit...

Ton spam est généré en fait par une seule et même personne.
Je me suis amusé a analyser les quelques urls que tu as donné, et au bout de la piste, on trouve un certain Kay Boski.

Profil sur blogger :

# Age: 22
# Gender: Male
# Astrological Sign: Aries
# Zodiac Year: Rat
# Industry: Technology
# Occupation: Spammer
# Location: Warsaw : Powisle : Poland

son blog principal, ou il explique sa passion ('collectionner les backlinks') : http://onlinemarketingreport.blogspot.com/

Si j'ai bien compris son astuce principale, c'est qu'il fait remplir les captchas par des humains, en les intégrant sur des sites de facon cachée. classique ? ;)

Je peux te détailler le chemin parcouru pour arriver a Kay Boski si tu le souhaites. on peut y apprendre quelques 'trucs' au passage, et voir qu'il est possible de remonter la filière du spam avec un simple browser ;)

18 avril, 2007 02:19  
Blogger Jean Véronis a écrit...

Alexis> Merci pour cette info. Je n'avais pas eu le temps d'enquêter plus. J'avais seulement déterminé que cette nouvelle attaque était basée sur un contournement manuel des captchas, probablement par des petites mains dans des pays à main d'oeuvre peu coûteuse... Mais l'attaque semble être massive, et je doute que ce soit simplement une passion. D'autant qu'il faut quand même rémunérer ces bataillons de bloggeurs du tiers-monde. J'y vois plutôt un de ces business habituels aux spammeurs. Nouveauté: ils étaient souvent russes. Ils sembleraient qu'il y ait aussi des polonais ;-)

Je peux te détailler le chemin parcouru -- oui, je veux bien.

18 avril, 2007 16:41  
Anonymous Anonyme a écrit...

"Une nouvelle technique de contournement des robots est en train d'apparaître, plus "subtile" que les captchas : elle consiste à faire la différence entre un chat et un chien"

en quoi est-il plus difficile de reconnaître des animaux que des lettres, si ce sont des petites mains qui font le travail ?

20 avril, 2007 21:37  
Anonymous Steph a écrit...

Tosu les humains voient la difference entre les chiens et les chats.
Si ce sont des petits chinois, qui reconnaissent les captchas, il faudrait exploiter le fait qu'ils font difficilement la difference entre 2 visages europeens ...

28 avril, 2007 22:44  

Enregistrer un commentaire