Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

jeudi, septembre 15, 2005

Splogs: Système Antisplog.net



Hatem d'Antisplog.net a laissé un commentaire sur mon billet "Google, Blogger et le splog", en me demandant mon opinion sur ce site. Antisplog.net est un service en ligne lancé il y a quelques jours, et qui permet de vérifier si une URL donnée ressemble à du splog.



Comme il est expliqué ici, il suffit d'envoyer la reqûete:
  • http://www.antisplog.net/check/the_url_to_check
the_url_to_check est l'adresse du blog à vérifier.

Antisplog.net retourne :
  • 1 : if si le blog est détecté comme SPLOG
  • 0 : sinon.
  • 3 : s'il l'URL ne peut pas être ouverte (DNS error, 404 error ... etc.).
J'ai envoyé la liste d'URL empruntée à Philip Lenssen, que j'ai utilisée dans mon billet précédent (seulement 42 répondent ce matin).

Correct


Normal17

Spam22

Total correct39 (92%)

Erroné


Normal (faux positifs)2

Spam (false négatifs)1

Total erreurs3 (8%)


Un taux de succès au-dessus de 90% est tout à fait impressionnant pour un système aussi jeune, surtout si l'on considère que certain de ces splogs sont très difficiles à différencier de blogs normaux, même pour l'observateur humain. Félicitations, donc. Je suivrai l'évolution du système avec intérêt.

Si je peux me permettre de donner un conseil pour la suite, j'essaierais plutôt de réduire le taux de faux positifs (c'est-à-dire les blogs normaux détectés comme spam). Pour le moment, ce taux est de 2/19, c'est-à-dire dans les 10% (bien qu'évidemment il soit difficile de faire une évaluation précise sur un aussi petit nombre d'URL). Il me semble en effet tout à fait dangereux de signaler des blogs normaux comme splogs, et je serais beaucoup plus rassuré si le taux de faux positifs était bien en-dessous de 1%, même si le prix à payer est de laisser passer plus de splogs à travers le crible.

Bien les spammeurs suivent tout cela en temps réel (voir ici par exemple) et je suis convaincu qu'ils vont disposer bientôt de logiciels permettant de générer des splogs composé de textes à l'allure humaine, qui seront très difficiles à distinguer de vrais textes humains par des moyens automatiques.

En tous cas, félicitations à nouveau, Hatem, et bonne chance avec votre système!

5 Commentaires:

Blogger all a écrit...

On remarquera que les splogs y référencés sont détectés par le nouveau moteur de recherche blog de Google
http://blogsearch.google.com/

15 septembre, 2005 12:28  
Anonymous Hatem a écrit...

Merci beaucoup pour le post !

En effet le taux d'erreux j'essaye de reduire en analyzant plus de cas et plus de techniques. Difficile d'échapper a l'erreur :)

En fait les spammeurs j'ai rencontre de tous les couleurs, y'a deja de nouveaux types de spams impossible de détecter que Antisplog detecte.

C'est pour cela que j'ai déja poste que le théoreme de Bayes peut aider en théorie, mais en pratique ca marche pas. J'avais des taux d'erreurs supérieur a 40% en gros.

Le taux de faux positifs je suis d'accord, et y'a déja un progrès sur ce sujet. Cependant certains blogs je sais pas s'ils le font par erreur ou exprès mais utilisent des techniques de spams et j'en ai vu plusieurs. Ceux précisemment y'a pas de moyens qu'ils y échappent .

En fait merci pour le lien de SEO Black, dire que peut importe la technique utilisée elle sera facilement détectable pour la simple raison qu'ils ont dans la majorité le meme but, ou deux. Et détecter un but ou deux est plus simple que détecter 1000 techniques de spam.

15 septembre, 2005 15:31  
Anonymous Robert Franchisseur a écrit...

http://www.antisplog.net/check/http://aixtal.blogspot.com

retourne 1 pour ce site ;-)

16 septembre, 2005 19:26  
Blogger Jean Véronis a écrit...

Aaaargh!!!

Hatem, au secours!

17 septembre, 2005 17:41  
Anonymous Sabin a écrit...

C'est ubuesque, et merveilleusement drôle ^_^

25 septembre, 2005 01:02  

Enregistrer un commentaire