Splogs: Système Antisplog.net
Hatem d'Antisplog.net a laissé un commentaire sur mon billet "Google, Blogger et le splog", en me demandant mon opinion sur ce site. Antisplog.net est un service en ligne lancé il y a quelques jours, et qui permet de vérifier si une URL donnée ressemble à du splog.
Comme il est expliqué ici, il suffit d'envoyer la reqûete:
- http://www.antisplog.net/check/the_url_to_check
Antisplog.net retourne :
- 1 : if si le blog est détecté comme SPLOG
- 0 : sinon.
- 3 : s'il l'URL ne peut pas être ouverte (DNS error, 404 error ... etc.).
Correct | ||
---|---|---|
Normal | 17 | |
Spam | 22 | |
Total correct | 39 (92%) |
Erroné | ||
---|---|---|
Normal (faux positifs) | 2 | |
Spam (false négatifs) | 1 | |
Total erreurs | 3 (8%) |
Un taux de succès au-dessus de 90% est tout à fait impressionnant pour un système aussi jeune, surtout si l'on considère que certain de ces splogs sont très difficiles à différencier de blogs normaux, même pour l'observateur humain. Félicitations, donc. Je suivrai l'évolution du système avec intérêt.
Si je peux me permettre de donner un conseil pour la suite, j'essaierais plutôt de réduire le taux de faux positifs (c'est-à-dire les blogs normaux détectés comme spam). Pour le moment, ce taux est de 2/19, c'est-à-dire dans les 10% (bien qu'évidemment il soit difficile de faire une évaluation précise sur un aussi petit nombre d'URL). Il me semble en effet tout à fait dangereux de signaler des blogs normaux comme splogs, et je serais beaucoup plus rassuré si le taux de faux positifs était bien en-dessous de 1%, même si le prix à payer est de laisser passer plus de splogs à travers le crible.
Bien les spammeurs suivent tout cela en temps réel (voir ici par exemple) et je suis convaincu qu'ils vont disposer bientôt de logiciels permettant de générer des splogs composé de textes à l'allure humaine, qui seront très difficiles à distinguer de vrais textes humains par des moyens automatiques.
En tous cas, félicitations à nouveau, Hatem, et bonne chance avec votre système!
5 Commentaires:
On remarquera que les splogs y référencés sont détectés par le nouveau moteur de recherche blog de Google
http://blogsearch.google.com/
Merci beaucoup pour le post !
En effet le taux d'erreux j'essaye de reduire en analyzant plus de cas et plus de techniques. Difficile d'échapper a l'erreur :)
En fait les spammeurs j'ai rencontre de tous les couleurs, y'a deja de nouveaux types de spams impossible de détecter que Antisplog detecte.
C'est pour cela que j'ai déja poste que le théoreme de Bayes peut aider en théorie, mais en pratique ca marche pas. J'avais des taux d'erreurs supérieur a 40% en gros.
Le taux de faux positifs je suis d'accord, et y'a déja un progrès sur ce sujet. Cependant certains blogs je sais pas s'ils le font par erreur ou exprès mais utilisent des techniques de spams et j'en ai vu plusieurs. Ceux précisemment y'a pas de moyens qu'ils y échappent .
En fait merci pour le lien de SEO Black, dire que peut importe la technique utilisée elle sera facilement détectable pour la simple raison qu'ils ont dans la majorité le meme but, ou deux. Et détecter un but ou deux est plus simple que détecter 1000 techniques de spam.
http://www.antisplog.net/check/http://aixtal.blogspot.com
retourne 1 pour ce site ;-)
Aaaargh!!!
Hatem, au secours!
C'est ubuesque, et merveilleusement drôle ^_^
Enregistrer un commentaire