Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

vendredi, septembre 09, 2005

Web: Google, Blogger et le splog



Les splogs (néologisme formé de spam + blog) sont aux blogs ce que le spam est au mail... Des nuisances destinées à vous vendre du Viagra, ou d'autres services plus ou moins douteux. La recette en est simple: ouvrez-vous un blog gratuit (ou des centaines...), truffez-le de textes bidons, mais surtout de liens qui pointent vers le vrai site où vous allez nous vendre quelque chose (ou probablement nous arnaquer). Il n'y a plus qu'à attendre que Google passe et comme il indexe très bien le spam ;-) les chalands vont affluer...

En voici un exemple caractéristique (chaque titre de billet pointe vers un site en .biz):



Blogger est évidemment une source considérable de splogging. Gratuit, facile à créér et alimenter par des procédures automatiques, et Google l'indexe plutôt bien (voir ici) --quand on sait que Blogger est une de ses filiales on peut se demander s'il n'y a pas un petit coup de pouce discret (il suffit de comparer avec le positionnement des sites en blogspot.com sur Yahoo ou MSN). Mais le gros paradoxe, c'est que, ce faisant, Google se pollue lui-même en indexant généreusement le splog que Blogger génère...

Je viens de lire (avec un peu de retard) un billet extrêmement intéressant de Philip Lenssen (Google Blogoscoped) qui fait un sondage sur une cinquantaine de blogs de Blogger, et découvre que 60% d'entre eux sont du spam! Je me doutais que la proportion serait élevée, mais à ce point j'en suis estomaqué. Si l'on peut se hasarder à extrapoler, cela veut dire que sur les 32 700 000 pages que Google prétend avoir indexées sur le domaine blogspot.com (Philip dit 7 500 000 mais la requête suivante me donne bien plus), plus de 20 millions seraient du spam.

Google semble avoir pris conscience qu'il se tirait une balle dans le pied avec cette affaire, et apparemment des mesures ont été prises. Fin août, Blogger ajoutait un bouton "Flag" dans la barre de navigation qui apparaît (normalement) en haut de chaque blog, permettant aux internautes de dénoncer un site qui ressemble à du spam.



Ce bouton délatoire me paraît doublement douteux. Tout d'abord, il donne l'opportunité d'attaques coordonnées contre des blogs qui déplairaient à tel ou tel groupe ou communauté... ça fait un peu froid dans le dos [merci à Nathan Weinberg pour le lien]. Mais surtout, ce bouton est totalement inutile, car il est élémentaire d'enlever purement et simplement la barre de navigation de Blogger (comme j'en fais la démonstration sur ce blog!). Parfois, je me demande... Google et Blogger paient des chercheurs et des ingénieurs très cher pour inventer des trucs de ce style. Je n'en finis pas de m'émerveiller.

Mais plus sérieusement, il semble que Blogger (qui doit avoir aussi de bons ingénieurs dans le lot) ait mis en place un système de filtrage anti-splog efficace. Island Dave fait remarquer que lorsqu'on clique sur le bouton "Next Blog" de Blogger, on ne tombe plus sur du spam. C'est d'ailleurs confirmé par Blogger, qui dit avoir injecté de "l'Intelligence Artificielle" dans ses machines... Rien que ça!

En fait d'Intelligence Artificielle, les procédures pour détecter le spam sont assez connues. En voici une par exemple, que j'utilise dans mes cours pour expliquer quelques notions de base sur la distribution des mots dans les textes, la loi de Zipf (sur laquelle je reviendrai certainement un jour ou l'autre), etc...

Prenez un texte, n'importe lequel. Par exemple, le Petit Prince (ne cherchez pas, il n'est pas sur le Web, car il n'est pas libre de droits). Calculez le nombre de mots. Ah oui, il y a le problème de l'ambiguïté du mot mot... La phrase "le Petit Prince dessine le petit mouton" a-t-elle 7 mots ou bien 5? Les deux mon général! Il y a 7 mots séparés par des blancs, mais seulement 5 mots différents. Pour s'y retrouver on parle d'occurrences dans le premier cas, de formes dans le second: 7 occurrences, 5 formes. Les anglophones parlent de tokens et de types, respectivement...

Maintenant qu'on a mis les mots au clair, allons-y. Utilisons, par exemple, mon petit programme Dico (gratuit!). Le Petit Prince contient 15 352 occurrences et seulement 2412 formes. Cela fait un rapport formes/occurrences (F/O) de 0,16 (en anglais on parle de type/token ratio). Prenons maintenant le splog culinaire que j'ai utilisé comme exemple au début de ce billet. Rapport F/O de 0,015 seulement. Dix fois moins! Pourquoi? C'est très simple à comprendre. Le splog en question reprend les mêmes mots en boucle, et a donc une pauvreté de vocabulaire à peu près inconcevable dans un blog normal... C'est un poil plus compliqué, car le rapport F/O a tendance à diminuer avec la taille des textes. Il faut faire quelques correctifs, regarder les choses en deux dimensions, je vous passe les détails.

J'ai regardé sur les 50 adresses de Philip quelle était l'efficacité de cette stratégie, toute banale qu'elle soit. J'ai donc récupéré les 50 pages d'accueil des blogs, converti en texte, découpé en mots, calculé le nombre d'occurrences, de formes et le fameux rapport F/O. Rassurez-vous, j'ai des outils qui font ça tout seuls! Il y avait un blog mal catégorisé par Philip, j'ai corrigé, et je n'ai retenu que les pages qui contenaient au moins 100 mots, c'est à dire la plupart (au-dessous, mon calcul n'a guère de sens!).

Voici le résultat. J'ai mis sur un graphique le nombre d'occurrences et le rapport F/O pour chacune des pages. En bleu les blogs normaux, en rose les splogs.



On voit que tous les blogs "normaux" sont gentiment concentrés dans l'ellipse turquoise. La plupart des splogs sont complètement dans l'espace, avec des valeurs de F/O très faibles. Il n'y a que 7 ou 8 splogs qui sont mal catégorisés et qui se retrouvent dans la zone des blogs normaux. Pas si mal quand même pour une stratégie à la portée d'un étudiant de première année!

Et l'intelligence artificielle dans tout ça? Il est vrai qu'il faut mélanger divers critères, m'enfin, intelligence artificielle, c'est un peu ronflant tout de même. Par exemple, il est judicieux de prendre en compte la distribution des liens sortants. Si la plupart pointent vers le même site, ça sent l'arnaque. Le nombre de liens entrants est un indice aussi: s'il y en a vraiment beaucoup, et venant de sites très diversifiés, il ne s'agit sans doute pas d'un splog. Etc. L'histoire du spam, c'est un peu celle du glaive et du bouclier. Les spammeurs, plutôt partisans du moindre effort, font simple au début, mais les anti-spammeurs mettent vite au point des parades. Les spammeurs doivent alors s'adapter, et ainsi de suite.

Il est très intéressant de regarder les blogs qui ont passé mon test et se retrouvent dans l'ellipse turquoise. Je ne veux pas leur faire de la pub, alors je ne mets pas de liens cliquables:
  • decor-home.blogspot.com
  • meds4u.blogspot.com
  • camouflagec54.blogspot.com
  • bangg0e.blogspot.com
  • digitalaudiocfd.blogspot.com
  • mlb-daily.blogspot.com
  • physicianemploymentpwt.blogspot.com
Ces sites ont pour caractéristique de reprendre des extraits de textes réels, par exemple des nouvelles (et en même temps, leurs liens sortants sont diversifiés). J'ai dû y regarder à plusieurs fois pour savoir si c'était réellement du spam, et je ne suis pas totalement convaincu pour certains. Après tout, il peut y avoir aussi des blogs qui servent à concentrer des nouvelles dans un domaine donné (même à caractère commercial), des petites annonces, des résultats sportifs, etc. La limite entre le nul, l'inutile, le commercial (qui sont cependant légitimes) d'une part, et le splog d'autre part me semble bien difficile à tracer. Finalement, oui, il faut sans doute de l'intelligence pour faire un bon travail dans le domaine et ceux qui risquent de faire les frais sont les blogs marginaux, poétiques, expérimentaux, etc., qui ne satisfont pas aux critères du texte normal. Imaginez le comportement de l'Intelligence Artificielle de Blogger ou Google sur un site de création oulipienne! Mais c'est sans doute le prix à payer pour que le Web ne se transforme pas en immense décharge publique...


Lire la suite


33 Commentaires:

Blogger Mat a écrit...

Article très interessant, comme d'habitude. La loi de Zipf (que je ne connaissais pas) est assez impressionante!

09 septembre, 2005 14:15  
Blogger Marianne a écrit...

Excellent
Je n'avais jamais remarqué cette option ; j'imagine que plein de gens vont s'empresser de retirer la barre avant qu'ils ne rendent cette option impossible :-).
Ce type de spam est-il vraiment illégal ? C'est du spam "passif", après tout s'ils ne vendent rien de douteux, ça doit être difficile de maltraiter ces splogs non ? S'ils "déréférencent" ces blogs, le propriétaire ne pourrait-il pas venir râler en disant qu'il a le droit d'être crétin et de ne pas utiliser beaucoup de mots... ?

Je remarque que vous n'avez pas protégé les commentaires avec l'option des lettres à recopier ; vous avez été épargné par le spam ? Vous en avez de la chance, vous avez un secret ? :-)

PS : vous avez une coquille sur la dernière ligne

09 septembre, 2005 14:51  
Blogger Jean Véronis a écrit...

Marianne> je ne sais pas si c'est illégal (honte à moi, je n'ai pas lu la licence de Blogger, mais j'imagine qu'il doit y avoir dix pages de "fine print")...

Pour les commentaires, pour l'instant je n'ai pas été spammé, donc j'attends de voir. Je déteste ces petits machins où on se tord les yeux pour recopier un mot tout tordu (et ça pose des problèmes d'accessibilité terrible pour les déficients visuels en plus). J'y aurais recours la mort dans l'âme si j'y suis obligé!

Merci pour la coquille, je corrige!

09 septembre, 2005 14:55  
Blogger Loran Bernardi a écrit...

Bonjour

Excellent!

Je partage complètement votre avis sur le bouton "flag",
il nécessite pour être fonctionnel que quelqu'un clique...
Or la plupart des sites de spams, oups les splogs, ne voient jamais passer personne(et c'est heureux si on a quelque chose a vendre et une "marque" a defendre) à l'exception des robots pour qui ils sont concus (cf les differents concours de referencements)...

A mon avis le bouton, est plus la pour des problèmes légaux que pour lutter contre le spam, oups le splog.


Merci en tout cas!
Encore!!

(une question vos cours sont ils en lignes?)

09 septembre, 2005 15:04  
Blogger Jean Véronis a écrit...

Loran> vos cours sont ils en ligne?

une toute petite partie seulement (hélas, mais c'est un gros boulot...):
http://www.up.univ-mrs.fr/veronis/cours

09 septembre, 2005 15:08  
Blogger Marianne a écrit...

Je n'avais pas pensé au problème que ça pose aux déficients visuels :-s. Y a t-il d'autres solutions ? (à part effacer 35 spammentaires à la main tous les matins...)

09 septembre, 2005 15:17  
Blogger Jean Véronis a écrit...

Marianne> Il y a un bon papier du W3C qui liste 7 solutions possibles:

http://www.w3.org/TR/turingtest/

et qui explique aussi que les "captcha" (puisque c'est leur nom) offre une sécurité faible.

Certaines solutions (audio par exemple) me paraissent bien lourdes, et je me demande si la solution n'est pas en amont. Le provider (comme Blogger) est en mesure de reconnaître les spammeurs. Un robot qui inonde des centaines ou des milliers de blogs de commentaires plus ou moins identiques avec des liens (c'est le but) vers une liste de sites particuliers, ça doit laisser une "signature" assez différente des pauv'zumains comme vous et moi! Pourquoi ne le font-ils pas? Mystère. S'ils me prennent comme consultant, je le leur fais en trois jours.

09 septembre, 2005 15:28  
Blogger all a écrit...

peut-être que parlant d'IA, Google évoque les filtres "intelligents" bayésiens/markoviens dont l'efficacité est prouvée pour le filtrage du spam par les emails.
Ces filtres utilisent la logique de bayes et fonctionnent par aprentissage, et sont difficiles à leurrer

09 septembre, 2005 16:57  
Blogger Jean Véronis a écrit...

all> oui, c'est très probablement ce qu'ils font (ou des arbres de décision). Mais IA ça fait quand même plus classe!

09 septembre, 2005 17:00  
Anonymous Souplounite a écrit...

Véronis : " Pourquoi ne le font-ils pas? Mystère. S'ils me prennent comme consultant, je le leur fais en trois jours."

Peut-être que ça leur rapporte quelque chose ?

Juste un petit lien pour y réfléchir.

09 septembre, 2005 20:21  
Anonymous Anonyme a écrit...

Bonjour et merci pour ces articles en général. Quoique les sciences du langages m'intéressent, je reste un néophyte et j'apprécie énormément la clarté dont vous faites preuve.

Il me vient une question. L'outil que vous décrivez pour mesurer le rapport formes/occurences semble certes efficace, mais ne devient-il pas inopérant quand il analyse le blog d'une personne lambda, si l'on accorde crédit à la légende comme quoi un français moyen utilise à peu près 300 mots de vocabulaire ? Ou du moins, la valeur de son analyse doit s'en trouver dépréciée, non ? Surtout que, quantitativement, le nombre de blogs d'adolescents peu sûrs de leur orthographe dépasse largement celui de personnes faisant attention à ce genre de petits détails (voir skyblogs.com...).

Y a-t-il une solution, dans ce cas-là ? Ou bien ai-je tort et cet outil reste-t-il efficace malgré tout ?

Merci d'avance.
Luc D.
theorus.fumisis@free.fr

10 septembre, 2005 16:08  
Blogger Lesley a écrit...

Lasse d'appuyer des dizaines de fois sur "delete comment", j 'ai été obligée d'introduire les captacha sur mon blog. Je m'étonne que vous ne soyez pas victime, vous aussi de ces spomments :-)). Je me demande, donc, si les robots qui déposent ces commentaires abusives dans ma boite n'utiliseraient pas le bouton "next blog", bouton que vous avez justement éliminé avec la barre de navigation.

11 septembre, 2005 10:20  
Blogger Serge Bibauw a écrit...

Luc D.> Une chose est sûre : n'importe qui, le plus moyen soit-il, utilise beaucoup, vraiment beaucoup plus que 300 mots de vocabulaire. Certes, personne n'utilise les 60 000 mots que contient un Petit Robert, mais 300 mots, ça doit à peine couvrir la description des objets utilisés au quotidien dans une maison. Peut-être (mais j'ai encore quelques doutes) un locuteur "moyen" n'utilise-t-il en temps normal pas plus de 300 verbes, mais c'est bien différent.

Par rapport à l'analyse du rapport occurrences/formes, je doute que qui que ce soit, même s'il ne croit pas avoir un vocabulaire très riche, puisse atteindre le niveau de redondance d'un splog. N'oubliez pas que par "formes", on n'entend pas seulement des "racines" (lemmes) différentes, mais aussi des formes fléchies différentes. Ainsi, "être", "suis", "est", "êtes", etc. n'ont beau occuper qu'une entrée de dictionnaire, ils constituent pour un analyseur automatique des formes différentes. Or, en dehors des articles, prépositions et autres mots grammaticaux invariables, il est très rare d'utiliser à de nombreuses reprises la même forme dans un texte.

Quant aux jeunes, ne vous en faites pas, leur vocabulaire n'est peut-être pas celui qui est requis pour être considéré comme "cultivé", mais il n'est pas pour autant pauvre. Ce sont sûrement les premiers créateurs de mots. Sans compter qu'ayant une conception peut-être moins stricte de l'orthographe, ils n'hésitent pas à faire varier les formes d'un même mot.

12 septembre, 2005 04:24  
Anonymous Pilou a écrit...

Dans une recherche, il y a toujours 2 moteurs : un logiciel et ... MOI. Forcément, l'un des deux est plus stupide que l'autre. Le splog et le spam seront mal éliminés par quelque logiciel que ce soit. Donc c'est à moi de le rendre inopérant. Et à partir de là, qu'importe sa part sur le web.
Soit à chercher des informations touristiques sur Aix-en-Provence ; aix+provence suffit pour ramener les sites de la ville et de l'office de tourisme. Le reste, énorme, est quasi inexploitable, bourré, entre autre, d'agences immobilières. Mais des 2 sites utiles on peut tirer une requète qu'aucun spam ne pourra forcer : espéluque+albertas+rotonde (pour ceux qui n'ont pas eu le plaisir de visiter Aix, ce sont 3 fontaines, parmi bien d'autres, qui font sa beauté et sa gloire).
Il ne reste que 21 sites pour Google et 10 pour Yahoo ; quasi sans parasites. Et seules des requètes pointues peuvent ramener des sites au PageRank infime, souvent des pages perso autrement plus interéssantes que les institutionelles.

Quant à l'utilisation de la loi de Zipf, elle implique une hypothése non négligeable : Que la page soit du texte. J'y vois un parti-pris du professeur de langage ;-) Que peut-elle donner sur les pages du domaine insee.fr ?

12 septembre, 2005 15:24  
Anonymous Aurélie N. a écrit...

Le Petit Prince n'est plus disponible en texte intégral sur Internet!! Je constate avec tristesse que vous avez raison -Le lien vers le beau site illustré présentant ce chef-d'oeuvre est maintenant brisé, et je vais devoir le retirer de ma page d'accueil...

Pilou> 1/A priori les pages du site insee.fr semblent aussi contenir du texte - je ne comprends pas votre objection.
2/Pour ce qui est de la recherche d'information, vous évitez le spam en effectuant une restriction efficace de votre requête - c'est à ma connaissance une piste de recherche actuelle en RI. Elle consiste à effectuer automatiquement ce que vous illustrez dans votre exemple, en utilisant par exemple une matrice de co-occurrence calculée sur les termes d'un corpus de référence. Ainsi, si "espéluque" et "albertas" sont des co-ocurrents très fréquents de "aix" et "provence" le système peut proposer de les utiliser pour limiter les réponses, et éliminer les documents potentiellement non pertinents.

12 septembre, 2005 16:54  
Blogger Jean Véronis a écrit...

Aurélie> Le Petit Prince n'est plus disponible en texte intégral sur Internet!! Eh non! Il n'est pas encore tombé dans le domaine public. c'est une source de généreux revenus. Il me semble avoir lu quelque part que c'est l'ouvrage français le plus lu dans le monde... Et il y a aussi un généreux business de produit dérivés, du porte-clé à la tasse à café. Le Petit Prince et Saint-Ex doivent se retourner dans leur tombe...

Pilou>Je ne comprends pas bien moi non plus. Le spam est bien du texte, et nous parlons de sites qui contiennent du texte. Les moteurs n'indexent pas autre chose (même quand ils indexent les images, ils le font sur la base du texte associé!). Il n'y pas beaucoup de sites qui ne contiennent pas de texte, d'ailleurs, et ça n'est certainement pas le cas du site Insee, qui en en truffé.

12 septembre, 2005 17:22  
Anonymous Orlando a écrit...

Pilou> Je ne comprends guère non plus. Quant aux noms des trois fontaines, franchement... Si je les connais déjà, je n'ai sans doute que peu d'utilité pour le site de l'office du tourisme d'Aix, non?

Jean> "S'ils me prennent comme consultant, je le leur fais en trois jours"? Mais, n'écrivez jamais des choses pareilles, malheureux! Les gens vont finir par se rendre compte que les consultants gonflent leurs honoraires! Une meilleure version serait "en trente jours". Après, on né-go-cie :-)

12 septembre, 2005 17:29  
Anonymous Hatem a écrit...

J'ai pas remarque qu'il y'a une version francaise de l'article.

J'ai trouver l'approche vraiment interessante de detecter les splogs, mais vs pouvez remarquer que dans le graph les splogs sont quelque part concentre avec les blog normaux.

Quel algorythme va faire la difference ? J'ai deja essaye plusieurs approche pour faire la detection et j'ai lance Antisplog.net avec une version beta de l'algorythme que j'ai realise pour detecter les splogs.

Je serai ravi d'avoir votre avis dessus.

14 septembre, 2005 23:00  
Blogger Jean Véronis a écrit...

Hatem> Cette petite étude n'est qu'un petit tutoriel sur le rapport occurrences/formes. Dans un vrai système, il faudrait bien sûr, comme je le dis dans le billet, combiner de multiples sources d'information (par exemple avec une stratégie bayésienne).

Sur Antisplog.net, voyez mon billet d'aujourd'hui [fr] [en]

Bonne chance!

15 septembre, 2005 10:11  
Anonymous spiritoo a écrit...

La solution à ce problème du spam et splog est pourtant simple: il faut laisser plus de controle sur les résultats de recherche à l'utilisateur.

En effet, le problème des algorithmes automatiques de suppression de "splogs" et autres sites pourris, est que si on est trop "sévère" avec la détection de spam, des sites qui n'en sont pas risque de passer à l'as. Il faudrait donc que chaque moteur calcule plusieurs "notes" pour chaque site, sous forme de probabilité, par exemple:
blog: 95%
spam: 25%
Site institutionnel: 40%
contenu updaté régulièrement: 5%
popularité (liens entrant): 35%
qualité (selon liens sortants et divers critères): xx %

L'utilisateur lambda gardera les paramaètres par défaut. L'avancé pourra choisir par exemple de filtrer les blogs et les sites personnels, et de garder les sites ayant "moins de 40% de chances d'etre du spam".
Une IA ne peut pas tout faire, et il est de conception totalitaire de vouloir penser à la palce des gens. Il faut leur fournir les bons "indices" tout simplement sous forme de notes...

28 septembre, 2005 12:45  
Anonymous PierreS a écrit...

Jean, avez-vous testé sur un skyblog ?

Ce serait intéressant de faire un systeme de ranking des blogs par "qualité du langage employé"

:)

29 septembre, 2005 15:10  
Anonymous Anonyme a écrit...

Les stats simples comme la loi de Zipf risquent d'échouer si les spammeurs essaient de fabriquer des textes qui ont l'air authentiques (un moyen consiste à insérer dans sa page des extraits de textes libres comme ceux de Wikipedia):

http://seoblackhat.com/2005/09/14/avoid-common-splogging-mistakes

-- apokrif1@yahoo.com

05 octobre, 2005 16:08  
Anonymous Anonyme a écrit...

"popularité (liens entrant): 35%"

http://en.wikipedia.org/wiki/Link_farm

"qualité (selon liens sortants et divers critères): xx %"

Les spammeurs ne se gênent pas pour mettre des liens vers des sites de qualité vers. Tiens, ça serait une idée: si une page contient trop de liens vers des sites de qualité, c'est trop beau pour être vrai, donc c'est du spam :-)

"L'avancé pourra choisir par exemple de filtrer les blogs et les sites personnels"

Le seul paramétrage que je connaisse qui ressemble vaguement à cette proposition, c'est celui de http://mindset.research.yahoo.com/ (on peut ajouter le réglage à trois valeurs: filtrer sévèrement/filtrer un peu/ne pas filtrer pour les sites « adultes », que proposent divers moteurs). Je pense que si on autorisait un réglage fin pour le spam, cela aiderait les spammeurs, qui pourraient exactement savoir quels sont les points forts et les points faibles de leurs pages, et donc modifier partiellement ces pages, puis regarder leurs nouveau classement et recommencer.

-- apokrif1@yahoo.com

05 octobre, 2005 16:17  
Anonymous Anonyme a écrit...

Bonjour,
excellente note que découvre avec retard, j'ai une question peut-être un peu bête, mais je la pose quand même :

Voila, puisqu'on a pu faire des lois assez claires et fiables pour distinguer vraies textes écrits par l'homme et textes composés par un logiciel pour le spam-splog, pourquoi ceux qui sont derrière ce spam-splog ne servent-ils pas de ces mêmes lois pour composer des textes qui auraient pu être écrits par de vrais humains ?

François

20 octobre, 2005 21:58  
Blogger Jean Véronis a écrit...

François> Et si! C'est exactement ça qui est en train de se passer. D'où la difficulté de la chose...

J'en parle un peu plus

20 octobre, 2005 22:05  
Anonymous Anonyme a écrit...

Bonjour,
une question un peu bête sur l'exemple du petit prince :
"La phrase "le Petit Prince dessine le petit mouton" a-t-elle 7 mots ou bien 5? Les deux mon général! ".

Je peux y voir 7 mots (chaque unitées séparées par des espaces). Egalement 3 (plus vraiment des mots): par groupe fonctionnel : "le petit Prince" "dessine" "le petit mouton".

Je seche un peu quand à (pas bertrand !) en voir 5.

merci pour votre réponse

Merci pour vos notes et votre vigilance !

08 novembre, 2005 13:30  
Blogger Jean Véronis a écrit...

Anonymous> 5 mots différents :

1. le (deux fois)
2. petit (deux fois)
3. prince
4. dessine
5. mouton

08 novembre, 2005 13:46  
Anonymous Anonyme a écrit...

Voila, puisqu'on a pu faire des lois assez claires et fiables pour distinguer vraies textes écrits par l'homme et textes composés par un logiciel pour le spam-splog, pourquoi ceux qui sont derrière ce spam-splog ne servent-ils pas de ces mêmes lois pour composer des textes qui auraient pu être écrits par de vrais humains ?
Pour connaitre assez bien ce milieu, je dirais que..
c'est exactement ce qu'ils font..

18 novembre, 2005 14:41  
Anonymous Tatillon a écrit...

1. le (deux fois)
2. petit (deux fois)
3. prince
4. dessine
5. mouton

et le "un" y compte pas lui. L'est puni ?

Je vois que j'ai encore grandement apporté au débat moi
Je sors...

13 mai, 2006 15:48  
Blogger Jean Véronis a écrit...

Tatillon> Quel "un" ? (Ma phrase était ""le Petit Prince dessine le petit mouton".)

14 mai, 2006 08:48  
Blogger anne a écrit...

Certes, en se mêlant des affaires d'autrui par là j'ai trouvé quelques utilités assez effrontées pour surveiller le positionnement de la compétence et pour voir s'ils(si elles) ont des blocs(trucages), etc.. Si vous avez une curiosité je vous conseille qu'il eheis un coup d'oeil. Ils(elles) sont apparemment gratuits: http://www.lineared.com/es/recuperar/fr-datos-posiciones-google-msn-yahoo.htm

23 juillet, 2007 22:09  
Anonymous Anonyme a écrit...

À propos du Petit Prince, on peut lire un récit au livre (en espagnol) Este Sol de la Infancia (écrit par Saiz de Marco). Son titre est «Ce n´est pas un mot ».

CE N´ EST PAS UN MOT

Ce matin j´ai rentré au temps, cours de franÇais, treize ans, quand Marie dit « Nous allons lire Le Petit Prince ». C´est un livre étrange, avec d´ émotions connues qu´ on ne peut pas exprimer. Chaque jour deux pages, mais maintenant c´ est impossible de s´ arrêter. J´ai besoin de le lire entier, donc je cherche au dictionnaire les mots que j´ ignore. Cependant « baobab » n´apparait pas. Je demande à Marie et elle me dit « ce n´est pas un mot franÇais, c´ est un arbre africain ».

C´ est à cause des baobabs que le Petit Prince est venu à la Terre. Il avait besoin d´ un agneau qui mangeait les burgeons de baobabs, avant qu´ ils grandissaient et faisaient éclater son petit astre.

Ce matin nous avons fait l´ essai. Ces mignons s´ alertent entre eux quand ils voient un prédateur. Si celui qui attaque est un aigle, ils font un son pour que leurs compagnons se cachent aux arbustes ; si celui qui vient est un félin, ils font un son different por leur dire qu´ ils doivent grimper à un arbre. Quelques zoologistes appelons « proto-mots » à ces sons. Et ce matin, quand le mignon était près de notre poste d´ observation, je l´ ai écouté. Quand il a vu qu´ une lionne s´ approchait, il a ouvert ses lèvres et a dit clairement « baobab ».

21 août, 2007 03:54  
Anonymous Ya-graphic a écrit...

Je me demande qui a utilisé pour la première fois ce néologisme. J'ai regardé dans Wikipédia, mais je propose une touta autre définition (au conditionnel concernant la date de création du terme "splog"). http://www.ya-graphic.com/2010/10/definition-splog-lexique-seo/

C'est encore aujourd'hui une technique de spam très utilisée.

19 octobre, 2010 13:30  

Enregistrer un commentaire