Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

vendredi, septembre 30, 2005

Yahoo: Site Explorer



On l'attendait depuis quelques semaines, et ça y est. Yahoo! vient d'annoncer officiellement sur son blog la sortie de Site Explorer en version bêta:



Ce nouvel utilitaire permet de savoir combien de pages Yahoo! indexe sur un site particulier, et de voir les URL de ces pages. Jusqu'à présent Yahoo! proposait comme Google un opérateur site: permettant de restreindre les requêtes à un site et donnait toutes les pages du site si ne on précisait aucun mot clé. Exemple:
L'inconvénient de cet opérateur était que, contrairement à celui de Google, il ne permettait pas d'interroger un sous-site (c'est-à-dire avec un nom de répertoire après la barre oblique dans l'URL), comme:
www.up.univ-mrs.fr/veronis
Le nouvel outil Yahoo! Site Explorer n'apporte donc pas grand-chose de plus que l'opérateur site: de Google, mais il permet de comparer les deux moteurs:
www.up.univ-mrs.fr/veronis
  • Yahoo (Site Explorer): 3 281
  • Google: 505
Yahoo! indexe six fois plus de pages sur mon site que Google (qui s'autoproclame champion toutes catégories)... Curieusement, Google indexe moins de pages HTML (et documents PDF) sur la partie statique de mon site, mais indexe une quantité colossale de pages dynamiques, générées à la volée (et dont je ne suis pas sûr qu'elles améliorent la qualité globale du moteur!):
www.up.univ-mrs.fr/cgi-veronis
Il faut voir si cette tendance se confirme, mais je suis sûr que de nombreux autres internautes feront l'expérience!

Une autre fonctionnalité utile de Site Explorer, est le listage des liens qui pointent vers un site ou une URL particulière. C'est ce que faisait déjà l'opérateur link: (qui existe aussi chez Google). Toutefois, la nouveauté, c'est qu'on peut de distinguer les liens qui pointent vers l'URL stricte de la page d'accueil d'un site, de ceux qui pointent vers n'importe quelle page du site. Par exemple:
aixtal.blogspot.com (liens entrants)
  • Yahoo: 41 500
  • Yahoo (Site Explorer): 38 301 (URL exacte)
  • Yahoo (Site Explorer): 44 345 (site entier)
  • Google: 3 760
On notera que l'opérateur link: du moteur classique ne correspond ni à l'un ni à l'autre des résultats. Peut-être un état différent de la base de donnée utilisée? Là aussi la comparaison est intéressante avec l'opérateur link: de Google. En gros dix fois moins...

Eric Schmidt, le PDG de Google nous a encouragé à faire nos propres tests pour savoir qui de Yahoo ou Google avait la plus grosse (taille d'index). Ce petit test du matin n'a pas valeur statistique, mais bon, ça a l'air mal parti pour l'équipe de Moutain View!

Libellés : ,


10 Commentaires:

Anonymous MBt a écrit...

Bonjour,
tu proposes 4 tests pour les liens entrants sur ton site mais tu as oublié de préciser qu'il en existe un 5e présent en permanence sur ton site : "ils en parlent... liens entrants".

résultat: 46,039 résultats...

Ce que je trouve amusant c'est que tu es plus précis dans cette nouvelle requête car tu as ajouté le protocole (http://) mais Yahoo! retourne quand même plus de résultats.

D'habitude plus on est précis moins on a de résultats. Une explications...?

30 septembre, 2005 11:11  
Blogger Loran Bernardi a écrit...

Bonjour
un mot rapide sur la commande Link de google.
Elle est ostensiblement non exhaustive. Google l'a admis.
Cf par exemple ce lien sur abondance:
http://docs.abondance.com/question85.html
Cordialement,

30 septembre, 2005 11:15  
Blogger Jean Véronis a écrit...

MBt> En fait, apparemment, qu'on mette http:// ou pas, ça a l'air de retourner la même chose. La requête qui est dans le billet lui même retourne à l'instant 46 039 résultats elle aussi.... La requête restreinte à la page d'acceuil est montée à 42 449! Donc, soit, Yahoo est en train de mettre à jour sa base (en fait, je pense qu'il ont une indexation en continu), soit on atterri sur des "data centers" qui ont des états légèrement différents... A suivre, en tous cas!

30 septembre, 2005 11:18  
Blogger Jean Véronis a écrit...

Loran> Merci pour ce lien (je remet en cliquable: http://docs.abondance.com/question85.html).

J'ai effectivement déjà vu des discussions qui disent que Google ne donne qu'un échantillonnage de backlinks. J'avoue que je ne comprends pas bien pourquoi il ferait ça. Qu'il limite (comme Yahoo) la liste d'URL visisbles à 1000, je le comprends très bien, mais qu'il ne donne pas le compte réel qu'il aurait dans l'index, c'est moins clair. Peut-être des contraintes techniques dues à la façon dont l'index est agencé? Bizarre, quand même...

30 septembre, 2005 11:23  
Anonymous Yannick a écrit...

Rappelons qu'on met en français un espace entre la fin d'un mot et un point d'interrogation ou d'exclamation. Je ne sais pas si ce blog les enlève automatiquement car je n'en vois pas.

01 octobre, 2005 05:15  
Blogger Jean Véronis a écrit...

Yannick> Je sais bien, et je faisais ça au début, mais il faut comme vous le savez une espace insécable, sinon vous vous retrouvez régulièrement avec des ! ? : en début de ligne. Or, Blogger transfome automatiquement les entités   en espace tout court.

Donc, de deux maux j'ai choisi le moindre et j'ai opté pour la suppression des espaces. Pas génial, mais le Web d'une façon générale est une offense à la belle typographie...

01 octobre, 2005 11:10  
Anonymous Anonyme a écrit...

Une petite coquille... Rien de très important:
"je ne suis pas sûr qu'elle améliorent la qualité globale du moteur!" on doit lire "qu'elleS améliorent"

01 octobre, 2005 18:18  
Blogger Jean Véronis a écrit...

coquille: merci! ça améliore la qualité globale du blog ;-)

01 octobre, 2005 18:20  
Anonymous christophe asselin a écrit...

Bonjour.
"Toutefois, la nouveauté, c'est qu'on peut de distinguer les liens qui pointent vers l'URL stricte de la page d'accueil d'un site, de ceux qui pointent vers n'importe quelle page du site"

En fait, la commande de Yahoo! linkdomain: permettait déjà d'afficher les liens pointants vers un site tout entier (cf http://influx.joueb.com/news/247.shtml)

02 octobre, 2005 23:20  
Blogger Jean Véronis a écrit...

Christophe> Oui, mais linkdomain ne permet pas de restreindre l'affichage à un sous-site comme

www.up.univ-mrs.fr/veronis

04 octobre, 2005 13:35  

Enregistrer un commentaire

mercredi, septembre 28, 2005

Google: 7 candles and a stale cake



Yesterday, Google decorated its home page with a festive logo, a lovely little birthday cake with seven candles – and at the same removed all mention of the number of pages in its index. This removal has already caused quite a stir (New York Times, ABC News, etc.), as always happens whenever the great Godgle so much as sneezes. I noticed this yesterday, but while I was idly poking around looking into the history and mythology of the God, I came across an amusing anecdote … Godgle’s official date of birth was not the 27th of September 1998, but the 7th. Until now, this date has been given by various sources, including in the family history. Well, it looks as if the explanation has just changed:



The date of the 7th of September has disappeared, and in its place we have a vague explanation of how the date of Google’s birthday has always changed from year to year. The great God is not infallible, however; he forgot that the old version was still available in his own cache:



This story of an announcement that never came had me intrigued. Indeed, I’ve already held forth on the subject here on this blog. All summer, experts had noticed an unprecedented level of activity on the part of Google’s robots, madly sucking up sites left, right and centre, going deeper than they’d ever gone before. And, funnily enough, it was on the 7th of September that the number of results returned literally shot through the roof. The site Trendmapper, which I’ve mentioned here before, has a trace of this planetary explosion. The Google curve (in yellow) took off on the 7th of September for all requests.



The firework show was scheduled for the 7th of September, but the home page stayed curiously silent … No cake, no announcement, nothing. It’s not hard to see why. Right in the middle of all these preparations (you don’t organise such a momentous event as a surprise tripling of the index size from one day to the next), an uninvited guest came along to spoil the party: Yahoo announced discretely on its blog (and in contrast to its usual grandstanding tradition) that its index had reached 19.2 billion pages. Why such a low-key announcement? Why not wait for a round figure, like 20 billion ? Now we know the answer! The Yahooligans had seen their friends at Google coming, and they wanted to get in first and spoil their fun …

They certainly did that! The war of numbers between Google and Yahoo has made it all around the globe, and the story has not really developed in Google’s favour, as we’ve started to see how Google may well index a lot of pages, but many of them are spam and useless lists of words [see 1, 2, 3, 4]. Yours truly played a part in stirring things up – and I still can’t stop laughing at the thought of it. But I must admit that I didn’t foresee the birthday trick. And frankly, it’s just too good for words: I can just imagine the crisis meetings at Mountain View! A few days later, Google was set to raise no less than four billion dollars on the stock exchange! How could they make the shock announcement that their index had tripled in size, in the midst of all this hoo-ha and suspicion? It would almost certainly have the opposite effect to that which they had intended … Google’s CEO himself, Eric Schmidt, must have stepped in to the breach. Well, they came up with an answer, albeit a little late: index size? Who cares (although it was Google that started this war of numbers and, until August, was the only one to play the game)? In any case, ours is the biggest. Because we say so. And now we have to get rid of the evidence: our birthday has never been on the 7th of September. Because we say so.

So much for transparency, so much for the experts. Google has reached a turning point in its communications strategy. As Olivier Ertzscheid says on Affordance: Google is turning into Microsoft [fr]. With the audience all but captive, there’s no longer any need to suck up to the nerds and other geeks who have acted as cheerleaders for the search engine. Now, they are addressing the mass market – and their shareholders. End of a love story [fr].

And so the story that has kept us amused all summer comes to an end (wonderfully, it must be said)! Now we can change the subject. You know, I think I might talk a bit about Microsoft for a change ...

And if all others accepted the lie which the Party imposed
-- if all records told the same tale --
then the lie passed into history and became truth.
'Who controls the past,' ran the Party slogan, 'controls the future:
who controls the present controls the past.'

Libellés :


2 Commentaires:

Anonymous Gerald a écrit...

i wrote a similar article were i cited your discovery of the tripled index size
http://www.suchmaschinen-optimierung-seo.info/sosblog/2005/09/27/einer-geht-noch/

and one about the history manipulation
http://www.suchmaschinen-optimierung-seo.info/sosblog/2005/09/27/googles-merkwurdiger-7-geburtstag/

unfortunately the text is in german language. but it's great that you translate your articles into english. i first saw the french one in my rss feed - and wondered what you had to say as part of text and images looked promising.

29 septembre, 2005 01:25  
Anonymous wawa a écrit...

Hi Gerald,

Birthe noticed an interesting webarchive on your blog :
http://web.archive.org/web/20020927062428/http://www.google.com/
It seems that Google had its birthday the 27. of september in 2002 too...

29 septembre, 2005 21:40  

Enregistrer un commentaire

Google: 7 bougies et un gâteau rassis



Google ornait hier sa page d'un logo festif, un joli gâteau d'anniversaire avec sept bougies -- et supprimait la mention du nombre de pages indexées. Cette suppression a fait grand bruit (New York Times, ABC News, etc.), comme à chaque éternuement du dieu Godgle. J'en ai rendu compte hier, mais en farfouillant par désoeuvrement dans l'histoire et la mythologie du dieu, je suis tombé sur un détail amusant... Godgle n'est pas né officiellement le 27 septembre 1998, mais le 7. C'est expliqué dans différentes sources, y compris jusqu'ici dans le petit historique maison:



Mais attention, si vous cliquez sur le lien ci-dessus vous aurez peut-être une autre histoire, car la version anglaise a déjà changé:



La date du 7 septembre a disparu, et à la place on a une vague explication sur le fait que la date d'anniversaire a toujours été variable... Le dieu n'est pas infaillible, puisqu'il a oublié que l'ancienne version est toujours dans son propre cache:



Ça m'intriguait, cette histoire d'annonce qui ne venait pas. Je m'en suis déjà ouvert sur ce blog. Les experts avaient observé tout l'été une activité sans précédent de la part des robots de Google, qui aspiraient les sites avec frénésie, et de façon plus profonde que jamais. Et c'est précisément le 7 septembre que les nombres de résultats retournés pour chaque requête se sont littéralement envolés. Le site Trendmapper, que j'ai déjà mentionné, garde la trace de cette explosion planétaire. La courbe Google (en jaune) jaillit pile le 7 septembre sur toutes les requêtes:



Le feu d'artifice était donc programmé pour le 7 septembre, mais la page d'accueil est restée désespérement muette... Pas de gâteau, pas d'annonce, rien. C'est facile de comprendre pourquoi. Au beau milieu de tous ces préparatifs (c'est une grosse machine qui ne s'improvise pas comme ça du jour au lendemain, un triplement surprise de l'index!), un voisin qui n'était pas invité a gâché la fête: Yahoo a annoncé en catimini sur son blog (et contrairement à toute sa tradition), que son index atteignait 19.2 milliards de page. Pourquoi une annonce aussi discrète? Pourquoi ne pas attendre un chiffre rond, comme 20 milliards? Nous avons maintenant la réponse! Les gens de Yahoo avaient vu venir le père Google, et l'annonce était destinée à miner le terrain l'air de rien...

Et ça n'a pas loupé! L'affaire de la bataille des chiffres Google-Yahoo a fait le tour de la planète, et pas trop à l'avantage de Google, dont on s'est rendu compte qu'il indexait certes beaucoup de pages, mais aussi beaucoup de spams et de listes de mots sans grand intérêt [voir 1, 2, 3, 4]. Votre serviteur a quelque peu contribué à l'agitation -- j'en suis encore tout secoué de rire. Mais j'avoue que je n'avais pas anticipé le coup de l'anniversaire. Là, franchement ça devient délicieux: j'imagine la cellule de crise à Mountain View! Quelques jours après, Google s'apprêtait à lever rien moins que quatre milliards de dollars en bourse! Comment faire l'annonce-choc d'un triplement de l'index au milieu de tout ce brouhaha et de cette suspicion généralisée? Ça aurait sans doute eu l'effet inverse de l'effet escompté... Le PDG de Google, Eric Schmidt himself, a dû monter au créneau. Et voilà, la réponse a été trouvée, mais un peu tard: Taille d'index? Sans importance (alors que c'est Google qui a initié ce jeu de surenchère et a d'ailleurs été jusqu'en août le seul à y jouer)! De toutes façons on a la plus grosse. Puisqu'on vous le dit. Et il s'agit maintenant d'effacer les traces: l'anniversaire n'a jamais été le 7 septembre. Puisqu'on vous le dit.

Tant pis pour la transparence, tant pis pour les experts. Google aborde un tournant dans sa communication. Comme le fait remarquer Olivier Ertzscheid sur Affordance : Google se microsoftise. Le public étant maintenant quasi captif, il ne s'agit plus de caresser les nerds et autres geeks qui ont fait jusqu'ici la pub du moteur à sa place. Désormais on parle au grand public --et aux actionnaires. Fin d'une histoire d'amour...

Voilà, le feuilleton de l'été s'achève (en beauté, je dois dire)! On va pouvoir passer à autre chose. Tiens, je vais peut-être vous parler un peu de Microsoft ces jours-ci pour changer...


And if all others accepted the lie which the Party imposed
-- if all records told the same tale --
then the lie passed into history and became truth.
'Who controls the past,' ran the Party slogan, 'controls the future:
who controls the present controls the past.'

Libellés :


19 Commentaires:

Anonymous sebastien billard a écrit...

Joli travail de detective, chapeau bas Mr Veronis :)

28 septembre, 2005 21:32  
Blogger all a écrit...

J'ai une idée pour Google, avec les mormons de Salt Lake City numériser tous les extraits de naissance de la planète faire un search>genealogy et bénir tout le monde le jour du jugement dernier alléluia.

28 septembre, 2005 22:53  
Anonymous philippe a écrit...

toute proportion, et raison, gardée, cela me fait penser au livre 1984 de G. Orwell.
Le travail des archivistes est de réecrire en permanence l'histoire pour toujours coïncider avec la doctrine officielle du momment.
2005 : Google n'est jamais né le 7 septembre.
2006 : Google n'est jamais né en septembre.
2007 : Google n'est jamais en 1998.
2984 : Google n'est jamais né. Il existait avant l'informatique, avant l'ére industrielle, avant même l'humanité.

29 septembre, 2005 12:34  
Blogger Jérôme Charron a écrit...

On annule la journée du 11 Octobre?
;-)

29 septembre, 2005 12:41  
Anonymous Thanh a écrit...

Bravo, merci pour l'enquête !

29 septembre, 2005 14:04  
Blogger SdC a écrit...

Non non le 11 oct. existe et on sera là !

29 septembre, 2005 14:45  
Anonymous MKe a écrit...

brrr...
réécrire l'histoire

"toute proportion, et raison, gardée", oui, philippe, mais j'y ai pensé tout de suite aussi. et mis en parallèle avec l'appétit toujours plus gargantuesque du grand G, ça m'angoisse un peu comme perspective, perso...

29 septembre, 2005 18:18  
Anonymous Anonyme a écrit...

Vous dites 'comme à chaque éternuement du dieu Godgle.' mais vous oubliez quand meme que VOUS faites un post ENTIER pour parler de la date anniversaire de Google!

N'importe quoi!

29 septembre, 2005 18:59  
Anonymous MKe a écrit...

c'est qu'il y avait un piège : il fallait lire l'article jusqu'au bout en fait.

Il y dit aussi "On va pouvoir passer à autre chose. Tiens, je vais peut-être vous parler un peu de Microsoft ces jours-ci pour changer..."

ce qui laisse supposer de l'ironie, et peut-être même que M. Véronis se moquait aussi un peu de lui-même. dingue non ?

et bon, passons sur le courage d'un "n'importe quoi !" anonyme...

29 septembre, 2005 22:34  
Anonymous fuligineuse a écrit...

Je ne résiste pas au plaisir de pouvoir épingler le cher Pr Aixtal sur... une faute d'orthographe !
"Le feu d'artifice était donc programmé pour le 7 septembre, mais la page d'accueil est restée désespéremment muette."
Curieux adverbe ! Est-ce à lire comme "désespère amant" ???
Amitiés fuligineuses

30 septembre, 2005 09:06  
Anonymous Merome a écrit...

Bof, je trouve que c'est bien inutile de savoir si Google est né le 7 ou le 27, et si la guerre avec Yahoo aura lieu ou non. Cela m'intéresse de savoir, par contre, comment Google indexe ses pages, quelles sont les éventuelles failles du moteur. Le blog tourne à l'anti-Googlisme primaire, c'est dommage...

30 septembre, 2005 09:51  
Blogger Jean Véronis a écrit...

"désespère amant" > Merci Fuli! être épinglé avec un aussi joli jeu de mots, j'adore.

J'ai la vue qui baisse et les neurones qui ramollissent. J'aurais dû passer mon texte au correcteur orthographique, mais pour une raison inconnue le correcteur de la barre d'outil de Google ne veut pas fonctionner sous Firefox (quelqu'un d'autre a le même problème?). Alors il faut que je me mette sous Windows, sous Internet Explorer (toutes choses que je déteste...). Mais bon, je l'ai fait, et il y avait même une autre faute: "gaché" -> "gâché"... Aargh!

Une bien belle réalisation, cette barre d'outil Google, d'ailleurs (même si la version Firefox me crée problème). J'en ai dit du bien il ya quelque temps, comme quoi, tout primaire que je suis probablement, je ne suis pas forcément anti-gouguelien (enfin, pas encore... ;-)

30 septembre, 2005 10:18  
Anonymous Anonyme a écrit...

il existe spellbound comme correcteur orthographique pour firefox :
http://spellbound.sourceforge.net/

30 septembre, 2005 13:02  
Blogger RooTseur a écrit...

Pourquoi de plus en plus de gens se monde contre google? Il ont fait quelque chose de mal ?

Pour ma part je suis toujorsu assez satisfait des réponses, et des autres services (gmail, google groupe, Gtalk)

C'est toujours gratuit et ils sont encore loin d'un microsoft ... et je pense que si on cherche doit en avoir des incohérances similaires dans le discours de microsoft ou autres grosse s companies ...

30 septembre, 2005 18:00  
Anonymous Jean-charles a écrit...

Effectivement RooTseur, leurs applis sont séduisantes et bien foutues, mais il faut juste rester vigilant. C'est un peu comme les meilleurs escrocs : ils t'arnaquent avec le sourire... Tout roule au début puis les choses d’un coup te retombes dessus et tu n’as rien vu !!!

01 octobre, 2005 11:25  
Blogger Guide Webmaster a écrit...

Mince, je ne sais même pas quelle est la date de naissance de mes sites.
Heureusement que tout le monde s'en fout.
Arbitrairement ils sont tous nés le 29 février, hop.
Beau travail Jean

04 octobre, 2005 19:28  
Blogger TOMHTML a écrit...

De toutes façons, Google n'est pas né en 1998 mais en 1997, le 15 septembre plus précisément ! (encore en septembre ^^)
c'est ce qu'indique un WHOIS sur google.com :-D

21 octobre, 2005 20:45  
Anonymous Anonyme a écrit...

bonjour
merci pour les éclairages
toutefois le titre "7 bougies" suggère sept ans
or depuis 1998, si c'est vrai,
cela fait huit
même si le gâteau n'en a que cinq..

27 septembre, 2006 08:55  
Anonymous gaze a écrit...

oups ! je viens de voir que votre page a un an...
qu'importe.
aujourd'hui google s'est rajeuni !
a bientôt

27 septembre, 2006 08:59  

Enregistrer un commentaire

mardi, septembre 27, 2005

Google: Mystery index



For a while now, I've been wondering when Google would get around to announcing its new index size, which rose dramatically in early September while the search engine's home page stayed stuck at just over 8 billion (see here and here). Well, it seems that today we got our answer. Google had something up its sleeve for its 7th birthday -- but it wasn't quite what we expected: the usual mention of the index size is now gone!



I wasn't too far off with my guess that the index size would be multiplied by 2.7. Google has confirmed this (Reuters). However, at the same time, the company decided that from now on it is no longer going to announce any figure at all, and simply says that its index is bigger than those of its competitors (Anna Patterson has more to say about this on the Google blog). Of course, one can't help but think of Yahoo!, whose announcement of 19.2 billion indexed pages caused quite a stir some weeks ago. Google Chief Executive Eric Schmidt said in a phone interview with CNET News.com that Google will stop providing the number of indexed pages "because people don't necessarily agree on how to count it". I surely agree with that! I have even amply demonstrated that a given engine can have both more pages... and more junk (see here and here).

The 27th of September 2005 will surely go down in history as a turning point in the search engine war. These same search engines now want to rely on their users to form their own comparative judgements. Well, fair enough. Except for the fact that this is extremely difficult even for experts, as regular readers of this blog will have noticed -- and of course impossible for the average internet user. So, we will end up staying with whatever search engine we're used to. Google or Yahoo? It reminds me of the machine or programming language wars (Mac or PC, C++ or VB?). But don't worry, if it's pages about Britney Spears that you are looking for, or if you're trying to find the Yellow Pages [fr], any search engine will do!

Follow up

Libellés :


0 Commentaires:

Enregistrer un commentaire

Google: Index mystère



Depuis quelque temps, je me demandais quand Google allait annoncer sa nouvelle taille d'index, puisque début septembre celle-ci a été multipliée d'un coup presque par trois, alors que la page d'accueil restait bloquée à 8 milliards [voir ici et ici]. Eh bien, nous avons la réponse aujourd'hui: le moteur nous mijotait quelque chose pour son 7ème anniversaire. Mais ce n'est pas ce que nous attendions: la mention habituelle de la taille d'index a disparu!



Je ne m'étais pas trompé en annonçant une multiplication de la taille d'index par 2.7. Google l'a confirmée (Reuters). Mais en même temps, la firme a décidé de ne plus communiquer de chiffre absolu sur sa taille d'index et se contente de proclamer qu'il a la plus grosse (Anna Patterson donne plus d'explications sur le blog de Google). Bien sûr, on pense à Yahoo! qui annonçait justement avoir dépassé 19.2 milliards de pages il n'y a pas très longtemps. Le PDG de Google, Eric Schmidt, explique dans une interview à CNET.com que Google arrête de donner des chiffres parce qu'il n'y pas consensus sur la façon de compter les pages. Bien d'accord! Et j'ai même largement montré qu'on peut avoir plus de pages... et plus de bruit (voir ici et ici).

Le 27 septembre 2005 marque donc un tournant dans la guerre des moteurs. Ceux-ci s'en remettent désormais aux internautes pour former leur propre jugement. Très bien. Sauf que c'est extrêmement difficile même pour des spécialistes, comme les lecteurs assidus de ce blog commencent sans doute à comprendre, et évidemment impossible pour l'internaute de base. On restera donc sur les positions affectives habituelles. Google ou Yahoo? Ca me rappelle un peu les guéguerres sur les machines (Mac ou PC?), ou les langages de programmation (C++ ou VB?)... Mais qu'on se rassure, pour trouver des pages sur Britney Spears ou localiser les pages jaunes, n'importe quel moteur fera très bien l'affaire...


Réactions


Lire la suite

Libellés :


15 Commentaires:

Anonymous Sebastien Billard a écrit...

C'est fou le nombre de commentaires que peut soulever un non-événement ;)

Google affirme sur son blog que l'index original a été multiplié par 1000 en 7 ans. Mais on ne connait pas sa taille originale...

Google affirme la mise en place d'un nouvel index pour son anniversaire, alors que cela se fait habituellement en plusieurs jours. Si l'on fait une recherche sur la requête "-sgfhsghsghsgh" ont obtient environ 9.5 milliards de documents indexés.

Ils disent ne plus faire la course au plus gros index, mais c'est eux qui ont toujours falsifiés leurs chiffres en comptant les pages dont ils connaissaient l'URL mais dont ils n'avaient pas indexé le contenu...

Ils se foutent de la goo-gueule du monde AMHA ;)

27 septembre, 2005 09:59  
Anonymous michaël a écrit...

pour ceux qui ne savent ni quoi ni comment choisir, la solution passe peut-être par les métamoteurs. à l'heure actuelle, les résultats les plus riches me sont fournis par ixquick, même si dogpile continue de m'intriguer. celui-ci interroge moins d'index que son concurrent, n'en interroge pas de différents et pourtant fournit des résultats parfois divergents.

quant aux fans des vieux conflits, ils peuvent toujours s'amuser avec eo, dont l'interface est indéniablement marquée par le look & feel d'apple.

27 septembre, 2005 10:04  
Anonymous Jérôme k a écrit...

"Google affirme sur son blog que l'index original a été multiplié par 1000 en 7 ans. Mais on ne connait pas sa taille originale..."

En fait si... en août 1998, l'index de Google pesait environ 24 millions de pages.

"comptant les pages dont ils connaissaient l'URL mais dont ils n'avaient pas indexé le contenu..."

Ils me semble que Google a toujours compté les pages de son index de cette manière, et a toujours bien précisé sa méthode de comptage. Je me rappele d'un "searchable index slightly smaller". Alors c'est comme les chiffres du chômage, tu peux toujours critiquer la méthode de comptage, mais tant qu'elle est publique il n'y a que les imbéciles pour ne pas comprendre les chiffres!

Alors n'allez pas dire que je suis "pro-google", loin s'en faut... Juste qu'à un moment il faut arrêter de critiquer à tout va. On l'utilise tous et c'est quand même bien pratique, non? A moins que vous puissiez faire mieux... (j'y travaille un peu et croyez moi ce n'est vraiment pas simple!)

27 septembre, 2005 11:00  
Anonymous Emmanuel Bégué a écrit...

Recherche Google vs. Google suggest...? Les 2 ne donnent pas le même nombre de résultats, pourquoi?

Par exemple si on cherche "veronis" dans Google on obtient "about 1,800,000 for veronis" mais si on utilise Google suggest et qu'on tape "veronis" la liste déroulante nous dit qu'il n'y a que 56000 résultats...?

Est-ce que Google suggest n'a pas été mis à jour?

27 septembre, 2005 11:07  
Blogger Jean Véronis a écrit...

Emmanuel> Est-ce que Google suggest n'a pas été mis à jour?

Effectivement, Google Suggest semble utiliser un état ancien de la base de données...

27 septembre, 2005 11:18  
Anonymous Olivier Ertzscheid a écrit...

Bonjour Jean,
Je viens d'aller me ballader sur Internet Archive. Dans (mon) inconscient collectif, le nombre de pages indexées avait toujours figuré en page d'accueil de Google. Or il semble que ce n'est qu'en Juillet 2000 (soit 2 ans après son lancement) qu'apparaît pour la première fois cette mention, au moment où Google dépasse le milliard de pages (ou dit qu'il le dépasse).
J'en recause par là : www.affordance.info

27 septembre, 2005 11:30  
Anonymous E. B. a écrit...

EB->JV
Ce n'est pas la place ici mais je vous ai écrit fin août à propos du TLFI, avez-vous reçu mon message ou bien a-t-il été détruit par un filtre anti-spam?

27 septembre, 2005 13:51  
Blogger Jean Véronis a écrit...

EB> avez-vous reçu mon message?

Non, cela ne me dit rien. Peut-être le filtrage anti-spam, ou simplement le fait qu'au retour de vacances j'avais plusieurs milliers de messages en attente et je n'ai toujours pas résorbé le problème, car ils continuent d'arriver plus vite que je ne lis... Mille excuses. Vous me renvoyez?

27 septembre, 2005 13:56  
Blogger Christophe a écrit...

Connaissez-vous le top 50 quotidien de lykos?
Interessant de suivre l'actualite via les requetes des internautes.
C'est a:
http://50.lycos.com/
Cordialement desde Mexico,
CM

27 septembre, 2005 14:53  
Blogger Jean Véronis a écrit...

Merci pour le lien! je vois que Pamela est en meilleure place que Britney ;-)

27 septembre, 2005 14:56  
Blogger Jean Véronis a écrit...

Sebastien Billard>Google affirme sur son blog que l'index original a été multiplié par 1000 en 7 ans. Mais on ne connait pas sa taille originale...

En fait, si: L'article de Brin et Page en 1998 "The Anatomy of a Large-Scale Hypertextual Web Search Engine" donne 24 millions de pages. Donc c'est cohérent avec la taille actuelle (~ 8 milliards x 3 ) .

27 septembre, 2005 16:06  
Anonymous Sebastien Billard a écrit...

En effet Jean, tout dépend donc de où l'on fixe l'origine :)

27 septembre, 2005 17:10  
Anonymous cimendef a écrit...

Il semble que le terme "-sgfhsghsghsgh" se trouve dans l'url des pages cachées de Google. Serait-ce donc le nombre de pages cachées (et donc indéxées)?

27 septembre, 2005 17:32  
Anonymous sebastien billard a écrit...

Cimendef : non en fait en faisant une recherche sur "-sgfhsghsghsgh" on demande à Google toutes les pages ne contenant pas "sgfhsghsghsgh", càd en principe la totalité des pages indexée, sgfhsghsghsgh étant un mot extremement rare ;)

Jean : Merci pour la citation de mon billet ;)

27 septembre, 2005 19:22  
Anonymous Anonyme a écrit...

regardez : http://beta.exalead.fr/search

norman

28 septembre, 2005 11:32  

Enregistrer un commentaire

vendredi, septembre 23, 2005

Google: Pages à gogo



Imagine my surprise when I discovered that Google now indexes 584,000 pages of my professional website! I know I write a lot (too much, some may say) but still, several hundred thousand pages in the space of a few days is beyond even my capabilities ...



When I took a closer look, I soon realised that this sudden massive increase was due to my concordance program for the European Constitution (and the French Constitution) [see English version]. Long-time readers of this blog (yes, I already have some “long-time” readers, at least in blog years) will remember that back in April I wrote a little program for navigating through the infamous “Treaty establishing a constitution for Europe” – our beloved institutions hadn’t thought to provide us with anything other than an all but unreadable, 480-page tome in pdf format ...


Chercher dans la Constitution Française Européenne



Fr : A B C D E F G H I J K L M N O P Q R S T U V W X Y Z - Mots fréquents
Eu : A B C D E F G H I J K L M N O P Q R S T U V W X Y Z - Mots fréquents

Technologies du langage - Aide

You can perform a search by typing a word in the search box, and if you click a letter, you can also see a list of the words that appear in the draft European Constitution and the French Constitution.



You just need to click a word (banque, for instance) to see every passage containing this word ... If you click one of these passages, the relevant page of the draft European Constitution then appears (for example, Article III-159) [same queries in English: bank, Art. III-159].

All of these are virtual pages, generated by a program as and when the queries are made. Nonetheless, Google has diligently followed each of the links, and indexed every single one of them. That’s quite a few pages, believe me! Hundreds of thousands of virtual pages, each containing a range of different fragments from the draft European Constitution and the French Constitution. Yahoo!, on the other hand, is far more conservative that its competitor and does not follow the links. As a result, only 21,900 pages of my site are indexed by Yahoo!, which seems to more or less correspond to my dabblings in HTML over what has now been more than ten years on the web …

I have no way of knowing the overall impact of Google’s new indexation method, but in all likelihood mine is not the only site where this has happened. Would this sudden inclusion of dynamic pages go part of the way towards explaining the enormous leap in Google's index size at the beginning of September, when it increased nearly threefold – leaving aside what it says on its home page (see here)? Thanks to Trendmapper, we can see the dramatic increase for the search query "véronis", for instance (Google is in yellow) -- indeed, Trendmapper shows how the same thing has happened for nearly all search queries:




Needless to say, this has a negative impact on quality. By massively and blindly indexing automatically-generated pages in this way, Google is certainly adding to the “noise” in its index (spam, lists of words, etc), which was already worse than its competitor’s last August, even before this quantum leap (see here). Google’s engineers are smart enough to realise this, and I can’t help think that this sudden opening of the floodgates to allow in dynamic pages is nothing more than a panic move in the (absurd) war over index sizes, coming just after Yahoo announced that its index had reached 19.2 billion pages. I’ve been on the lookout for a shock annoncement from Google, but there has been nothing so far – the home page is still stuck at 8 billion. Make of that what you will.

In any case, all of this provides real food thought. Dynamically-generated pages are becoming more and more common on the web: more and more sites are now managed using CMS (content management systems), such as SPIP, which generate pages on the fly. One of the best-known is Wikipedia, but this is very much a general trend. But how can you tell good dynamic links from bad, and in particular from spam? I didn’t mean any harm with my concordance program, but if I were an unscrupulous SEO, I could just as easily build what is known as a spider trap, which generates random text on the fly in order to trick the robots (or spiders) that carry out the indexing. A fair number of these exist already (although you must forgive me if I don’t give them publicity by adding links).

Of course, statistical techniques allow the worst offenders to be filtered out, as I said when discussing splogs. But I ended that particular post by mentioning how it was becoming more and more difficult to tell spam apart from genuine text, as spammers are learning fast and now avoid making the most blatant statistical errors. In a way, without meaning to, I have built the perfect spider trap: who could claim that the extracts from the draft European Constitution and the French Constitution fail to respect the statistical criteria for “good” texts? All I’d need to do is add some links to a commercial site, or even just live off of my earnings from the Google ads that I could put on my virtual pages. Others have had the same idea, and it is my belief that the fight against web spam will become one of the major challenges of the next few years. If the search engines can’t come up with the right tools, spam may well end up killing off the web as we know it, just as it nearly did with email.

Libellés :


0 Commentaires:

Enregistrer un commentaire

Google: Pages à gogo



Quelle n'a pas été ma surprise en constatant que Google indexe désormais 584 000 pages sur mon site professionnel ! Je sais que j'écris beaucoup (certains disent trop), mais tout de même, plusieurs centaines de milliers de pages en quelques jours, c'est au-dessus de mes forces...



En examinant la situation de plus près, je me suis aperçu que l'augmentation soudaine et massive provient de mon concordancier sur la Constitution Européenne (et la Constitution Française). Les vieux (si, déjà, à l'échelle du temps de la blogosphère!) lecteurs de ce blog se souviennent sans doute que j'avais réalisé au mois d'avril un petit programme qui permettait de naviguer dans le fameux projet de Traité Constitutionnel -- nos chères institutions n'ayant pas eu l'idée de nous fournir autre chose qu'un indigeste pavé de 480 pages au format pdf...


Chercher dans la Constitution Française Européenne



Fr : A B C D E F G H I J K L M N O P Q R S T U V W X Y Z - Mots fréquents
Eu : A B C D E F G H I J K L M N O P Q R S T U V W X Y Z - Mots fréquents

Technologies du langage - Aide

On peut faire une recherche en tapant un mot dans le champ du formulaire, mais on peut aussi, en cliquant sur les lettres A, B ... Z voir la liste des mots qui apparaissent dans le TCE et dans la Constitution Française.



Il suffit alors de cliquer sur un mot, banque, par exemple, pour voir tous les passages qui contiennent ce mot... En cliquant sur un des passages, on fait apparaître la page correspondante du TCE (par exemple, l'article III-159).

Toutes ces pages sont purement virtuelles, et générées par un programme au fur et à mesure des requêtes. Eh bien, figurez-vous que Google a suivi tous les liens très consciencieusement, et les a toutes indexées. Ça fait du volume! Des centaines de milliers de pages virtuelles contenant des fragments divers et variés du TCE et de la Constitution Française. Yahoo! est beaucoup plus conservateur que son confrère, et il ne suit pas les liens. Résultat, seulement 21 900 pages de mon site y sont indexées, ce qui semble à peu près correspondre à tout mon foutoir HTML accumulé depuis plus d'une dizaine d'années...

Je n'ai aucun moyen de connaître l'impact global de ce nouveau mode d'indexation googlesque, mais il est probable que ce genre de gag ne se produit pas que chez moi. L'ouverture massive des vannes vers les pages dynamiques expliquerait-elle en partie l'énorme saut de l'index Google début septembre, multipliant sa taille pratiquement par trois -- sans rien dire sur sa page d'accueil (voir ici)? On voit par exemple (grâce à Trendmapper) le bond fait par la requête "véronis" (Google est en jaune) -- on pourra constater sur Trendmapper que la même chose se produit sur la quasi totalité des requêtes :



Évidemment, la qualité n'est peut-être pas au rendez-vous, car en indexant massivement et de façon aveugle les pages générées par programme, Google aggrave très certainement le "bruit" que contient son index (spam, listes de mots, etc.), et qui semblait déjà supérieur à celui de son concurrent au mois d'août avant ce saut quantique (voir ici). Les ingénieurs de Google sont suffisamment intelligents pour avoir réalisé ça, et je ne peux donc pas m'empêcher de penser que l'ouverture soudaine des vannes en direction des pages dynamiques correspond à un mouvement de panique dans la guerre (absurde) des tailles d'index, juste après que Yahoo a annoncé que son index atteignait 19,2 milliards de pages. Je guettais une annonce-choc de la part de Google, réponse du berger à la bergère, mais toujours rien -- la page d'accueil est toujours bloquée à 8 milliards. Comprenne qui pourra.

En tous cas, tout cela mérite réflexion. Les pages générées dynamiquement sont de plus en plus nombreuses sur le web: de plus en plus de sites sont gérés à travers des CMS (content management systems), tels que SPIP, qui génèrent les pages à la volée. L'un des plus connus est Wikipedia, mais la tendance est générale. Comment faire pour suivre les bons liens dynamiques et pas les mauvais, et en particulier le spam? Je n'avais aucune intention nuisible avec mon concordancier, mais si j'étais un référenceur peu scrupuleux, je pourrais tout aussi bien construire ce qu'on appelle un spider trap, piège à araignées, qui génère du texte aléatoire à la volée juste pour tromper les robots d'indexation. Il en existe déjà des quantités (excusez-moi de ne pas leur faire de pub en mettant des liens).

Bien sûr, des techniques statistiques permettent de filtrer les cas les plus grossiers, comme je le disais à propos des splogs. Mais je concluais ce billet en mentionnant qu'il serait de plus en plus difficile de distinguer le spam des textes légitimes, car les spammeurs se documentent et évitent désormais les erreurs statistiques les plus flagrantes. D'une certaine manière, j'ai, sans le vouloir, construit le piège à araignée parfait: qui pourrait dire que des extraits du TCE et de la Constitution française ne respectent pas les critères statistiques des "bons" textes (encore que...)? Il me suffirait d'ajouter des liens vers un site commercial, et même simplement vivre du revenu des annonces Google que je mettrais sur mes pages virtuelles. D'autres y ont pensé, et la lutte contre le web spam va devenir à mon avis l'un des enjeux majeurs des prochaines années. Si les moteurs ne se dotent pas des outils adéquats, le spam est de nature à tuer le web tel que nous le connaissons, comme il a failli tuer le mail.


Post-scriptum


Voir le billet d'Olivier Andrieu sur le Blog d'Abondance:

Libellés :


15 Commentaires:

Anonymous Sebastien Billard a écrit...

C'est une technique couramment utilisée pour le référencement des annuaires, qui mettent en pied de page des mots-clés (rémunerateurs bien surs) liés à la page de résultats d'une recherche dans l'annuaire sur le mot-clé correspondant.

Par exemple je pourrais très bien ajouter en bas de mon annuaire un lien "université" menant vers : http://s.billard.free.fr/annuaire-nord/search.php?q=universit%E9

Une astuce encore plus perverse consiste à générer ces liens automatiquement au gré des requêtes des utilisateurs. Chaque recherche crée donc virtuellement une page indexable ;)

23 septembre, 2005 12:01  
Anonymous arno. a écrit...

Il trouve beaucoup moins par une autre methode

23 septembre, 2005 12:56  
Blogger Jean Véronis a écrit...

Arno> Oui, c'est parce que votre requête

site:www.up.univ-mrs.fr/veronis/

ne concerne que mes pages statiques, alors que les pages dynamiques sont sur

site:www.up.univ-mrs.fr/cgi-veronis/

23 septembre, 2005 13:04  
Anonymous Dominique a écrit...

Je me suis posé la même question ce matin en voyant que le nombre de pages citant le titre de mon tout petit blogue était passé dans la nuit de 941 à plus de 9 900. Un bond de 1 000 %, cela semble du jamais vu. Et puis je me suis rappelé que certains internautes consultent mes pages avec Anonymoused, que j'ai procédé à un maraboutage de mon blogue par le site que vous avez signalé, qu'il y a des citations du titre dans des archives dynamiques de groupes de discussions. Mais enfin, cela n'est pas toute l'augmentation !

23 septembre, 2005 16:24  
Anonymous Anonyme a écrit...

Google indexe tout, mais est-ce qu'il positionne tout ?

A voir...

23 septembre, 2005 20:04  
Blogger Jérôme Charron a écrit...

JV> "Toutes ces pages sont purement virtuelles"
Elles sont virtuelles car générées dynamiquement, mais elles n'en sont pas moins informationnelles et porteuses de sens. Il n'est donc pas si incroyable que cela qu'un moteur de recherche les indexe. Non?

JV> "mais il est probable que ce genre de gag ne se produit pas que chez moi"
Je ne trouve donc pas que l'indexation de ces pages soit un gag. En revanche, il est vrai que Google a prit un gros risque en ayant modifié son filtre d'URLs à crawler. Il s'expose ainsi très fortement au spam!

JV> "L'un des plus connus est Wikipedia, mais la tendance est générale. Comment faire pour suivre les bons liens dynamiques et pas les mauvais, et en particulier le spam?"
D'un point de vue protocolaire (HTTP), il n'y a aucun moyen de savoir si une page est générée ou non. Les spiders ne peuvent donc faire aucune distinction: le seul moyen est de filtrer sur certains patterns d'URLs: Par exemple, les URLs contenant des paramètres seront exclus. Ce sont les étapes suivantes (parsing, indexation, ...) qui doivent tenter d'identifier le spam et d'éviter son indexation.

JV> "lutte contre le web spam va devenir à mon avis l'un des enjeux majeurs des prochaines années"
Bon! C'est décidé, j'arrête Nutch et je me lance dans l'anti web spam!
;-)

24 septembre, 2005 21:49  
Anonymous Sabin a écrit...

Bonjour, je signalais juste une toute petite faute d'orthographe, en général je laisse passer, tout le monde fait des fautes de saisie au clavier... «Mais c'est peut-être le seul blog dont l'auteur n'aimerait pas laisser passer une faute», me suis-je dit...
Donc au cas où, c'était dans :
«Yahoo! est beaucoup plus concervateur que son confrère»
Salutations :)

25 septembre, 2005 01:00  
Blogger Jean Véronis a écrit...

Jérôme> Merci pour toutes ces remarques (on aura l'occasion de discuter bientôt de vive voix!).

Effectivement, ce n'est pas tellement incongru que Google indexe ces milliers de fragments de constitution. Tout le problème est qu'en ouvrant ainsi largement les vannes, ils ouvrent grand la porte au spam le plus débridé, alors qu'à ma connaissance ils n'ont pas les moyens de le filtrer très efficacement. A mon avis le spammeur de base va vite comprendre qu'il peut désormais avoir des centaines de milliers de pages indexées, et ça risque de faire croître le niveau de bruit de façon considérable. A suivre...

25 septembre, 2005 08:32  
Blogger Jean Véronis a écrit...

Sabin> Hélas, je suis comme tout le monde... Quel que soit le soin qu'on apporte à la chose, quand on écrit beaucoup, les doigts dérapent, les yeux s'embrument, le cerveau se ramollit. Et donc, j'aime bien quand les lecteurs me signalent les coquilles et autres bourdes. Merci, je corrige!

25 septembre, 2005 08:36  
Blogger Jean Véronis a écrit...

Je réécris ici le commentaire de d.durand ( 23 septembre, 2005 16:37) dont une ligne trop longue posait un problème d'affichage de la page sous IE:
------

d.durand a dit...

Google a déjà généré des problèmes du même type encore plus graves en Mai 2005 en "tentant de suivre tous les liens de manière trop volontariste": avec son Google Web Accelerator, il a détruit des Intranets entiers dans les quelques heures d'existence officielle de ce GWA...

Le site US 37Signals donne a un long inventaire (192 inputs) sur le sujet: voir
http://37signals.com/svn/archives2/
google_web_accelerator_hey_not_so_fast_an_alert_for_web_app_designers.php

25 septembre, 2005 09:05  
Blogger Jérôme Charron a écrit...

Google Blog Search Searchable !!!
Plutôt marrant, Google indexe le résultat des recherches de blogsearch.google.com.
Google, ou le moteur qui indexait les résultats de ses propres recherches...
Mais bon, le problème est maintenant corrigé, il ne reste plus qu'à nettoyer l'index.

29 septembre, 2005 11:54  
Anonymous tanguy a écrit...

Dans le même esprit, Fabien Mathieu a fait une page web assez amusante.

tout le web

30 septembre, 2005 09:46  
Anonymous Anonyme a écrit...

Juste un point de grammaire:

"après que" est suivi de l'indicatif!

cf "juste après que Yahoo ait annoncé..."

28 décembre, 2005 13:00  
Blogger Jean Véronis a écrit...

Allez, je corrige pour vous faire plaisir, mais je n'aime pas cette tournure qui me semble être une exception antinaturelle: avant_que + subjonctif mais après_que + indicatif...

Grévisse (et d'autres) signalent que l'indicatif est en perdition. D'ailleurs, Google confirme:

"apres qu'il a" : 51400
"apres qu'il ait" : 58500

28 décembre, 2005 13:10  
Blogger franck a écrit...

Google a indexé les pages mais est-ce que le nombre de visiteur a fait un bond ?  Ne risque-tu pas, au contraire, d'être pénalisé par une augmentation anormale de page sur ton site ??

06 avril, 2007 11:02  

Enregistrer un commentaire

mardi, septembre 20, 2005

Langues: Exercisse de francé

Lise, qui a créé une petite boîte de cours de français pour adultes à Edinburgh, a eu une idée tout à fait étonnante: utiliser mon "pourrisseur de textes" pour générer des exercices de français langue étrangère!



Exemple: prenons un petit texte tout-à-fait normal (ou presque), un extrait d'une dictée de Bernard Pivot, et passons-le au pourrisseur. Voici ce que ça donne:
Dan toute les langues, gouer avce les mots est un pase-temps fort agréable, à là portée de tout le monde, des blanc-becs, des rimailleurs, des étudiants, come des linguisttes chevronné et des académiciens tout de vert vêtu. Les mot sont des amis fidèles, des serviteurs zélés, qui se sont tougour prêtés à nos fantaisies, a nos manigances, à nos acrobatie intelectuelles. Les mots sontdes caioux, des bigous, des cachous, des goujous.
L'exercice consiste à restituer le texte dans son orthographe originale (pas si facile pour un apprenant du français!). J'ai trouvé l'idée excellente et amusante. Bravo Lise, voilà une application à laquelle je n'avais pas pensé!

7 Commentaires:

Anonymous Anonyme a écrit...

Ridicule application qui n'a aucune utilité, on peu très bien le faire soi même avec plus de jugeote.

20 septembre, 2005 18:45  
Blogger TOMHTML a écrit...

Sauf si t'as pas de temps à perdre avec ça...
encore un qui a parlé avant de réfléchir...

20 septembre, 2005 18:49  
Anonymous Anonyme a écrit...

Intéressant, mais il me semble que ce genre d'exercices est plutôt critiqué d'un point de vue pédagogique (est-il en effet souhaitable d'exposer un apprenant à tout un tas de fautes ?).

20 septembre, 2005 21:46  
Blogger Jean Véronis a écrit...

Je ne suis pas spécialiste, mais si ce genre d'exercice est très ponctuel, avec des adultes, ça ne me semble pas très nocif... Mais il est certain que si notre pauvre cerveau est exposé de façon répétitive aux mêmes fautes, il a tendance à les apprendre par "imprégnation". Je m'aperçois que j'ai ce problème moi-même avec l'anglais, que je lis et écris quotidiennement. Il y a deux mots qui sont devenus des cauchemars pour moi en français: abréviation et littérature. A force de les voir écrits abbreviation et literature en anglais (pervers, quand même!), mes doigts ne réagissent plus correctement. Je veux dire que c'est tellement inconscient que je me mets à faire la faute en français (ou en anglais) sans même m'en apercevoir...

21 septembre, 2005 08:02  
Blogger Gabrouze a écrit...

Tout à fait pas d'accord avec 'Anaunimousse' :o) Le pourrisseur de texte est ludique et l'application qui en est faite est assez pédagogique si elle est suivie d'une explication sur l'ecriture véritable des mots.

21 septembre, 2005 08:56  
Blogger lilithenecosse a écrit...

Du point de vue pédagogique, il me paraît clair qu'il est généralement préférable de ne pas exposer des débutants à ce type d'exercice (pour éviter effectivement de les exposer à des fautes à un moment crucial de leur apprentissage).

Cependant, et comme l'ont fait remarquer Jean et Gabrouze, il me semble utile de se livrer à ce type d'exercice pour illustrer ou souligner un point de grammaire/orthographe précis.
En l'occurrence, j'ai utilisé le logiciel pour illustrer la scène de la dictée du film Etre et Avoir, que j'utilise en cours en ce moment pour améliorer la compréhension orale des apprenants (niveaux intermédiaire à avancé). Je voulais leur rappeler les conjugaisons correctes de l'imparfait et du conditionnel, en vue de les préparer à un exercice de transposition de dialogue au discours indirect...

Je verrai demain si l'exercice aura été utile!! Alea jacta est!!

21 septembre, 2005 10:08  
Anonymous Vonric a écrit...

Jean Véronis> Habitant a Londres depuis 6 ans, j'ai le meme probleme avec les doubles consonnes "p", "m", "n", "l" ... etc, et les conjugaisons (:-( ).

(désolé pour les accents, hormis é avec Alt Gr+e, j'ai aussi un clavier qwerty ;-) ).

22 septembre, 2005 13:12  

Enregistrer un commentaire

jeudi, septembre 15, 2005

Splogs: Antisplog.net system



Hatem from Antisplog.net has left a comment on my post "Google, Blogger and splogs", asking for my opinion about his site. Antisplog.net is an on-line service launched a few days ago, that enables you to check whether a given URL is likely to be a splog.



As explained here, to use it, you simply send the query:
  • http://www.antisplog.net/check/the_url_to_check
where the_url_to_check is the blog that you're trying to check.

Antisplog.net will return :
  • 1 : if the blog is detected as a SPLOG
  • 0 : if not.
  • 3 : if the URL don't open due to a DNS error, 404 error ... etc
I sent the set of URLs that I borrowed from Philip Lenssen, which I used in my previous post (only 42 respond this morning). The results are quite impressive:

Correct


Normal17

Spam22

Total correct39 (92%)

Wrong


Normal (false positives)2

Spam (false negatives)1

Total wrong3 (8%)


A success rate above 90% is quite impressive for a system that young, especially since, as I noted before, some of these splogs are quite difficult to tell apart from normal ones, even for the human eye. Congratulations then. I'll be following how the system develops with great interest.

If I can give one piece of advice for the future, I would try to decrease the false positive rate (i.e. normal blogs reported as spam). At the moment, this rate is 2/19, i.e. ca. 10% (although of course a precise assessment is difficult on such a small number of URLs). It seems to me quite dangerous to report legitimate blogs as spam, and I would be happier that this rate fall well below 1%, even if the price to pay is to let more splogs through the net.

Of course, spammers monitor all this (see here for instance), and I am pretty sure that they will come up soon with splog- generating software to produce human-looking texts which will be extremely difficult to tell apart from real human texts by automatic means.

Anyway, congratulations again, Hatem, and good luck with your system!

1 Commentaires:

Blogger JoeChongq a écrit...

Some spammers are already creating splogs with human created text. They just steal text from other sites (Wikipedia being an obvious choice).

But even with actual human created text there are still characteristics splogs do not share with normal blogs. They are much harder to detect by a human unless you recognize the text is stolen, but hopefully AntiSplog.net can identify most of them based on their other spammy characteristics.

16 septembre, 2005 00:13  

Enregistrer un commentaire

Splogs: Système Antisplog.net



Hatem d'Antisplog.net a laissé un commentaire sur mon billet "Google, Blogger et le splog", en me demandant mon opinion sur ce site. Antisplog.net est un service en ligne lancé il y a quelques jours, et qui permet de vérifier si une URL donnée ressemble à du splog.



Comme il est expliqué ici, il suffit d'envoyer la reqûete:
  • http://www.antisplog.net/check/the_url_to_check
the_url_to_check est l'adresse du blog à vérifier.

Antisplog.net retourne :
  • 1 : if si le blog est détecté comme SPLOG
  • 0 : sinon.
  • 3 : s'il l'URL ne peut pas être ouverte (DNS error, 404 error ... etc.).
J'ai envoyé la liste d'URL empruntée à Philip Lenssen, que j'ai utilisée dans mon billet précédent (seulement 42 répondent ce matin).

Correct


Normal17

Spam22

Total correct39 (92%)

Erroné


Normal (faux positifs)2

Spam (false négatifs)1

Total erreurs3 (8%)


Un taux de succès au-dessus de 90% est tout à fait impressionnant pour un système aussi jeune, surtout si l'on considère que certain de ces splogs sont très difficiles à différencier de blogs normaux, même pour l'observateur humain. Félicitations, donc. Je suivrai l'évolution du système avec intérêt.

Si je peux me permettre de donner un conseil pour la suite, j'essaierais plutôt de réduire le taux de faux positifs (c'est-à-dire les blogs normaux détectés comme spam). Pour le moment, ce taux est de 2/19, c'est-à-dire dans les 10% (bien qu'évidemment il soit difficile de faire une évaluation précise sur un aussi petit nombre d'URL). Il me semble en effet tout à fait dangereux de signaler des blogs normaux comme splogs, et je serais beaucoup plus rassuré si le taux de faux positifs était bien en-dessous de 1%, même si le prix à payer est de laisser passer plus de splogs à travers le crible.

Bien les spammeurs suivent tout cela en temps réel (voir ici par exemple) et je suis convaincu qu'ils vont disposer bientôt de logiciels permettant de générer des splogs composé de textes à l'allure humaine, qui seront très difficiles à distinguer de vrais textes humains par des moyens automatiques.

En tous cas, félicitations à nouveau, Hatem, et bonne chance avec votre système!

5 Commentaires:

Blogger all a écrit...

On remarquera que les splogs y référencés sont détectés par le nouveau moteur de recherche blog de Google
http://blogsearch.google.com/

15 septembre, 2005 12:28  
Anonymous Hatem a écrit...

Merci beaucoup pour le post !

En effet le taux d'erreux j'essaye de reduire en analyzant plus de cas et plus de techniques. Difficile d'échapper a l'erreur :)

En fait les spammeurs j'ai rencontre de tous les couleurs, y'a deja de nouveaux types de spams impossible de détecter que Antisplog detecte.

C'est pour cela que j'ai déja poste que le théoreme de Bayes peut aider en théorie, mais en pratique ca marche pas. J'avais des taux d'erreurs supérieur a 40% en gros.

Le taux de faux positifs je suis d'accord, et y'a déja un progrès sur ce sujet. Cependant certains blogs je sais pas s'ils le font par erreur ou exprès mais utilisent des techniques de spams et j'en ai vu plusieurs. Ceux précisemment y'a pas de moyens qu'ils y échappent .

En fait merci pour le lien de SEO Black, dire que peut importe la technique utilisée elle sera facilement détectable pour la simple raison qu'ils ont dans la majorité le meme but, ou deux. Et détecter un but ou deux est plus simple que détecter 1000 techniques de spam.

15 septembre, 2005 15:31  
Anonymous Robert Franchisseur a écrit...

http://www.antisplog.net/check/http://aixtal.blogspot.com

retourne 1 pour ce site ;-)

16 septembre, 2005 19:26  
Blogger Jean Véronis a écrit...

Aaaargh!!!

Hatem, au secours!

17 septembre, 2005 17:41  
Anonymous Sabin a écrit...

C'est ubuesque, et merveilleusement drôle ^_^

25 septembre, 2005 01:02  

Enregistrer un commentaire

vendredi, septembre 09, 2005

Google: Spot the mistake



Something is going on at Google. Compare the pictures :








For a long time, Google's hit counts for individual queries have been increasing steadily, although the claimed index size has hardly changed (see previous post). However, there was a sudden big jump two days ago. The diagrams below show the hits for the same set of queries on August 10th and now (as was the case with Yahoo in March the correlation is so perfect that it makes you wonder...).


English


French

If my computations are right, Google should soon announce a multiplication by 2.7 of its index size, i.e. a figure close to 21 billion (or maybe they won't announce it, and live with the contradiction -- I have more or less given up with Google's logic). Of course, this has nothing to do with Yahoo's recent claim of 19.2 billion indexed pages ;-)


See also

Libellés :


2 Commentaires:

Anonymous google.dirson.com a écrit...

Jean: information showned on the main page of Google is the number of *web* pages indexed. And the info from the results are *documents* (not only web pages, but also PDF, DOC, ...).

10 septembre, 2005 10:21  
Blogger Jean Véronis a écrit...

Dison> It is not my understanding of Google's self-reported figures. However, the hit jump remains.

12 septembre, 2005 07:44  

Enregistrer un commentaire

Google: Cherchez l'erreur



Il se passe quelque chose chez Google. Comparez les photos :








Pendant longtemps, les nombres de résultats retournés par Google sur les requêtes individuelles ont continué à croître tranquillement, alors que la taille d'index annoncée sur la page d'accueil restait fixe ou à peu près (voir billet précédent). Cependant, il y a eu un bond énorme il y a deux jours. Le diagramme ci-dessous montre les nombres de résultats retournés par le même ensemble de requêtes le 10 août et aujourd'hui (comme pour Yahoo en mars, la correlation est si parfaite, qu'on ne peut s'empêcher de se poser des questions...):


Anglais



Français

Si mes calculs sont exacts, Google devrait très bientôt annoncer une multiplication par 2,7 de sa taille d'index, un chiffre proche de 21 milliards (ou bien peut-être ne vont-ils pas l'annoncer et continuer à vivre avec la contradiction -- j'ai plus ou moins renoncé à comprendre leur logique). Bien sûr cela n'a rien à voir avec le fait que Yahoo a annoncé récemment que son index atteignait 19.2 milliards de pages ;-)

Libellés :


9 Commentaires:

Anonymous HP a écrit...

de plus en plus comique ce Google :)

je fais parti des victimes inocentes du durcissement du "blaclistage" anti-spam qui a été abordé aujourd'hui (me semble) ; mais ce billet est si fendard, que je viens poster ici : MDR, XPLDR ...

Trop puissant !

09 septembre, 2005 16:36  
Blogger all a écrit...

M. Véronis si vous continuez à taper sur Google vous allez faire baisser mes actions, la plus belle affaire que j'ai faite depuis longtemps.

09 septembre, 2005 17:04  
Anonymous M. Brinbagnan a écrit...

Bonjour,

Depuis quelques temps, je lis ce blog, et j'enrage...
En effet, je suis complètement opposé a vos idées, et a -tout-ce que vous dites en général (sauf exception). J'ai essayé de commenter vos billets, mais a chaque fois, votre censure (apparamment mieux développée que celle de Yahoo! et Google) m'a empeché de m'exprimer ici...

J'espere donc que ce commentaire ne sera pas censuré...

Je voulais donc dire que Yahoo, a ce niveau, ne fait pas beaucoup mieux que Google (ne parlons pas de MSN Search, on dirait qu'il ne prend en compte cette option que pour les liens sponsorisés).
Tout ça pour vous dire que quand vous critiquez Google, comparez tout de même avec les autres moteurs.
Tout le monde n'est pas Googleophobe ;)

09 septembre, 2005 21:57  
Blogger Jean Véronis a écrit...

M. Brinbagnan> Je ne censure rien du tout (la preuve!). Je pense donc qu'il y a peut-être un problème technique soit de votre côté, soit de celui de Blogger (mais pour l'instant personne ne m'a rapporté de problème similaire).

Je ne suis pas Googlophobe, et si vous lisez tous mes billets, vous verrez que parfois je suis plutôt admiratif sur leurs réalisations (par exemple sur Google Print, Scholar, Suggest ou sur la "barre Google").

09 septembre, 2005 22:20  
Anonymous Quentin a écrit...

Je confirme que depuis une semaine tous les forums de webmasters sonne d'une même cloche : le nombre de pages recensés pour chaque site dans Google croît de façon exponentielle.
Cela est du pour une part au nouvel outil Google Sitemap, qui encourage chaque webmaster à mettre à disposition de Google, au sein d'un flux XML, la liste intégrale des pages de son site.
Des logiciels gratuits fleurissent sur le net pour générer ces flux.

12 septembre, 2005 14:44  
Anonymous Pilou a écrit...

Jean Véronis m'agace ! Du moins sa façon de privilégier l'anglais. Cherche-t-il à se faire recruter par quelque prestigieuse université US ?

A propos de pages, je ne sais toujours pas ce que c'est, UNE page (j'avais posé la question le 26 août, sur le billet [Yahoo: Pages manquantes? (4) ]).

En poursuivant mes test sur le fonctionnement des 2 moteurs (c'est surtout Google qui m'intrigue), je suis tombé sur un truc bizarre. Sur la requète fontaine + espeluque (fontaine n'est là que pour filtrer les sites de généalogie) Yahoo renvoie 16 réponses, Google 25. MAIS si Yahoo fournit des sites avec l'orthographe exacte (Espéluque, avec accent !), Google ne donne que ceux non-accentués (dont aix-en-provence.com ! si j'étais aixois, j'irais leur remonter les bretelles).
En modifiant la requète en fontaine + espéluque Google affiche 45 réponses, dont celles non-accentuées !!!
L'affichage d'une page sans l'accent (www.ruesdemaville.com/VILLES_30/page_ville_12408.htm) depuis le cache fournit le message suivant :
Les termes de recherche suivants ont été mis en valeur : fontaine
Ces termes apparaissent uniquement dans les liens pointant sur cette page : espéluque

La fonction link: ne fournit qu'un seul lien, dans la page de niveau supérieur, qui est le nom de la ville, Saint Bonnet du Gard ; ce que confirme Yahoo. D'où vient ce lien ? Mais peut-être qu'en anglais c'est plus explicite ;-}}

Une chose est certaine : pour tirer le meilleur de Google, il faut respecter l'orthographe.

13 septembre, 2005 15:48  
Blogger Jean Véronis a écrit...

Pilou> Je suis désolé de vous agacer... Mais je ne vois pas en quoi je "privilégie" l'anglais. Tous mes billets paraissent d'abord en français. Que voulez-vous, j'aurais préféré que ce soit le latin, mais c'est l'anglais qui est devenue la langue scientifique internationale. Je n'y peux rien.

Cherche-t-il à se faire recruter par quelque prestigieuse université US ? : J'ai déjà donné, et n'ai aucune envie d'y retourner. La bouffe est trop mauvaise.

En tous cas merci pour vos remarques. Je ne sais pas non plus ce qu'est une "page" Web. Ce terme recouvre bien des choses (et parfois des vides...).

13 septembre, 2005 17:38  
Blogger Marianne a écrit...

Jean on attend vos commentaires sur google blog search ! :-) (pas de rapport direct avec ce billet, enfin je crois)

14 septembre, 2005 14:02  
Blogger Jean Véronis a écrit...

Marianne> Bah, pour l'instant pour le peu que j'ai pu tester, il me paraît bien en dessous de Feedster, par exemple. Il retrouve 120 liens pour aixtal, alors que Feedster en trouve 416. Mais il faut sans doute que ça se mette en place. Je vais surveiller tranquillement et voir comment ça évolue...

14 septembre, 2005 14:08  

Enregistrer un commentaire

Web: Google, Blogger and splogs



Splogs (a newly-coined word made up of spam + blog) are to blogs what spam is to email… Annoying little things designed to sell you Viagra or a whole host of other, equally suspect, services. How they work is quite simple: you open a free blog (or hundreds of them) which you stuff full of dummy text and – most importantly – links to the real site where you plan to sell us something (or, more probably, rip us off). Then all you have to do is wait until Google comes calling and, since Google is very good at indexing spam ;-), the customers will soon start pouring in...

Here’s a typical example (the title of each post is a link to a .biz site):



Blogger is obviously a major source of splogging. Free, easy to set up and fill using automated procedures, and well indexed by Google (see here [fr]) – when you learn that Blogger is a subsidiary of Google, you may well wonder if Google isn’t giving Blogger a little helping hand here (just compare the positioning of sites on blogspot.com with those on Yahoo or MSN). But the great paradox is that, in doing this, Google is polluting itself by generously indexing the splog generated by Blogger...

I’ve just read (a little late, I admit) an extremely interesting post by Philip Lenssen (Google Blogoscoped) in which he carries out a survey of fifty Blogger blogs and discovers that 60% of them are spam! I expected the proportion to be high, but not this high – frankly, I’m flabbergasted. If we were to venture an attempt to extrapolate this figure, it would mean that of the 32,700,000 pages Google claims to have indexed on the blogspot.com domain (Philip says 7,500,000 but this search gives me a lot more), more than 20 million of them would be spam.

Google seems to have realised that it was shooting itself in the foot with this affair, and apparently measures have been taken. At the end of August, Blogger added a “Flag?” button to the navigation bar that (usually) appears at the top of each blog, allowing visitors to report sites that seem to be spam.



This button seems suspect to me, for two reasons. Firstly, it allows for co-ordinated attacks against blogs that might upset a certain group or community... which makes me shudder just to think about it [thanks to Nathan Weinberg for the link]. But, more importantly, this button is completely useless, since it’s a simple task to just remove the Blogger navigation bar altogether (as I’ve done here on this blog by way of demonstration!). Sometimes I wonder … Google and Blogger pay their researchers and engineers a lot of money to come up with this sort of thing. It never ceases to amaze me.

But more seriously, Blogger (who must have some good engineers as well) seems to have put in place an effective anti-splog filtering system. Island Dave points out that when you click on Blogger’s “Next Blog” button, you no longer land on a spam-filled page. This is confirmed by Blogger, who claims to have “put some Artificial Intelligence to work”, no less!

As far as Artificial Intelligence is concerned, the procedures for detecting spam are quite well known. Here’s one, for instance, that I use in my classes to explain some basic notions about the distribution of words in texts, Zipf’s law (which I will no doubt return to one day), etc.

Take a text, any text. The Little Prince, for instance (and don’t bother looking, it’s not on the Web because it’s not out of copyright). Calculate the number of words. Hang on, there’s a problem with the ambiguity of the word word … Does the sentence “The Little Prince draws the little sheep” contain 7 words or 5? Why both, my dear Watson! There are 7 words separated by spaces, but only 5 different words. To differentiate between the two, we talk of tokens in the first case, and types in the second: 7 tokens, 5 types.

Now that we’ve cleared up this matter of words, let’s get to work. Using, for example, my (free) program Dico, we can see that The Little Prince [the original French version] contains 15,352 tokens and only 2412 types. This provides a type/token ratio of 0.16. Let’s look now at the cooking splog I used as an example at the beginning of this post. It has a type/token ratio of just 0.015 - ten times less! Why? It’s quite simple really. The splog in question repeats the same words over and over again, so its vocabulary is much poorer than you would expect to find on a normal blog … It’s slightly more complicated than this, since the type/token ratio tends to decrease with the size of the texts. Consequently, certain corrective measures need to be taken, but I’ll spare you the details.

I looked at Philip’s 50 addresses in order to check how effective this strategy, banal as it may seem, really was. So I copied the homepages of each of the 50 blogs, converted them into text, chopped the text files up into words, and calculated the number of tokens and types and the famous type/token ratio. Don’t worry, I have tools that do all that for me! There was one blog which Philip had put in the wrong category, so I corrected that, and I only kept those pages that contained at least 50 words, which was most of them (below this amount, my calculation doesn’t really make much sense!).

Here are the results. I put the number of tokens and the type/token ratio for each of the pages in a graph. Normal blogs are in blue, splogs are in pink.


We can see how the "normal” blogs are nicely concentrated in the cyan ellipse. Most of the splogs are completely out in space, with very low type/token ratios. There are only 7 or 8 splogs that are badly categorised and fall within the zone of normal blogs. Not bad for a strategy that even a first year student coud have come up with!

So, where’s the artificial intelligence in all this? It’s true that you have to mix a range of criteria, but still – calling this artificial intelligence is a bit much, in my opinion. For example, the distribution of outgoing links needs to be taken into account. If most of them point to the same site, something’s probably up. The number of incoming links is also an indicator: if there are a whole lot of them, and they come from very diverse sites, it is undoubtedly not a blog. And so on. Dealing with spam is very much a game of cat and mouse. Spammers, who always prefer to put in a bare minimum of effort, do things simply at first, but the anti-spammers quickly update their defences. So the spammers have to adapt, and so it goes on.

It’s worth looking at the blogs that passed my test and fall inside the cyan ellipse. I don’t want to give them any publicity, so I haven’t made these links clickable.
  • decor-home.blogspot.com
  • meds4u.blogspot.com
  • camouflagec54.blogspot.com
  • bangg0e.blogspot.com
  • digitalaudiocfd.blogspot.com
  • mlb-daily.blogspot.com
  • physicianemploymentpwt.blogspot.com
An important characteristic of these sites is that they make use of extracts from real texts, such as news clips (and they also have a variety of outgoing links). I had to look at them several times before I could tell if they were really spam, and for some of them I’m still not totally convinced. After all, blogs may well exist that collect news items in a given domain (even for commercial purposes), small ads, sports results, etc. It seems to me to be difficult to draw the line between sites which are worthless, useless or commercial (but nonetheless legitimate) on the one hand, and splogs on the other. So in the end, yes, it does take intelligence to do a good job in this area, and those who may well end up paying the price are poetic, experimental and marginal blogs who don’t meet the criteria of normal text. Imagine what Blogger or Google’s Artificial Intelligence would make of an Oulipian poetry site, for instance. But that is surely the price we will have to pay if we don’t want the Web to turn into an immense public dumping ground.


Follow up


2 Commentaires:

Anonymous Hatem a écrit...

Very nice approach to determine splogs, but as you may notice in the graph, there is many splogs concentrated with normal blogs.

I have already tryed similar approach to detect splogs but there was many consideration that make me change opinion to do some artificial intelligence calculation specially : speed of the detection algorythm.

I have an implementation that you may see at antisplog.net, I would love to have your opinion on it.

14 septembre, 2005 22:56  
Blogger Jean Véronis a écrit...

Hatem> Thanks for your message!

1. Very nice approach ... but
Please note that this is only a small experiment to serve as a sort of tutorial on the type/token ratio. As I said in the post, in a real system many sources of information should be used and combined (for example with a bayesian strategy).

2. Speed of algorithm
I agree that this is a concern (congratulation, your site responds very quickly!). However, the type/token ratio computation is not costly. I assume that you perform some kind of tokenisation anyway inside your program. It is the only costly part.

3. antisplog.net
See my post.

Good luck!

15 septembre, 2005 10:07  

Enregistrer un commentaire

Web: Google, Blogger et le splog



Les splogs (néologisme formé de spam + blog) sont aux blogs ce que le spam est au mail... Des nuisances destinées à vous vendre du Viagra, ou d'autres services plus ou moins douteux. La recette en est simple: ouvrez-vous un blog gratuit (ou des centaines...), truffez-le de textes bidons, mais surtout de liens qui pointent vers le vrai site où vous allez nous vendre quelque chose (ou probablement nous arnaquer). Il n'y a plus qu'à attendre que Google passe et comme il indexe très bien le spam ;-) les chalands vont affluer...

En voici un exemple caractéristique (chaque titre de billet pointe vers un site en .biz):



Blogger est évidemment une source considérable de splogging. Gratuit, facile à créér et alimenter par des procédures automatiques, et Google l'indexe plutôt bien (voir ici) --quand on sait que Blogger est une de ses filiales on peut se demander s'il n'y a pas un petit coup de pouce discret (il suffit de comparer avec le positionnement des sites en blogspot.com sur Yahoo ou MSN). Mais le gros paradoxe, c'est que, ce faisant, Google se pollue lui-même en indexant généreusement le splog que Blogger génère...

Je viens de lire (avec un peu de retard) un billet extrêmement intéressant de Philip Lenssen (Google Blogoscoped) qui fait un sondage sur une cinquantaine de blogs de Blogger, et découvre que 60% d'entre eux sont du spam! Je me doutais que la proportion serait élevée, mais à ce point j'en suis estomaqué. Si l'on peut se hasarder à extrapoler, cela veut dire que sur les 32 700 000 pages que Google prétend avoir indexées sur le domaine blogspot.com (Philip dit 7 500 000 mais la requête suivante me donne bien plus), plus de 20 millions seraient du spam.

Google semble avoir pris conscience qu'il se tirait une balle dans le pied avec cette affaire, et apparemment des mesures ont été prises. Fin août, Blogger ajoutait un bouton "Flag" dans la barre de navigation qui apparaît (normalement) en haut de chaque blog, permettant aux internautes de dénoncer un site qui ressemble à du spam.



Ce bouton délatoire me paraît doublement douteux. Tout d'abord, il donne l'opportunité d'attaques coordonnées contre des blogs qui déplairaient à tel ou tel groupe ou communauté... ça fait un peu froid dans le dos [merci à Nathan Weinberg pour le lien]. Mais surtout, ce bouton est totalement inutile, car il est élémentaire d'enlever purement et simplement la barre de navigation de Blogger (comme j'en fais la démonstration sur ce blog!). Parfois, je me demande... Google et Blogger paient des chercheurs et des ingénieurs très cher pour inventer des trucs de ce style. Je n'en finis pas de m'émerveiller.

Mais plus sérieusement, il semble que Blogger (qui doit avoir aussi de bons ingénieurs dans le lot) ait mis en place un système de filtrage anti-splog efficace. Island Dave fait remarquer que lorsqu'on clique sur le bouton "Next Blog" de Blogger, on ne tombe plus sur du spam. C'est d'ailleurs confirmé par Blogger, qui dit avoir injecté de "l'Intelligence Artificielle" dans ses machines... Rien que ça!

En fait d'Intelligence Artificielle, les procédures pour détecter le spam sont assez connues. En voici une par exemple, que j'utilise dans mes cours pour expliquer quelques notions de base sur la distribution des mots dans les textes, la loi de Zipf (sur laquelle je reviendrai certainement un jour ou l'autre), etc...

Prenez un texte, n'importe lequel. Par exemple, le Petit Prince (ne cherchez pas, il n'est pas sur le Web, car il n'est pas libre de droits). Calculez le nombre de mots. Ah oui, il y a le problème de l'ambiguïté du mot mot... La phrase "le Petit Prince dessine le petit mouton" a-t-elle 7 mots ou bien 5? Les deux mon général! Il y a 7 mots séparés par des blancs, mais seulement 5 mots différents. Pour s'y retrouver on parle d'occurrences dans le premier cas, de formes dans le second: 7 occurrences, 5 formes. Les anglophones parlent de tokens et de types, respectivement...

Maintenant qu'on a mis les mots au clair, allons-y. Utilisons, par exemple, mon petit programme Dico (gratuit!). Le Petit Prince contient 15 352 occurrences et seulement 2412 formes. Cela fait un rapport formes/occurrences (F/O) de 0,16 (en anglais on parle de type/token ratio). Prenons maintenant le splog culinaire que j'ai utilisé comme exemple au début de ce billet. Rapport F/O de 0,015 seulement. Dix fois moins! Pourquoi? C'est très simple à comprendre. Le splog en question reprend les mêmes mots en boucle, et a donc une pauvreté de vocabulaire à peu près inconcevable dans un blog normal... C'est un poil plus compliqué, car le rapport F/O a tendance à diminuer avec la taille des textes. Il faut faire quelques correctifs, regarder les choses en deux dimensions, je vous passe les détails.

J'ai regardé sur les 50 adresses de Philip quelle était l'efficacité de cette stratégie, toute banale qu'elle soit. J'ai donc récupéré les 50 pages d'accueil des blogs, converti en texte, découpé en mots, calculé le nombre d'occurrences, de formes et le fameux rapport F/O. Rassurez-vous, j'ai des outils qui font ça tout seuls! Il y avait un blog mal catégorisé par Philip, j'ai corrigé, et je n'ai retenu que les pages qui contenaient au moins 100 mots, c'est à dire la plupart (au-dessous, mon calcul n'a guère de sens!).

Voici le résultat. J'ai mis sur un graphique le nombre d'occurrences et le rapport F/O pour chacune des pages. En bleu les blogs normaux, en rose les splogs.



On voit que tous les blogs "normaux" sont gentiment concentrés dans l'ellipse turquoise. La plupart des splogs sont complètement dans l'espace, avec des valeurs de F/O très faibles. Il n'y a que 7 ou 8 splogs qui sont mal catégorisés et qui se retrouvent dans la zone des blogs normaux. Pas si mal quand même pour une stratégie à la portée d'un étudiant de première année!

Et l'intelligence artificielle dans tout ça? Il est vrai qu'il faut mélanger divers critères, m'enfin, intelligence artificielle, c'est un peu ronflant tout de même. Par exemple, il est judicieux de prendre en compte la distribution des liens sortants. Si la plupart pointent vers le même site, ça sent l'arnaque. Le nombre de liens entrants est un indice aussi: s'il y en a vraiment beaucoup, et venant de sites très diversifiés, il ne s'agit sans doute pas d'un splog. Etc. L'histoire du spam, c'est un peu celle du glaive et du bouclier. Les spammeurs, plutôt partisans du moindre effort, font simple au début, mais les anti-spammeurs mettent vite au point des parades. Les spammeurs doivent alors s'adapter, et ainsi de suite.

Il est très intéressant de regarder les blogs qui ont passé mon test et se retrouvent dans l'ellipse turquoise. Je ne veux pas leur faire de la pub, alors je ne mets pas de liens cliquables:
  • decor-home.blogspot.com
  • meds4u.blogspot.com
  • camouflagec54.blogspot.com
  • bangg0e.blogspot.com
  • digitalaudiocfd.blogspot.com
  • mlb-daily.blogspot.com
  • physicianemploymentpwt.blogspot.com
Ces sites ont pour caractéristique de reprendre des extraits de textes réels, par exemple des nouvelles (et en même temps, leurs liens sortants sont diversifiés). J'ai dû y regarder à plusieurs fois pour savoir si c'était réellement du spam, et je ne suis pas totalement convaincu pour certains. Après tout, il peut y avoir aussi des blogs qui servent à concentrer des nouvelles dans un domaine donné (même à caractère commercial), des petites annonces, des résultats sportifs, etc. La limite entre le nul, l'inutile, le commercial (qui sont cependant légitimes) d'une part, et le splog d'autre part me semble bien difficile à tracer. Finalement, oui, il faut sans doute de l'intelligence pour faire un bon travail dans le domaine et ceux qui risquent de faire les frais sont les blogs marginaux, poétiques, expérimentaux, etc., qui ne satisfont pas aux critères du texte normal. Imaginez le comportement de l'Intelligence Artificielle de Blogger ou Google sur un site de création oulipienne! Mais c'est sans doute le prix à payer pour que le Web ne se transforme pas en immense décharge publique...


Lire la suite


33 Commentaires:

Blogger Mat a écrit...

Article très interessant, comme d'habitude. La loi de Zipf (que je ne connaissais pas) est assez impressionante!

09 septembre, 2005 14:15  
Blogger Marianne a écrit...

Excellent
Je n'avais jamais remarqué cette option ; j'imagine que plein de gens vont s'empresser de retirer la barre avant qu'ils ne rendent cette option impossible :-).
Ce type de spam est-il vraiment illégal ? C'est du spam "passif", après tout s'ils ne vendent rien de douteux, ça doit être difficile de maltraiter ces splogs non ? S'ils "déréférencent" ces blogs, le propriétaire ne pourrait-il pas venir râler en disant qu'il a le droit d'être crétin et de ne pas utiliser beaucoup de mots... ?

Je remarque que vous n'avez pas protégé les commentaires avec l'option des lettres à recopier ; vous avez été épargné par le spam ? Vous en avez de la chance, vous avez un secret ? :-)

PS : vous avez une coquille sur la dernière ligne

09 septembre, 2005 14:51  
Blogger Jean Véronis a écrit...

Marianne> je ne sais pas si c'est illégal (honte à moi, je n'ai pas lu la licence de Blogger, mais j'imagine qu'il doit y avoir dix pages de "fine print")...

Pour les commentaires, pour l'instant je n'ai pas été spammé, donc j'attends de voir. Je déteste ces petits machins où on se tord les yeux pour recopier un mot tout tordu (et ça pose des problèmes d'accessibilité terrible pour les déficients visuels en plus). J'y aurais recours la mort dans l'âme si j'y suis obligé!

Merci pour la coquille, je corrige!

09 septembre, 2005 14:55  
Blogger Loran Bernardi a écrit...

Bonjour

Excellent!

Je partage complètement votre avis sur le bouton "flag",
il nécessite pour être fonctionnel que quelqu'un clique...
Or la plupart des sites de spams, oups les splogs, ne voient jamais passer personne(et c'est heureux si on a quelque chose a vendre et une "marque" a defendre) à l'exception des robots pour qui ils sont concus (cf les differents concours de referencements)...

A mon avis le bouton, est plus la pour des problèmes légaux que pour lutter contre le spam, oups le splog.


Merci en tout cas!
Encore!!

(une question vos cours sont ils en lignes?)

09 septembre, 2005 15:04  
Blogger Jean Véronis a écrit...

Loran> vos cours sont ils en ligne?

une toute petite partie seulement (hélas, mais c'est un gros boulot...):
http://www.up.univ-mrs.fr/veronis/cours

09 septembre, 2005 15:08  
Blogger Marianne a écrit...

Je n'avais pas pensé au problème que ça pose aux déficients visuels :-s. Y a t-il d'autres solutions ? (à part effacer 35 spammentaires à la main tous les matins...)

09 septembre, 2005 15:17  
Blogger Jean Véronis a écrit...

Marianne> Il y a un bon papier du W3C qui liste 7 solutions possibles:

http://www.w3.org/TR/turingtest/

et qui explique aussi que les "captcha" (puisque c'est leur nom) offre une sécurité faible.

Certaines solutions (audio par exemple) me paraissent bien lourdes, et je me demande si la solution n'est pas en amont. Le provider (comme Blogger) est en mesure de reconnaître les spammeurs. Un robot qui inonde des centaines ou des milliers de blogs de commentaires plus ou moins identiques avec des liens (c'est le but) vers une liste de sites particuliers, ça doit laisser une "signature" assez différente des pauv'zumains comme vous et moi! Pourquoi ne le font-ils pas? Mystère. S'ils me prennent comme consultant, je le leur fais en trois jours.

09 septembre, 2005 15:28  
Blogger all a écrit...

peut-être que parlant d'IA, Google évoque les filtres "intelligents" bayésiens/markoviens dont l'efficacité est prouvée pour le filtrage du spam par les emails.
Ces filtres utilisent la logique de bayes et fonctionnent par aprentissage, et sont difficiles à leurrer

09 septembre, 2005 16:57  
Blogger Jean Véronis a écrit...

all> oui, c'est très probablement ce qu'ils font (ou des arbres de décision). Mais IA ça fait quand même plus classe!

09 septembre, 2005 17:00  
Anonymous Souplounite a écrit...

Véronis : " Pourquoi ne le font-ils pas? Mystère. S'ils me prennent comme consultant, je le leur fais en trois jours."

Peut-être que ça leur rapporte quelque chose ?

Juste un petit lien pour y réfléchir.

09 septembre, 2005 20:21  
Anonymous Anonyme a écrit...

Bonjour et merci pour ces articles en général. Quoique les sciences du langages m'intéressent, je reste un néophyte et j'apprécie énormément la clarté dont vous faites preuve.

Il me vient une question. L'outil que vous décrivez pour mesurer le rapport formes/occurences semble certes efficace, mais ne devient-il pas inopérant quand il analyse le blog d'une personne lambda, si l'on accorde crédit à la légende comme quoi un français moyen utilise à peu près 300 mots de vocabulaire ? Ou du moins, la valeur de son analyse doit s'en trouver dépréciée, non ? Surtout que, quantitativement, le nombre de blogs d'adolescents peu sûrs de leur orthographe dépasse largement celui de personnes faisant attention à ce genre de petits détails (voir skyblogs.com...).

Y a-t-il une solution, dans ce cas-là ? Ou bien ai-je tort et cet outil reste-t-il efficace malgré tout ?

Merci d'avance.
Luc D.
theorus.fumisis@free.fr

10 septembre, 2005 16:08  
Blogger Lesley a écrit...

Lasse d'appuyer des dizaines de fois sur "delete comment", j 'ai été obligée d'introduire les captacha sur mon blog. Je m'étonne que vous ne soyez pas victime, vous aussi de ces spomments :-)). Je me demande, donc, si les robots qui déposent ces commentaires abusives dans ma boite n'utiliseraient pas le bouton "next blog", bouton que vous avez justement éliminé avec la barre de navigation.

11 septembre, 2005 10:20  
Blogger Serge Bibauw a écrit...

Luc D.> Une chose est sûre : n'importe qui, le plus moyen soit-il, utilise beaucoup, vraiment beaucoup plus que 300 mots de vocabulaire. Certes, personne n'utilise les 60 000 mots que contient un Petit Robert, mais 300 mots, ça doit à peine couvrir la description des objets utilisés au quotidien dans une maison. Peut-être (mais j'ai encore quelques doutes) un locuteur "moyen" n'utilise-t-il en temps normal pas plus de 300 verbes, mais c'est bien différent.

Par rapport à l'analyse du rapport occurrences/formes, je doute que qui que ce soit, même s'il ne croit pas avoir un vocabulaire très riche, puisse atteindre le niveau de redondance d'un splog. N'oubliez pas que par "formes", on n'entend pas seulement des "racines" (lemmes) différentes, mais aussi des formes fléchies différentes. Ainsi, "être", "suis", "est", "êtes", etc. n'ont beau occuper qu'une entrée de dictionnaire, ils constituent pour un analyseur automatique des formes différentes. Or, en dehors des articles, prépositions et autres mots grammaticaux invariables, il est très rare d'utiliser à de nombreuses reprises la même forme dans un texte.

Quant aux jeunes, ne vous en faites pas, leur vocabulaire n'est peut-être pas celui qui est requis pour être considéré comme "cultivé", mais il n'est pas pour autant pauvre. Ce sont sûrement les premiers créateurs de mots. Sans compter qu'ayant une conception peut-être moins stricte de l'orthographe, ils n'hésitent pas à faire varier les formes d'un même mot.

12 septembre, 2005 04:24  
Anonymous Pilou a écrit...

Dans une recherche, il y a toujours 2 moteurs : un logiciel et ... MOI. Forcément, l'un des deux est plus stupide que l'autre. Le splog et le spam seront mal éliminés par quelque logiciel que ce soit. Donc c'est à moi de le rendre inopérant. Et à partir de là, qu'importe sa part sur le web.
Soit à chercher des informations touristiques sur Aix-en-Provence ; aix+provence suffit pour ramener les sites de la ville et de l'office de tourisme. Le reste, énorme, est quasi inexploitable, bourré, entre autre, d'agences immobilières. Mais des 2 sites utiles on peut tirer une requète qu'aucun spam ne pourra forcer : espéluque+albertas+rotonde (pour ceux qui n'ont pas eu le plaisir de visiter Aix, ce sont 3 fontaines, parmi bien d'autres, qui font sa beauté et sa gloire).
Il ne reste que 21 sites pour Google et 10 pour Yahoo ; quasi sans parasites. Et seules des requètes pointues peuvent ramener des sites au PageRank infime, souvent des pages perso autrement plus interéssantes que les institutionelles.

Quant à l'utilisation de la loi de Zipf, elle implique une hypothése non négligeable : Que la page soit du texte. J'y vois un parti-pris du professeur de langage ;-) Que peut-elle donner sur les pages du domaine insee.fr ?

12 septembre, 2005 15:24  
Anonymous Aurélie N. a écrit...

Le Petit Prince n'est plus disponible en texte intégral sur Internet!! Je constate avec tristesse que vous avez raison -Le lien vers le beau site illustré présentant ce chef-d'oeuvre est maintenant brisé, et je vais devoir le retirer de ma page d'accueil...

Pilou> 1/A priori les pages du site insee.fr semblent aussi contenir du texte - je ne comprends pas votre objection.
2/Pour ce qui est de la recherche d'information, vous évitez le spam en effectuant une restriction efficace de votre requête - c'est à ma connaissance une piste de recherche actuelle en RI. Elle consiste à effectuer automatiquement ce que vous illustrez dans votre exemple, en utilisant par exemple une matrice de co-occurrence calculée sur les termes d'un corpus de référence. Ainsi, si "espéluque" et "albertas" sont des co-ocurrents très fréquents de "aix" et "provence" le système peut proposer de les utiliser pour limiter les réponses, et éliminer les documents potentiellement non pertinents.

12 septembre, 2005 16:54  
Blogger Jean Véronis a écrit...

Aurélie> Le Petit Prince n'est plus disponible en texte intégral sur Internet!! Eh non! Il n'est pas encore tombé dans le domaine public. c'est une source de généreux revenus. Il me semble avoir lu quelque part que c'est l'ouvrage français le plus lu dans le monde... Et il y a aussi un généreux business de produit dérivés, du porte-clé à la tasse à café. Le Petit Prince et Saint-Ex doivent se retourner dans leur tombe...

Pilou>Je ne comprends pas bien moi non plus. Le spam est bien du texte, et nous parlons de sites qui contiennent du texte. Les moteurs n'indexent pas autre chose (même quand ils indexent les images, ils le font sur la base du texte associé!). Il n'y pas beaucoup de sites qui ne contiennent pas de texte, d'ailleurs, et ça n'est certainement pas le cas du site Insee, qui en en truffé.

12 septembre, 2005 17:22  
Anonymous Orlando a écrit...

Pilou> Je ne comprends guère non plus. Quant aux noms des trois fontaines, franchement... Si je les connais déjà, je n'ai sans doute que peu d'utilité pour le site de l'office du tourisme d'Aix, non?

Jean> "S'ils me prennent comme consultant, je le leur fais en trois jours"? Mais, n'écrivez jamais des choses pareilles, malheureux! Les gens vont finir par se rendre compte que les consultants gonflent leurs honoraires! Une meilleure version serait "en trente jours". Après, on né-go-cie :-)

12 septembre, 2005 17:29  
Anonymous Hatem a écrit...

J'ai pas remarque qu'il y'a une version francaise de l'article.

J'ai trouver l'approche vraiment interessante de detecter les splogs, mais vs pouvez remarquer que dans le graph les splogs sont quelque part concentre avec les blog normaux.

Quel algorythme va faire la difference ? J'ai deja essaye plusieurs approche pour faire la detection et j'ai lance Antisplog.net avec une version beta de l'algorythme que j'ai realise pour detecter les splogs.

Je serai ravi d'avoir votre avis dessus.

14 septembre, 2005 23:00  
Blogger Jean Véronis a écrit...

Hatem> Cette petite étude n'est qu'un petit tutoriel sur le rapport occurrences/formes. Dans un vrai système, il faudrait bien sûr, comme je le dis dans le billet, combiner de multiples sources d'information (par exemple avec une stratégie bayésienne).

Sur Antisplog.net, voyez mon billet d'aujourd'hui [fr] [en]

Bonne chance!

15 septembre, 2005 10:11  
Anonymous spiritoo a écrit...

La solution à ce problème du spam et splog est pourtant simple: il faut laisser plus de controle sur les résultats de recherche à l'utilisateur.

En effet, le problème des algorithmes automatiques de suppression de "splogs" et autres sites pourris, est que si on est trop "sévère" avec la détection de spam, des sites qui n'en sont pas risque de passer à l'as. Il faudrait donc que chaque moteur calcule plusieurs "notes" pour chaque site, sous forme de probabilité, par exemple:
blog: 95%
spam: 25%
Site institutionnel: 40%
contenu updaté régulièrement: 5%
popularité (liens entrant): 35%
qualité (selon liens sortants et divers critères): xx %

L'utilisateur lambda gardera les paramaètres par défaut. L'avancé pourra choisir par exemple de filtrer les blogs et les sites personnels, et de garder les sites ayant "moins de 40% de chances d'etre du spam".
Une IA ne peut pas tout faire, et il est de conception totalitaire de vouloir penser à la palce des gens. Il faut leur fournir les bons "indices" tout simplement sous forme de notes...

28 septembre, 2005 12:45  
Anonymous PierreS a écrit...

Jean, avez-vous testé sur un skyblog ?

Ce serait intéressant de faire un systeme de ranking des blogs par "qualité du langage employé"

:)

29 septembre, 2005 15:10  
Anonymous Anonyme a écrit...

Les stats simples comme la loi de Zipf risquent d'échouer si les spammeurs essaient de fabriquer des textes qui ont l'air authentiques (un moyen consiste à insérer dans sa page des extraits de textes libres comme ceux de Wikipedia):

http://seoblackhat.com/2005/09/14/avoid-common-splogging-mistakes

-- apokrif1@yahoo.com

05 octobre, 2005 16:08  
Anonymous Anonyme a écrit...

"popularité (liens entrant): 35%"

http://en.wikipedia.org/wiki/Link_farm

"qualité (selon liens sortants et divers critères): xx %"

Les spammeurs ne se gênent pas pour mettre des liens vers des sites de qualité vers. Tiens, ça serait une idée: si une page contient trop de liens vers des sites de qualité, c'est trop beau pour être vrai, donc c'est du spam :-)

"L'avancé pourra choisir par exemple de filtrer les blogs et les sites personnels"

Le seul paramétrage que je connaisse qui ressemble vaguement à cette proposition, c'est celui de http://mindset.research.yahoo.com/ (on peut ajouter le réglage à trois valeurs: filtrer sévèrement/filtrer un peu/ne pas filtrer pour les sites « adultes », que proposent divers moteurs). Je pense que si on autorisait un réglage fin pour le spam, cela aiderait les spammeurs, qui pourraient exactement savoir quels sont les points forts et les points faibles de leurs pages, et donc modifier partiellement ces pages, puis regarder leurs nouveau classement et recommencer.

-- apokrif1@yahoo.com

05 octobre, 2005 16:17  
Anonymous Anonyme a écrit...

Bonjour,
excellente note que découvre avec retard, j'ai une question peut-être un peu bête, mais je la pose quand même :

Voila, puisqu'on a pu faire des lois assez claires et fiables pour distinguer vraies textes écrits par l'homme et textes composés par un logiciel pour le spam-splog, pourquoi ceux qui sont derrière ce spam-splog ne servent-ils pas de ces mêmes lois pour composer des textes qui auraient pu être écrits par de vrais humains ?

François

20 octobre, 2005 21:58  
Blogger Jean Véronis a écrit...

François> Et si! C'est exactement ça qui est en train de se passer. D'où la difficulté de la chose...

J'en parle un peu plus

20 octobre, 2005 22:05  
Anonymous Anonyme a écrit...

Bonjour,
une question un peu bête sur l'exemple du petit prince :
"La phrase "le Petit Prince dessine le petit mouton" a-t-elle 7 mots ou bien 5? Les deux mon général! ".

Je peux y voir 7 mots (chaque unitées séparées par des espaces). Egalement 3 (plus vraiment des mots): par groupe fonctionnel : "le petit Prince" "dessine" "le petit mouton".

Je seche un peu quand à (pas bertrand !) en voir 5.

merci pour votre réponse

Merci pour vos notes et votre vigilance !

08 novembre, 2005 13:30  
Blogger Jean Véronis a écrit...

Anonymous> 5 mots différents :

1. le (deux fois)
2. petit (deux fois)
3. prince
4. dessine
5. mouton

08 novembre, 2005 13:46  
Anonymous Anonyme a écrit...

Voila, puisqu'on a pu faire des lois assez claires et fiables pour distinguer vraies textes écrits par l'homme et textes composés par un logiciel pour le spam-splog, pourquoi ceux qui sont derrière ce spam-splog ne servent-ils pas de ces mêmes lois pour composer des textes qui auraient pu être écrits par de vrais humains ?
Pour connaitre assez bien ce milieu, je dirais que..
c'est exactement ce qu'ils font..

18 novembre, 2005 14:41  
Anonymous Tatillon a écrit...

1. le (deux fois)
2. petit (deux fois)
3. prince
4. dessine
5. mouton

et le "un" y compte pas lui. L'est puni ?

Je vois que j'ai encore grandement apporté au débat moi
Je sors...

13 mai, 2006 15:48  
Blogger Jean Véronis a écrit...

Tatillon> Quel "un" ? (Ma phrase était ""le Petit Prince dessine le petit mouton".)

14 mai, 2006 08:48  
Blogger anne a écrit...

Certes, en se mêlant des affaires d'autrui par là j'ai trouvé quelques utilités assez effrontées pour surveiller le positionnement de la compétence et pour voir s'ils(si elles) ont des blocs(trucages), etc.. Si vous avez une curiosité je vous conseille qu'il eheis un coup d'oeil. Ils(elles) sont apparemment gratuits: http://www.lineared.com/es/recuperar/fr-datos-posiciones-google-msn-yahoo.htm

23 juillet, 2007 22:09  
Anonymous Anonyme a écrit...

À propos du Petit Prince, on peut lire un récit au livre (en espagnol) Este Sol de la Infancia (écrit par Saiz de Marco). Son titre est «Ce n´est pas un mot ».

CE N´ EST PAS UN MOT

Ce matin j´ai rentré au temps, cours de franÇais, treize ans, quand Marie dit « Nous allons lire Le Petit Prince ». C´est un livre étrange, avec d´ émotions connues qu´ on ne peut pas exprimer. Chaque jour deux pages, mais maintenant c´ est impossible de s´ arrêter. J´ai besoin de le lire entier, donc je cherche au dictionnaire les mots que j´ ignore. Cependant « baobab » n´apparait pas. Je demande à Marie et elle me dit « ce n´est pas un mot franÇais, c´ est un arbre africain ».

C´ est à cause des baobabs que le Petit Prince est venu à la Terre. Il avait besoin d´ un agneau qui mangeait les burgeons de baobabs, avant qu´ ils grandissaient et faisaient éclater son petit astre.

Ce matin nous avons fait l´ essai. Ces mignons s´ alertent entre eux quand ils voient un prédateur. Si celui qui attaque est un aigle, ils font un son pour que leurs compagnons se cachent aux arbustes ; si celui qui vient est un félin, ils font un son different por leur dire qu´ ils doivent grimper à un arbre. Quelques zoologistes appelons « proto-mots » à ces sons. Et ce matin, quand le mignon était près de notre poste d´ observation, je l´ ai écouté. Quand il a vu qu´ une lionne s´ approchait, il a ouvert ses lèvres et a dit clairement « baobab ».

21 août, 2007 03:54  
Anonymous Ya-graphic a écrit...

Je me demande qui a utilisé pour la première fois ce néologisme. J'ai regardé dans Wikipédia, mais je propose une touta autre définition (au conditionnel concernant la date de création du terme "splog"). http://www.ya-graphic.com/2010/10/definition-splog-lexique-seo/

C'est encore aujourd'hui une technique de spam très utilisée.

19 octobre, 2010 13:30  

Enregistrer un commentaire

mardi, septembre 06, 2005

Lexique: Magopinaciophilie

Libé consacre aujourd'hui quasiment une pleine page à la magopinaciophilie. Je présume que la plupart d'entre vous n'ont jamais entendu ce mot! Je n'en trouve que 32 occurrences sur Yahoo (pages francophones) et 5 pour magopinaciophile.



Comme le dit Libé, le mot Magopinaciophile est formé du grec «magos» (mage) et «pinakion» (tablette sur laquelle on écrit). Il désigne un nouveau genre de collection qui semble faire fureur, celui des publicités de marabouts, qu'on nous a tous refilées à un moment ou à un autre, mais qu'on a aussitôt jetées dans la première poubelle. A conserver précieusement désormais, les plus rares risquent de valoir bientôt une fortune:



Libé cite des sites de collectionneurs (comme les liens de l'article ne sont pas cliquables, je me permets de les recopier ci-dessous):
J'aime bien la création graphique du dernier:



Et voici un autre lien, trouvé sur Yahoo:
Mais surtout, Libé mentionne abondamment le site Marabouts de Papier, créé par Denis Rionnet, alias Grand Professeur Mégabambou, dont j'avais parlé début mars et avec lequel je me suis créé ma carte de visite. Absolument tordant! C'est ce site, apparemment qui a lancé le mot magopinaciophilie (voir discussion savante sur son étymologie). A l'époque j'avais loupé ce mot (ou peut-être n'était-il pas encore mentionné sur le site?).

En tous cas, je suis toujours béat d'admiration devant l'outil qui permet de marabouter un site! Du grand art.

Et les collectionneurs de bouts de ficelle, comment va-t-on les appeler?

10 Commentaires:

Blogger Caroline Leboucq a écrit...

Je vous conseille ce blog http://hrundi.blog.lemonde.fr/ d'abord parce qu'il est très drôle et je vous invite à cliquer dans la colonne de droite sur "à propos de l'auteur" oùsa bio est sous forme de publicité de marabout.

07 septembre, 2005 07:55  
Anonymous fuligineuse a écrit...

Eh bien voilà que j'étais magopinaciophile sans le savoir... je les conserve depuis des années, j'en ai des centaines.

07 septembre, 2005 09:15  
Anonymous Almaïde a écrit...

Le fer à cheval ne porte-t-il pas lui aussi bonheur ? C'est une solution de bout de ficelle, mais...

07 septembre, 2005 11:19  
Anonymous orlando a écrit...

Rien d'original certes, mais j'ai marabouté Technologies... ma seule erreur fut de le faire au bureau ! Mes collègues avaient des questions - il n'ont plus que des certitudes...

07 septembre, 2005 13:43  
Anonymous Inspecteur Clay a écrit...

fuligineuse :
Puvez-vous me contacter ? Je suis en train de préparer un blog entièrement dédié à la magopinaciophilie.

Vos flyers voire votre aide sont bienvenus.

inspecteur.clay [at] g m a i l .com

08 septembre, 2005 15:08  
Blogger Jean Taillère-Marchand a écrit...

Je suis désolé de vous signaler que vous faites un très mauvais marabout... Le numéro du grand professeur Aixtal est en 0800, c'est à dire qu'il est gratuit! C'est la première règle du marabout... Prendre des sous dès le départ!

09 septembre, 2005 21:49  
Blogger Jean Véronis a écrit...

En fait, je suis tellement fort que j'ai marabouté le téléphone, et ça débite quand même quand vous appelez ce numéro. Les nombres symboliques 999 et 666 annulent le 0800 ;-)

09 septembre, 2005 22:33  
Anonymous Alarc'h a écrit...

Et moi de même, comme fuligineuse, je suis un monsieur Jourdain de la magopinaciophilie ! J'ai commencé ça à la fin des années 70 quand j'étais encore en fac.

Finalement je ne prend jamais assez au sérieux mes bétises. Ça doit être la différence entre ceux qui réussissent et les autres... :-) penser à faire feu de tout bois.

12 septembre, 2005 07:03  
Anonymous pacman a écrit...

Même en Belgique, les marabouts sont poursuivis (au propre comme au figuré) et leurs annonces et flyers sont collectionnés.
Pour preuve, le blog que j'ai ouvert à ce sujet :
www.marabout.over-blog.com

En espérant avoir votre visite et vos commentaires

A bientôt

16 novembre, 2005 19:19  
Anonymous Modibou a écrit...

Bonjour,
voilà depuis quelques temps mon papa est magopinaciophile et approche près des 500 flyers différents. Il habite Bruxelles et à force, il aimerait être en contact avec d'autre magopinaciophile et si possible d'autre pays, pour éventuellement faire des échanges. Mais ce n'est pas facile de s'y retrouver sur le net.
Pourriez-vous m'aider dans ma recherche? Je voudrais tellement lui faire plaisir ;o)
Merci d'avance et bonne chasse à tout le monde

23 mars, 2011 10:14  

Enregistrer un commentaire