Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

vendredi, septembre 23, 2005

Google: Pages à gogo



Quelle n'a pas été ma surprise en constatant que Google indexe désormais 584 000 pages sur mon site professionnel ! Je sais que j'écris beaucoup (certains disent trop), mais tout de même, plusieurs centaines de milliers de pages en quelques jours, c'est au-dessus de mes forces...



En examinant la situation de plus près, je me suis aperçu que l'augmentation soudaine et massive provient de mon concordancier sur la Constitution Européenne (et la Constitution Française). Les vieux (si, déjà, à l'échelle du temps de la blogosphère!) lecteurs de ce blog se souviennent sans doute que j'avais réalisé au mois d'avril un petit programme qui permettait de naviguer dans le fameux projet de Traité Constitutionnel -- nos chères institutions n'ayant pas eu l'idée de nous fournir autre chose qu'un indigeste pavé de 480 pages au format pdf...


Chercher dans la Constitution Française Européenne



Fr : A B C D E F G H I J K L M N O P Q R S T U V W X Y Z - Mots fréquents
Eu : A B C D E F G H I J K L M N O P Q R S T U V W X Y Z - Mots fréquents

Technologies du langage - Aide

On peut faire une recherche en tapant un mot dans le champ du formulaire, mais on peut aussi, en cliquant sur les lettres A, B ... Z voir la liste des mots qui apparaissent dans le TCE et dans la Constitution Française.



Il suffit alors de cliquer sur un mot, banque, par exemple, pour voir tous les passages qui contiennent ce mot... En cliquant sur un des passages, on fait apparaître la page correspondante du TCE (par exemple, l'article III-159).

Toutes ces pages sont purement virtuelles, et générées par un programme au fur et à mesure des requêtes. Eh bien, figurez-vous que Google a suivi tous les liens très consciencieusement, et les a toutes indexées. Ça fait du volume! Des centaines de milliers de pages virtuelles contenant des fragments divers et variés du TCE et de la Constitution Française. Yahoo! est beaucoup plus conservateur que son confrère, et il ne suit pas les liens. Résultat, seulement 21 900 pages de mon site y sont indexées, ce qui semble à peu près correspondre à tout mon foutoir HTML accumulé depuis plus d'une dizaine d'années...

Je n'ai aucun moyen de connaître l'impact global de ce nouveau mode d'indexation googlesque, mais il est probable que ce genre de gag ne se produit pas que chez moi. L'ouverture massive des vannes vers les pages dynamiques expliquerait-elle en partie l'énorme saut de l'index Google début septembre, multipliant sa taille pratiquement par trois -- sans rien dire sur sa page d'accueil (voir ici)? On voit par exemple (grâce à Trendmapper) le bond fait par la requête "véronis" (Google est en jaune) -- on pourra constater sur Trendmapper que la même chose se produit sur la quasi totalité des requêtes :



Évidemment, la qualité n'est peut-être pas au rendez-vous, car en indexant massivement et de façon aveugle les pages générées par programme, Google aggrave très certainement le "bruit" que contient son index (spam, listes de mots, etc.), et qui semblait déjà supérieur à celui de son concurrent au mois d'août avant ce saut quantique (voir ici). Les ingénieurs de Google sont suffisamment intelligents pour avoir réalisé ça, et je ne peux donc pas m'empêcher de penser que l'ouverture soudaine des vannes en direction des pages dynamiques correspond à un mouvement de panique dans la guerre (absurde) des tailles d'index, juste après que Yahoo a annoncé que son index atteignait 19,2 milliards de pages. Je guettais une annonce-choc de la part de Google, réponse du berger à la bergère, mais toujours rien -- la page d'accueil est toujours bloquée à 8 milliards. Comprenne qui pourra.

En tous cas, tout cela mérite réflexion. Les pages générées dynamiquement sont de plus en plus nombreuses sur le web: de plus en plus de sites sont gérés à travers des CMS (content management systems), tels que SPIP, qui génèrent les pages à la volée. L'un des plus connus est Wikipedia, mais la tendance est générale. Comment faire pour suivre les bons liens dynamiques et pas les mauvais, et en particulier le spam? Je n'avais aucune intention nuisible avec mon concordancier, mais si j'étais un référenceur peu scrupuleux, je pourrais tout aussi bien construire ce qu'on appelle un spider trap, piège à araignées, qui génère du texte aléatoire à la volée juste pour tromper les robots d'indexation. Il en existe déjà des quantités (excusez-moi de ne pas leur faire de pub en mettant des liens).

Bien sûr, des techniques statistiques permettent de filtrer les cas les plus grossiers, comme je le disais à propos des splogs. Mais je concluais ce billet en mentionnant qu'il serait de plus en plus difficile de distinguer le spam des textes légitimes, car les spammeurs se documentent et évitent désormais les erreurs statistiques les plus flagrantes. D'une certaine manière, j'ai, sans le vouloir, construit le piège à araignée parfait: qui pourrait dire que des extraits du TCE et de la Constitution française ne respectent pas les critères statistiques des "bons" textes (encore que...)? Il me suffirait d'ajouter des liens vers un site commercial, et même simplement vivre du revenu des annonces Google que je mettrais sur mes pages virtuelles. D'autres y ont pensé, et la lutte contre le web spam va devenir à mon avis l'un des enjeux majeurs des prochaines années. Si les moteurs ne se dotent pas des outils adéquats, le spam est de nature à tuer le web tel que nous le connaissons, comme il a failli tuer le mail.


Post-scriptum


Voir le billet d'Olivier Andrieu sur le Blog d'Abondance:

Libellés :


15 Commentaires:

Anonymous Anonyme a écrit...

C'est une technique couramment utilisée pour le référencement des annuaires, qui mettent en pied de page des mots-clés (rémunerateurs bien surs) liés à la page de résultats d'une recherche dans l'annuaire sur le mot-clé correspondant.

Par exemple je pourrais très bien ajouter en bas de mon annuaire un lien "université" menant vers : http://s.billard.free.fr/annuaire-nord/search.php?q=universit%E9

Une astuce encore plus perverse consiste à générer ces liens automatiquement au gré des requêtes des utilisateurs. Chaque recherche crée donc virtuellement une page indexable ;)

23 septembre, 2005 12:01  
Anonymous Anonyme a écrit...

Il trouve beaucoup moins par une autre methode

23 septembre, 2005 12:56  
Blogger Jean Véronis a écrit...

Arno> Oui, c'est parce que votre requête

site:www.up.univ-mrs.fr/veronis/

ne concerne que mes pages statiques, alors que les pages dynamiques sont sur

site:www.up.univ-mrs.fr/cgi-veronis/

23 septembre, 2005 13:04  
Anonymous Anonyme a écrit...

Je me suis posé la même question ce matin en voyant que le nombre de pages citant le titre de mon tout petit blogue était passé dans la nuit de 941 à plus de 9 900. Un bond de 1 000 %, cela semble du jamais vu. Et puis je me suis rappelé que certains internautes consultent mes pages avec Anonymoused, que j'ai procédé à un maraboutage de mon blogue par le site que vous avez signalé, qu'il y a des citations du titre dans des archives dynamiques de groupes de discussions. Mais enfin, cela n'est pas toute l'augmentation !

23 septembre, 2005 16:24  
Anonymous Anonyme a écrit...

Google indexe tout, mais est-ce qu'il positionne tout ?

A voir...

23 septembre, 2005 20:04  
Blogger J2J2 a écrit...

JV> "Toutes ces pages sont purement virtuelles"
Elles sont virtuelles car générées dynamiquement, mais elles n'en sont pas moins informationnelles et porteuses de sens. Il n'est donc pas si incroyable que cela qu'un moteur de recherche les indexe. Non?

JV> "mais il est probable que ce genre de gag ne se produit pas que chez moi"
Je ne trouve donc pas que l'indexation de ces pages soit un gag. En revanche, il est vrai que Google a prit un gros risque en ayant modifié son filtre d'URLs à crawler. Il s'expose ainsi très fortement au spam!

JV> "L'un des plus connus est Wikipedia, mais la tendance est générale. Comment faire pour suivre les bons liens dynamiques et pas les mauvais, et en particulier le spam?"
D'un point de vue protocolaire (HTTP), il n'y a aucun moyen de savoir si une page est générée ou non. Les spiders ne peuvent donc faire aucune distinction: le seul moyen est de filtrer sur certains patterns d'URLs: Par exemple, les URLs contenant des paramètres seront exclus. Ce sont les étapes suivantes (parsing, indexation, ...) qui doivent tenter d'identifier le spam et d'éviter son indexation.

JV> "lutte contre le web spam va devenir à mon avis l'un des enjeux majeurs des prochaines années"
Bon! C'est décidé, j'arrête Nutch et je me lance dans l'anti web spam!
;-)

24 septembre, 2005 21:49  
Anonymous Anonyme a écrit...

Bonjour, je signalais juste une toute petite faute d'orthographe, en général je laisse passer, tout le monde fait des fautes de saisie au clavier... «Mais c'est peut-être le seul blog dont l'auteur n'aimerait pas laisser passer une faute», me suis-je dit...
Donc au cas où, c'était dans :
«Yahoo! est beaucoup plus concervateur que son confrère»
Salutations :)

25 septembre, 2005 01:00  
Blogger Jean Véronis a écrit...

Jérôme> Merci pour toutes ces remarques (on aura l'occasion de discuter bientôt de vive voix!).

Effectivement, ce n'est pas tellement incongru que Google indexe ces milliers de fragments de constitution. Tout le problème est qu'en ouvrant ainsi largement les vannes, ils ouvrent grand la porte au spam le plus débridé, alors qu'à ma connaissance ils n'ont pas les moyens de le filtrer très efficacement. A mon avis le spammeur de base va vite comprendre qu'il peut désormais avoir des centaines de milliers de pages indexées, et ça risque de faire croître le niveau de bruit de façon considérable. A suivre...

25 septembre, 2005 08:32  
Blogger Jean Véronis a écrit...

Sabin> Hélas, je suis comme tout le monde... Quel que soit le soin qu'on apporte à la chose, quand on écrit beaucoup, les doigts dérapent, les yeux s'embrument, le cerveau se ramollit. Et donc, j'aime bien quand les lecteurs me signalent les coquilles et autres bourdes. Merci, je corrige!

25 septembre, 2005 08:36  
Blogger Jean Véronis a écrit...

Je réécris ici le commentaire de d.durand ( 23 septembre, 2005 16:37) dont une ligne trop longue posait un problème d'affichage de la page sous IE:
------

d.durand a dit...

Google a déjà généré des problèmes du même type encore plus graves en Mai 2005 en "tentant de suivre tous les liens de manière trop volontariste": avec son Google Web Accelerator, il a détruit des Intranets entiers dans les quelques heures d'existence officielle de ce GWA...

Le site US 37Signals donne a un long inventaire (192 inputs) sur le sujet: voir
http://37signals.com/svn/archives2/
google_web_accelerator_hey_not_so_fast_an_alert_for_web_app_designers.php

25 septembre, 2005 09:05  
Blogger J2J2 a écrit...

Google Blog Search Searchable !!!
Plutôt marrant, Google indexe le résultat des recherches de blogsearch.google.com.
Google, ou le moteur qui indexait les résultats de ses propres recherches...
Mais bon, le problème est maintenant corrigé, il ne reste plus qu'à nettoyer l'index.

29 septembre, 2005 11:54  
Anonymous Anonyme a écrit...

Dans le même esprit, Fabien Mathieu a fait une page web assez amusante.

tout le web

30 septembre, 2005 09:46  
Anonymous Anonyme a écrit...

Juste un point de grammaire:

"après que" est suivi de l'indicatif!

cf "juste après que Yahoo ait annoncé..."

28 décembre, 2005 13:00  
Blogger Jean Véronis a écrit...

Allez, je corrige pour vous faire plaisir, mais je n'aime pas cette tournure qui me semble être une exception antinaturelle: avant_que + subjonctif mais après_que + indicatif...

Grévisse (et d'autres) signalent que l'indicatif est en perdition. D'ailleurs, Google confirme:

"apres qu'il a" : 51400
"apres qu'il ait" : 58500

28 décembre, 2005 13:10  
Blogger Unknown a écrit...

Google a indexé les pages mais est-ce que le nombre de visiteur a fait un bond ?  Ne risque-tu pas, au contraire, d'être pénalisé par une augmentation anormale de page sur ton site ??

06 avril, 2007 11:02  

Enregistrer un commentaire