Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

jeudi, mars 31, 2005

Référencement: Articles pas gratuits dans Google

La requête langage dans Google arrive souvent sur mon site. Il faut dire que "Technologies du langage" est désormais dans le premier écran de résultats. Il n'y a pas si longtemps il était à la 15è place (voir ici), ce qui, sur près de 5 milliards de pages n'était pas si mal. Maintenant il est à la dixième, ce qui change tout, car on sait que l'internaute moyen ne clique pas souvent pour aller voir la deuxième page de résultats... Au passage, notons qu'il n'y a plus que 3 330 000 résultats ; j'ai fait remarquer ce dégraissage récent des comptes chez Google (ici et ici). Comme c'est sur l'adresse IP 216.239.59.104, qui appartient au groupe de serveurs qui semblent être dans leur configuration finale (voir ici), c'est sans doute le nouveau résultat que va désormais afficher Google.

Ce matin j'ai vu arriver la requête le langage (sans guillemets, c'est important). Curieusement, "Technologies du langage" remonte à la quatrième place, ce qui est vraiment mieux, puisqu'on sait que l'internaute moyen (toujours lui !) clique de préférence sur les premiers résultats. C'est bizzare, car Google nous dit expressement : "le" étant un mot très courant, il a été ignoré lors de cette recherche.

 requête=

C'est d'ailleurs confirmé dans la documentation de Google. Donc, ce n'est pas vrai. Google prend bien en compte les articles et autres mots de l'antidictionnaire (ou stoplist, pour parler franglais) dans le classement des résultats.

Encore plus étrange, si l'on utilise le signe plus (+le langage) pour forcer l'inclusion de le dans la requête, comme le suggère la documentation de Google, on obtient un résultat tout autre ! "Technologies du langage" n'est plus qu'à la 34è position... c'est-à-dire perdu pour l'internaute moyen. Cette requête est d'ailleurs (et c'est normal) différente de la requête "le langage" (avec les guillemets), qui place ce blog 43ème (snif).

Bref, comprenne qui pourra. Une fois de plus, Google ne fait pas ce qu'il dit, et, pire, ne dit pas ce qu'il fait. Je plains les référenceurs, qui ont décidément un bien dur métier (je l'avais déjà remarqué ici ou ).

3 Commentaires:

Anonymous Olivier Duffez a écrit...

Je vais me risquer à une explication...

Quand tu cherches "+le langage" (sans les guillemets), Google est censé chercher les documents qui contiennent les mots "le" et "langage". En ajoutant le + devant "le", tu obliges Google à ne pas ignorer l'article "le", comme il dit le faire quand tu cherches seulement "le langage" (sans les guillemets).

Par contre quand tu cherches "le langage" (sans les guillemets), Google n'ignore pas tout à fait le mot "le" comme il le dit. Je pense qu'il cherche les documents contenant un mot à gauche du mot "langage". C'est subtil... et avec un autre exemple c'est peut-être plus clair. Si tu cherches "technologies du langage" (sans les guillemets), Google dit qu'il ignore le mot "du". Mais en fait les pages qui contiennent une expression de trois mots commençant par "technologies" et finissant par "langage" seront avantagées.

En tout cas je suis d'accord avec toi, une fois de plus Google ne fait pas ce qu'il dit et ne dit pas ce qu'il fait...

31 mars, 2005 11:35  
Blogger Jean Véronis a écrit...

Pas sûr que ton hypothèse soit tout à fait la bonne, car on devrait obtenir la même chose, à ce moment-là, avec le langage (sans guillemets) et "* langage" (avec guillemets), du moins sur les DC où le "*" marche encore... Il n'y aurait pas de raison particulière non plus pour que langage le donne la même chose que le langage (toujours sans guillemets). Or, ça semble être le cas !

Bref, un mystère de plus, mais le problème est bien qu'on ne sait pas exactement ce qui se passe et que ça ne correspond pas à la doc. Si ça fait cogiter les experts, ça doit être la purée de pois totale pour l' "internaute moyen" ! Google (et les autres) seraient gagnants à mon avis à avoir plus de lisibilité et plus de transparence, mais ça ne semble pas être la direction qu'ils ont choisie.

31 mars, 2005 17:41  
Anonymous JM Salaun a écrit...

Bonjour,

Je comprends facilement les raisons commerciales de la tendance au secret de Google (vis-à-vis des concurrents, des acheteurs, des usagers). Il s'agit clairement là d'entraves à la concurrence qui s'expliquent facilement, même si on ne les approuve pas.

Mais je me demande s'il n'y a pas une autre raison, inhérente à l'activité de recherche d'informations dans un espace ouvert : donner ses recettes de recherche, c'est donner les moyens à ceux qui peuvent investir de se positionner de façon favorable dans les requêtes, et donc le marché de la publicité s'écroulerait pour le moteur. Il y aurait alors là une limite théorique au système : pour être le plus performant il lui faut la transparence, mais celle-ci le conduit à sa perte par brouillage. Ou alors peut-on penser qu'un équilibre différent pourrait se construire ?

01 avril, 2005 10:17  

Enregistrer un commentaire