Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, décembre 13, 2005

Moteurs: Ca diverge dur! (2)

Bonjour à tous! Voici quelques diagrammes supplémentaires, en réponse aux nombreux commentaires à mon billet d'hier (dont je vous remercie!).

Tout d'abord, le nombre de moteurs qui retournent une URL donnée. Bien sûr, la plupart des URL sont retournées par un seul moteur, ce qui reflète la divergence que je décrivais hier. Moins de 10% des URL sont retournées par au moins deux moteurs...



C'est assez étonnant de voir que sur 4200 résultats (3515 URL uniques), seules deux URL sont retournées par les 6 moteurs. Les heureuses gagnantes sont :
Encore plus étonnant, si la première est relativement pertinente (elle parle de l'assassinat de JFK), la seconde ne l'est strictement pas pour apprendre quoi que ce soit sur la métaphore...

Autre petit calcul du matin: la concordance entre positions pour les résultats retournés par deux moteurs différents (évidemment dans les rares cas où les résultats sont communs). Je n'ai pas traité les 15 couples, ce serait fastidieux, mais j'ai comparé les positions des résultats des cinq autres moteurs par rapport au "leader", Google, sous forme de diagramme à bulles (les bulles sont d'autant plus grosses que les positions X, Y concordent sur l'ensemble des requêtes):


On voit clairement apparaître une coherence pour quatre des moteurs par rapport à Google: Yahoo, MSN, Exalead et Dir. La concordance n'est évidemment pas parfaite, mais il y a une tendance prononcée à retourner des positions qui se ressemblent: si les autres moteurs n'implémentent pas exactement le PageRank, ils ont manifestement quelque chose qui y ressemble! Par contre, Voila donne des positions bien peu corrélées à celles de Google (et en fait de tous les autres moteurs) sur les quelques résultats qu'il donne en commun: cela pourrait être l'indice d'un comportement novateur et génial, mais j'ai le sentiment que cela reflète plutôt un sérieux besoin de serrer quelques boulons algorithmiques!

Libellés :


9 Commentaires:

Anonymous MKe a écrit...

Intéressant.
Signalons au passage ce qui me semble un biais : le site sur kennedy appartient à aK, qui sévit sur le forum webrankinfo, forum dédié au... référencement ! Pas tellement étonnant donc de le retrouver sur tous les moteurs : il y, à cet effet, du travail en amont.

13 décembre, 2005 11:55  
Anonymous Pilou a écrit...

J'apprécie beaucoup ce que vous faites ; aussi vais-je me permettre un commentaire méchant ; incluant un maximum de mauvaise foi ;-))

«sur "métaphore": http://www.aph-metaphore.com.fr/ {n'est pas pertinent} pour apprendre quoi que ce soit sur la métaphore»
Pas pertinent ? alors que le mot se trouve dans l'URL. Comment le moteur eut-il pu deviner que ce n'était pas le site (consacré à l'hypnose) que vous cherchiez, ne vous souvenant que d'une partie de son nom ? Car si c'est la définition du mot qui vous faisait souci, il se serait attendu à : define:métaphore
Et parmi les réponses de Google, vous eussiez eu :
mot, phrase, anecdote ou histoire complète activatrice de processus de Changement*.
www.hypnose-ericksonienne.com/lexique.htm
C'est ainsi que j'ai appris que le mot "métaphore" avait un sens technique particulier dans le domaine de l'hypnose :-)

«sur "Kennedy" : http://www.jfk-fr.com/ est pertinente (elle parle de l'assassinant de JFK)»
Ah, bon ? Et Nigel Kennedy, vous connaissez pas ? Car on peut bien préférer un grand violoniste vivant à un président assassiné, tout de même ! Mais je dois le chercher en position 23 (par paresse je n'ai utilisé que Google), alors que dans les 10 premiers sortent un motel, une polyclinique et un agent immobilier (pertinents, le mot est dans l'URL). Certes seules 1% des 1 810 000 pages "Kennedy" lui sont consacrées.
1,8 million ? Et vous avez révé que quelques-uns pourraient se retrouver dans les meilleurs, quel que soit le moteur de recherche ? Avec un scoring combinant notoriété du site, pagerank de la page, poids du mot selon sa présence dans l'URL, le titre, la page, sa répétition... Celà aurait un sens pour une requête précise, renvoyant queques centaines de pages ; mais là !

Elève Jean, un petit exercice pour apprendre qu'un moteur de recherche sert à fournir des réponses à des questions difficiles : trouvez quelques "John Kennedy" ayant acquis de la notoriété sans être président des Etats-Unis. Je vous en donne deux :
- John Kennedy Toole, auteur de "La conjuration des imbéciles"
- et celui-çi qui devrait vous plaire :
Agent John Kennedy GRC, Détachement de Stellarton ...
www.justice.gc.ca/fr/ps/yj/awards/2001/jk.html

13 décembre, 2005 15:15  
Blogger Jean Véronis a écrit...

Bien vu, Pilou -- et merci pour cet exercice de "mauvaise foi" salutaire!

13 décembre, 2005 15:34  
Blogger pasdispo a écrit...

Je pense que Pilou a mis le doigt sur un des pb. Jean Veronis l'a perçu aussi puisqu'en avertissement il mentionne que la non divergence n'est pas obligatoirement un signe de qualité.

En effet,les moteurs cités dans l'étude n'ont pas les mêmes objectifs. Par exemple les deux extrêmes (à mon avis) étant Google et Exalead.
-Google classe généralement les réponses avec un objectif commercial, dans une seule liste.

- Exalead est orienté Information, adéquation requête /réponse à l’aide de 2 listes : catégorisation/liste

Exemple: Rechercher SUEZ.
Indépendamment de la taille indexée (2,046,240,559 web pages annoncées en bas de page exalead et rien d’affiché sur Google mais je crois que c’est l’ordre de 8milliards( ?))
- Google donne en vrac les réponses relatives à Suez et choisi de prioriser www.suez.com à la place de l’utilisateur. Puis on trouve en vrac différents sujets sur Suez, Lyonnaise des eaux à nouveaux etc…
- Exalead dans sa liste de droite priorise aussi www.suez.com mais propose à l’utilisateur via sa colonne de gauche différentes catégories (comme Lyonnaise des eaux ; Canal de Suez ; Golfe de Suez ; Crise de Suez ; Gouvernement egyptien ; Lake Nasser ; etc…)ceci permettant à l’utilisateur de rapidement se concentrer sur son sujet de recherche (ex : canal de Suez) et regrouper ensuite toutes les réponses relatives à canal de Suez (pour cet exemple).
-
On comprendra donc que, ayant des objectifs différents ainsi que des modes de navigation et de présentation de l’information différents, il est difficile de comparer les moteurs sur leur première page.

Je tiens cependant à préciser que je trouve cette étude/ initiative d’étude très intéressante et à remercier Jean Veronis.

13 décembre, 2005 19:34  
Blogger Jean Véronis a écrit...

Pasdispo> Effectivement, Exalead fait un très beau travail d'organisation de l'information. Il a fait d'immenses progrès sur la zone "termes associés", en particulier. Je suis ça de très près (on est en plein dans la linguistique, n'est-ce pas?) et j'en parlerai certainement un de ces jours!

13 décembre, 2005 21:54  
Anonymous stéphane a écrit...

tiens au passage, Ask Jeeves arrive en France (annonce sur le blog Moteurs )http://moteurs.blogs.com/mon_weblog/2005/12/ask_en_fr.html

il faudra bientôt l'inclure dans les tests :-)

14 décembre, 2005 19:20  
Anonymous hermes a écrit...

suis je le seul a lire un jeu de mot graveleux dans ce titre de post ?

:)

19 décembre, 2005 11:50  
Anonymous hermes a écrit...

Le meta-moteur de recherche dogpile a collabore a la realisation d'une etude sur la divergence des resultats entre les SE. Evidemment plus les resultats sont divergents, plus il y a d'interet a utiliser un meta-moteur si on souhaite approcher de l'exhaustivite.

"Different Engines, Different Results
Web searchers not always finding what they're looking for online

A research study by Dogpile.com
In collaboration with researchers from
the University of Pittsburgh and
the Pensylvania State University"

URL: http://comparesearchengines.dogpile.com/OverlapAnalysis.pdf

19 décembre, 2005 12:10  
Blogger Jean Véronis a écrit...

Hermes> Jeu de mots -- eh eh ;-) Ca m'étonnait aussi que personne ne relève!

Merci pour le lien. Je vais regarder ça en détail!

19 décembre, 2005 12:14  

Enregistrer un commentaire