Moteurs: Ca diverge dur! (2)
Bonjour à tous! Voici quelques diagrammes supplémentaires, en réponse aux nombreux commentaires à mon billet d'hier (dont je vous remercie!).
Tout d'abord, le nombre de moteurs qui retournent une URL donnée. Bien sûr, la plupart des URL sont retournées par un seul moteur, ce qui reflète la divergence que je décrivais hier. Moins de 10% des URL sont retournées par au moins deux moteurs...
C'est assez étonnant de voir que sur 4200 résultats (3515 URL uniques), seules deux URL sont retournées par les 6 moteurs. Les heureuses gagnantes sont :
Autre petit calcul du matin: la concordance entre positions pour les résultats retournés par deux moteurs différents (évidemment dans les rares cas où les résultats sont communs). Je n'ai pas traité les 15 couples, ce serait fastidieux, mais j'ai comparé les positions des résultats des cinq autres moteurs par rapport au "leader", Google, sous forme de diagramme à bulles (les bulles sont d'autant plus grosses que les positions X, Y concordent sur l'ensemble des requêtes):
On voit clairement apparaître une coherence pour quatre des moteurs par rapport à Google: Yahoo, MSN, Exalead et Dir. La concordance n'est évidemment pas parfaite, mais il y a une tendance prononcée à retourner des positions qui se ressemblent: si les autres moteurs n'implémentent pas exactement le PageRank, ils ont manifestement quelque chose qui y ressemble! Par contre, Voila donne des positions bien peu corrélées à celles de Google (et en fait de tous les autres moteurs) sur les quelques résultats qu'il donne en commun: cela pourrait être l'indice d'un comportement novateur et génial, mais j'ai le sentiment que cela reflète plutôt un sérieux besoin de serrer quelques boulons algorithmiques!
Tout d'abord, le nombre de moteurs qui retournent une URL donnée. Bien sûr, la plupart des URL sont retournées par un seul moteur, ce qui reflète la divergence que je décrivais hier. Moins de 10% des URL sont retournées par au moins deux moteurs...
C'est assez étonnant de voir que sur 4200 résultats (3515 URL uniques), seules deux URL sont retournées par les 6 moteurs. Les heureuses gagnantes sont :
- sur "Kennedy" : http://www.jfk-fr.com/
- sur "métaphore": http://www.aph-metaphore.com.fr/
Autre petit calcul du matin: la concordance entre positions pour les résultats retournés par deux moteurs différents (évidemment dans les rares cas où les résultats sont communs). Je n'ai pas traité les 15 couples, ce serait fastidieux, mais j'ai comparé les positions des résultats des cinq autres moteurs par rapport au "leader", Google, sous forme de diagramme à bulles (les bulles sont d'autant plus grosses que les positions X, Y concordent sur l'ensemble des requêtes):
Libellés : Google
8 Commentaires:
Intéressant.
Signalons au passage ce qui me semble un biais : le site sur kennedy appartient à aK, qui sévit sur le forum webrankinfo, forum dédié au... référencement ! Pas tellement étonnant donc de le retrouver sur tous les moteurs : il y, à cet effet, du travail en amont.
J'apprécie beaucoup ce que vous faites ; aussi vais-je me permettre un commentaire méchant ; incluant un maximum de mauvaise foi ;-))
«sur "métaphore": http://www.aph-metaphore.com.fr/ {n'est pas pertinent} pour apprendre quoi que ce soit sur la métaphore»
Pas pertinent ? alors que le mot se trouve dans l'URL. Comment le moteur eut-il pu deviner que ce n'était pas le site (consacré à l'hypnose) que vous cherchiez, ne vous souvenant que d'une partie de son nom ? Car si c'est la définition du mot qui vous faisait souci, il se serait attendu à : define:métaphore
Et parmi les réponses de Google, vous eussiez eu :
mot, phrase, anecdote ou histoire complète activatrice de processus de Changement*.
www.hypnose-ericksonienne.com/lexique.htm
C'est ainsi que j'ai appris que le mot "métaphore" avait un sens technique particulier dans le domaine de l'hypnose :-)
«sur "Kennedy" : http://www.jfk-fr.com/ est pertinente (elle parle de l'assassinant de JFK)»
Ah, bon ? Et Nigel Kennedy, vous connaissez pas ? Car on peut bien préférer un grand violoniste vivant à un président assassiné, tout de même ! Mais je dois le chercher en position 23 (par paresse je n'ai utilisé que Google), alors que dans les 10 premiers sortent un motel, une polyclinique et un agent immobilier (pertinents, le mot est dans l'URL). Certes seules 1% des 1 810 000 pages "Kennedy" lui sont consacrées.
1,8 million ? Et vous avez révé que quelques-uns pourraient se retrouver dans les meilleurs, quel que soit le moteur de recherche ? Avec un scoring combinant notoriété du site, pagerank de la page, poids du mot selon sa présence dans l'URL, le titre, la page, sa répétition... Celà aurait un sens pour une requête précise, renvoyant queques centaines de pages ; mais là !
Elève Jean, un petit exercice pour apprendre qu'un moteur de recherche sert à fournir des réponses à des questions difficiles : trouvez quelques "John Kennedy" ayant acquis de la notoriété sans être président des Etats-Unis. Je vous en donne deux :
- John Kennedy Toole, auteur de "La conjuration des imbéciles"
- et celui-çi qui devrait vous plaire :
Agent John Kennedy GRC, Détachement de Stellarton ...
www.justice.gc.ca/fr/ps/yj/awards/2001/jk.html
Bien vu, Pilou -- et merci pour cet exercice de "mauvaise foi" salutaire!
Pasdispo> Effectivement, Exalead fait un très beau travail d'organisation de l'information. Il a fait d'immenses progrès sur la zone "termes associés", en particulier. Je suis ça de très près (on est en plein dans la linguistique, n'est-ce pas?) et j'en parlerai certainement un de ces jours!
tiens au passage, Ask Jeeves arrive en France (annonce sur le blog Moteurs )http://moteurs.blogs.com/mon_weblog/2005/12/ask_en_fr.html
il faudra bientôt l'inclure dans les tests :-)
suis je le seul a lire un jeu de mot graveleux dans ce titre de post ?
:)
Le meta-moteur de recherche dogpile a collabore a la realisation d'une etude sur la divergence des resultats entre les SE. Evidemment plus les resultats sont divergents, plus il y a d'interet a utiliser un meta-moteur si on souhaite approcher de l'exhaustivite.
"Different Engines, Different Results
Web searchers not always finding what they're looking for online
A research study by Dogpile.com
In collaboration with researchers from
the University of Pittsburgh and
the Pensylvania State University"
URL: http://comparesearchengines.dogpile.com/OverlapAnalysis.pdf
Hermes> Jeu de mots -- eh eh ;-) Ca m'étonnait aussi que personne ne relève!
Merci pour le lien. Je vais regarder ça en détail!
Enregistrer un commentaire