Web: Le futur selon Yahoo
Eric Baillargeon me signale que les présentations du 10ème Search Engine Meeting, qui s'est tenu à Boston les 11 et 12 avril sont en ligne.
Je suis très flatté de voir que Jan Pedersen, Chief Scientist de Yahoo! me fait l'honneur de citer mes travaux sur Google et de reprendre certaines de mes figures dans l'exposé introductif de la conférence :
Sacré vanne, quand même, pour commencer la conf, car cette diapo compare les comptes chez Yahoo et chez Google, et elle n'est pas vraiment à l'avantage de ce dernier...
La présentation de Jan, intitulée "Internet Search Engines: Past and Future", est très intéressante, non qu'elle dévoile, bien évidemment, des choses que nous ne connaîtrions déjà, mais les voir affirmées dans la bouche du Chief Scientist de Yahoo! leur donne une certaine force. Je remarque pour ma part la façon très soigneuse avec laquelle Jan utilise le terme "claimed" pour parler des tailles d'index des différents moteurs. "Claimed", c'est-à-dire ce que les moteurs prétendent... Dans la diapo qui suit celle ci-dessus, Jan souligne les disparités entre ce qui est annoncé et ce qui est observé, en insistant également sur le fait qu'il y a dans les comptes une bonne proportion de ce qu'il appelle les "thin docs", c'est-à-dire des documents "minces" : pages quasi vides, simples URLs, etc.
Les perspectives officielles de Yahoo! pour le futur ressemblent comme deux gouttes d'eau à celles de Google. Recherches en tous genres : images, pages locales, produits, desktop, etc. Cette diversification de l'offre est certainement nécessaire pour occuper le terrain, mais je note que pas grand chose n'est dit de l'amélioration de ce qui au coeur du business, à savoir la qualité du moteur lui-même. C'est pourtant à mon sens ce qui attire au départ bien des internautes et les fidélise : rapidité, pertinence et "fraîcheur" des résultats, etc.
Ce silence est d'autant plus étonnant que des recherches acharnées sont en cours chez les uns et les autres. Je vois, en ce qui me concerne, deux améliorations cruciales (au moins), qui détermineront le succès des moteurs dans les années à venir :
1. Le classement des résultats, qui est basé à l'heure actuelle trop exclusivement sur la notoriété (algorithmes de type PageRank). Ce type de classement produit des aberrations, dont je me suis moqué à diverses reprises sur ce blog (par exemple ici et ici), et rend les moteurs très vulnérables aux spammeurs.
2. La présentation des résultats. Pour l'instant, les résultats nous arrivent en vrac. Or quoi de plus déplaisant, par exemple, que de trouver les résultats concernant les barrages d'instruments de musique noyés au bout de la n-ième page de résultats sur les barrages hydrauliques ?
Les technologies qui permettront d'améliorer sensiblement ces deux points reposent sur le traitement automatique du langage. Par exemple, la pertinence du classement devra être établie requête par requête : la notoriété d'un site n'implique pas qu'il soit pertinent pour tous les mots-clés, et seul un examen linguistique approfondi des sites peut déterminer quels mots sont pertinents pour un site donné. L'amélioration de la présentation des résultats passe par une désambiguïsation (même grossière) des mots dans les pages (barrage hydraulique ou de lutherie ?), et par une aggrégation des résultats par thèmes (clustering, en bon franglais). Yahoo! nous montre quelques essais timides (d'autres moteurs, comme Exalead font un peu mieux, mais on est encore loin de résultats satisfaisants) :
On remarquera que le même type de technologie est nécessaire à une meilleure adéquation des annonces avec les requêtes et les résultats -- adéquation qui pour l'instant laisse fortement à désirer (particulièrement dans les langues autres que l'anglais). Si l'internaute ne s'en soucie peut-être pas beaucoup, la mauvaise qualité des appariements constitute une perte dramatique de revenus pour le moteur.
Ces recherches sont stratégiques, et le silence officiel de Yahoo! est tout à fait éloquent. Car Jan Pedersen, que Yahoo! a recruté comme Chief Scientist, est justement un spécialiste du traitement automatique du langage. Il se trouve que je connais bien ses travaux (et vice-versa) car le monde est petit, et notre domaine de recherche est identique. Jan s'est distingué dans les années 90 par plusieurs études très pertinentes sur l'étiquetage grammatical des textes (comment reconnaître si porte est un nom ou un verbe ?) [1] et la désambiguïsation sémantique (comment reconnaître si barrage est un ouvrage hydraulique ou un élément de lutherie ?) appliquée à la recherche d'information [2]. On pourra également lire avec intéret son travail récent qui donne une idée de l'algorithme de classement utilisé par Yahoo! en lieu et place du PageRank (qui appartient à Google) [3].
Tout cela n'est pas un hasard. Comme je l'ai dit souvent ici, le langage est au centre de l'information ; même lorsqu'on cherche des images on tape des mots. La recherche de l'information ne progressera qu'avec l'amélioration des technologies du langage. Mais je comprends que la compétition soit rude, et qu'il vaille mieux ne pas trop en parler devant les concurrents !
Pour en savoir plus
[1] Cutting, D., Kupiec, J., Pedersen, J., Sibun, P. (1992). A practical part-of-speech tagger. Proceedings of the third conference on Applied natural language processing (pp. 133-140). Trento, Italy. [pdf]
[2] Schutze, H., Pedersen, J. (1995). Information retrieval based on word senses. Proceedings of the 4th Annual Symposium on Document Analysis and Information Retrieval (pp. 161--175). Sheffield, United Kingdom. [ps]
[3] Broder, A. Z., Lempel, R., Maghoul, F., Pedersen, J. (2004). Efficient PageRank Approximation via Graph Aggregation. Proceedings of the Thirteenth International World Wide Web Conference (pp. 484-485). New York, U.S.A. [pdf]
[2] Schutze, H., Pedersen, J. (1995). Information retrieval based on word senses. Proceedings of the 4th Annual Symposium on Document Analysis and Information Retrieval (pp. 161--175). Sheffield, United Kingdom. [ps]
[3] Broder, A. Z., Lempel, R., Maghoul, F., Pedersen, J. (2004). Efficient PageRank Approximation via Graph Aggregation. Proceedings of the Thirteenth International World Wide Web Conference (pp. 484-485). New York, U.S.A. [pdf]
13 Commentaires:
En ce qui concerne la présentation des résultats, une initiative française est à saluer : la cartographie de recherche du moteur kartoo ( http://kartoo.com/flash04.php3 ). C'est une présentation synthétique des résultats sous forme de schéma 2D qui permet de distinguer rapidement plusieurs "domaines sémantiques" correspondant à l'objet de la recherche.
Pas encore très au point à mon avis, mais l'idée est intéressante.
Kartoo: oui absolument.
Mais comme vous dites : "Pas encore très au point"... A la base, c'est le même problème d'analyse du langage.
"Tout cela n'est pas un hasard. Comme je l'ai dit souvent ici, le langage est au centre de l'information ; même lorsqu'on cherche des images on tape des mots."
Au commencement était le Verbe...
Les grands esprits se rencontrent
;-)
Au commencement était le Verbe...> Vrai, et puis avec Godgle, le Verbe s'est fait cher ;-)
Jérome> Les principaux outils de recherche actuels n'ont fondamentalement pas évolué en presque 10 ans! (sur Motrech [blog]). C'est un peu mon impression... Mais je sens comme un frémissement ;-)
Pour la curiosité, il existe aussi un moteur de recherche qui présente ses résultats regroupés en "clusters", le bien nommé clusty.com... et il est vrai que cette classification, même pas forcément au point ni toujours pertinente est un vrai confort.
Merci pour cet excellent article
Bonjour,
plusieurs remarques,
d'abord cet article est extrémement intéressant.Bravo(encore).
Ensuite que pensez vous du TrustRank qui agite de nombreux forums ces temps ci, et qui semblerait être en cours d'implémentation chez google (C'est du conditionnel! :) ).
Ce n'est certes pas une réponse linguistique mais cela permettrait de réintroduire un peu d'humain et semble être implémentable dans le cadre d'un algorithme Googleien..
CF www.vldb.org/conf/2004/RS15P3.PDF.
Concernant Kartoo, je suis d'accord sur le fait qu'il s'agit d'une représentation innovante de l'information.
Un peu déroutante au début, mais finalement très utile.
Cependant je suis un peu surpris que le système de gestion des cookies Flashs ne soit pas plus discuté.
(l'entrée Kapitalyser -en bas a gauche- garde traces des recherches effectuées ad vitam eternam ou pas loin!).
Quand on sait que la gestion du cookie de Google est une des pierres angulaires des attaques portées, par les défenseurs des libertés individuelles, contre le moteur (cf http://www.google-watch.org/cgi-bin/cookie.htm).
Et il ne s'agit pourtant dans le cas de Google que d'un cookie standard (au sens W3C du terme), facilement gérable avec n'importe quel navigateur, ce qui n'est pas le cas de celui de Kartoo.
(Technologie propriétaire, méconnue et non gérable par les interfaces "standards" des navigateurs ..).
Cordialement,
Bonjour,
il me semble qu'il y a aussi un autre meta-moteur qui fait du clustering : www.vivisimo.com
Je crois que c'est Vivisimo qui est derrière Clusty dont on parlait plus haut. Il y a aussi AllTheWeb. Tout cela n'est pas très bon, mais ça préfigure ce qu'on aura un jour...
Jean Véronis: "Tout cela n'est pas un hasard. Comme je l'ai dit souvent ici, le langage est au centre de l'information ; même lorsqu'on cherche des images on tape des mots. La recherche de l'information ne progressera qu'avec l'amélioration des technologies du langage."
Après avoir conquis l'attribut de l'Etendue, l'économie cherche à annexer l'attribut de l'Idée. On s'efforce de "calculer"/"industrialiser"/"rentabiliser"/"systématiser"
le langage.
En soi, ce n'est pas nouveau (depuis combien
de temps déjà fait-on des grammaires ?), mais la puissance de feu du paradigme
informatique autorise de nouveaux espoirs
et attise les ambitions.
Toute la planète désormais travaille à
se redéfinir en ce sens. Le bavardage
devient une règle autant que la pratique
qui lui permettrait de se dépasser.
Les "technologies de l'information",
les "technologies du langage" : deux
expressions synonymes pour désigner le
nouvel hubris de la Pandore de Turing.
Le prochain dépassement, je le prédis,
sera celui qui consiste à faire fi des
limitations syntaxiques étriquées d'un
formalisme trop exclusivement dépendant
de la logique mathématique.
Si étrange que cela puisse paraître à
certains, la métaphore est plus riche
que l'analogie, et l'anacoluthe, plus
riche que la métaphore.
De même que le monoïde libre libère le
groupe, ou que le module libère l'espace
vectoriel, c'est en appauvrissant
clairement les paradigmes syntaxiques,
mais aussi en entretenant une saine folie
à leur égard, que seront forcés les
verrous de la syntaxe actuelle.
Cela veut dire encore : abandonner le
texte, et passer au métatexte. En
informatique, tout langage est métalangage.
Il y a bien des manières de passer ces
colonnes d'Hercule, même si l'état du
logiciel en ce moment fait surtout penser
aux écuries d'Augias. Je donne sur
cette page quelques exemples d'innovations
technologiques allant dans le sens que
je me suis permis, perfidement,
d'esquisser mais sans en dire trop.
--esc
Loran> que pensez vous du TrustRank qui agite de nombreux forums ces temps ci ?
Voilà : http://aixtal.blogspot.com/2005/05/google-trustrank-beaucoup-de-bruit.html
Bonjour,
Vous parlez d'études du contenu (analyse du language), du pagerank qui est une étude du contexte autour d'un document, mais bizarrement, le facteur qui me semble le plus intéressant, l'usage, n'est pas abordé.
search.mapstan.net propose depuis qq années déjà une approche dans ce domaine grace a un moteur d'historisation des requetes qui permet de construire un contexte autour d'un document en conservant la trace des résultats renvoyés par les moteurs de recherche voire en conservant la trace du surf de l'internaute (mapstan.net).
L'avantage de cette approche est de permettre un 'croisement' entre differents resultats de requetes (qui vont devenir des liens entre les documents, donc plus 2 documents vont repondre a des requetes differentes en commun, plus proches ils seront...) ainsi proposer une sorte de 'synthese' de resultats qui permet de trier et de clusteriser les resultats au fur et a mesure de l'enrichissement du systeme. Le point negatif de cette approche est le besoin d'un amorcage important (volume de requetes) pour obtenir des resultats coherents.
Tres cordialement,
Yves
Enregistrer un commentaire