Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, septembre 29, 2009

Orange: Recherche thématique

Depuis cet été, Orange propose un nouvel onglet de recherche thématique sur Le Moteur (et également sur le portail Voila) :


Cet onglet permet de restreindre la recherche à des sous-ensembles de pages pertinentes pour cette thématique -- c'est ce que dans le jargon du métier on appelle "moteur vertical". C'est une idée que je défends depuis longtemps (voir par exemple ma présentation à Search Engines Strategies 2008). Elle permet de réduire le bruit considérable que l'on a souvent pour certaines recherches sur un moteur généraliste.

Prenons par exemple la requête "foie"... L'idée que s'en fait Google est la suivante :

La place prépondérante en haut de page est donnée à la santé, puis l'on a un méli-mélo de santé et de cuisine avec les foies gras et les problèmes de voies bilaires mélangés. Les moteurs thématiques permettent de mettre un peu d'ordre dans tout ça. La requête foie sur le moteur Orange nous donne gentiment les recettes de cuisine ou les discussions sur la cirrhose selon l'onglet choisi.

Je trouve assez spectaculaire la détection automatique du thème. Si vous tapez aspirine, par exemple, Le Moteur reconnaît que vous voulez probablement la rubrique Santé. Si vous tapez poulet, il vous propose par défaut la rubrique Cuisine. C'est évidemment perfectible, tout d'abord avec d'autres thématiques, bien sûr, et pour contourner quelques pièges (comme la section recettes du forum Doctissimo, qui propose des tendrons de veau aux nouilles et au foie gras...). Je ne suis peut-être pas tout à fait impartial, puisque j'ai la chance de discuter souvent avec Orange, et d'apporter quelques modestes conseils, mais je trouve l'évolution extrêmement intéressante. Et quand nos entreprises ont le courage de ne pas jeter le gant face au géant Google, je trouve que ça mérite un petit coup de chapeau.

10 Commentaires:

Anonymous Anonyme a écrit...

il n'y a que 4 thèmes (santé, cuisine, jeu flash et logiciels) ou j'ai raté quelque chose ?
G1

30 septembre, 2009 10:25  
Blogger Jean Véronis a écrit...

Oui, pour l'instant il n'y a que ces 4 thèmes. C'est pour ça que je dis que c'est perfectible, mais le principe est néanmoins intéressant. Si Orange arrivait à proposer une palette de thèmes plus large ce serait super !

30 septembre, 2009 10:39  
Anonymous Pablo a écrit...

A première vue, je ne vois pas trop l'apport de ce nouvel outil. Après tout, si je tape "foie santé" ou "foie cuisine" dans google, je devrais obtenir le même genre de résultats qu'en tapant "foie" et en cliquant sur une des catégories chez Orange, non ?
Mes recherches sur google comportent rarement un seul mot clef et l'usage des + - et guillemets permet de faire des recherches assez fines.
Mais il y a peut être quelque chose qui m'échappe...

30 septembre, 2009 18:25  
Blogger Jean Véronis a écrit...

Non, c'est sûr, on peut toujours complexifier les requêtes pour arriver à son résultat. C'est pour cela d'ailleurs que la taille moyenne des requêtes s'allonge régulièrement au fil des années, et que les utilisateurs reformulent de plus en plus souvent les requêtes (on fait un essai, puis on affine, etc.)

En revanche, les opérateurs + - ou guillemets sont d'un usage extrêmement limité dans le grand public.

30 septembre, 2009 18:39  
Blogger pandelis a écrit...

J'ai une question un peu hors sujet mais liée à un sujet souvent abordé dans ce blog:
-"le moteur" semble donner le nombre exact de pages web où apparait le mot. Est-ce bien le cas? (ou y-a-t-il de la lemmatisation ou une approximation du nombre de pages comme chez google)

01 octobre, 2009 08:43  
Blogger Jean Véronis a écrit...

Pandelis> Oui, c'est bien le nombre exact de pages qui s'affiche (il n'y a pas de lemmatisation non plus).

01 octobre, 2009 09:30  
Blogger pandelis a écrit...

Je viens de tester et je pense qu'il y a bien une certaine "lemmatisation" pour "Le Moteur":

En effet si je tape "nuage" il y a plus de pages que pour "nuages". (contrairement à google et ce qui est bizarre car c'est un mot dont le pluriel est plus fréquent que le singulier en général).
Si je regarde le 4ème lien:
http://www.itespresso.fr/lufthansa-pousse-linternet-haut-debit-dans-les-nuages-31894.html

Il n'y a aucune forme "nuage". N'y a-t-il donc aucun moteur ne donnant des décomptes précis pour le nombre de pages contenant ce nombre de mots.

15 octobre, 2009 22:23  
Blogger Jean Véronis a écrit...

Pandelis> Eh eh ;-) Tapez "nuages noirs" vs "nuage noir" et vous comprendrez !

16 octobre, 2009 00:21  
Blogger pandelis a écrit...

mmm je ne suis pas sûr de comprendre. Je vois juste le même problème que pour "nuage" qui donne des pages avec uniquement des "nuages".
Avec ton exemple, "nuage noir" peut donner "nuages noirs".
En revanche, "nuages noirs" ne semble pas donner de "nuage noir". (tout comme nuages ne semble pas donner de nuage ce qui explique les nombres de réponses)

16 octobre, 2009 09:00  
OpenID barbanouille a écrit...

Comment Le Moteur découvre quel est l'objet thématique de notre recherche? Surtout s'il ne demande pas de se logger et qu'il n'a encore jamais laissé de cookie sur notre poste?

29 octobre, 2009 09:43  

Enregistrer un commentaire