Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, janvier 19, 2005

Web: Google perd la boole


J'ai suffisamment été admiratif sur les développeurs de Google dans mes messages précédents (voir ici et ici) pour me permettre de les épingler sur leur recherche avancée, en l'occurrence les opérateurs "booléens" :
  • Chirac OR Sarkozy retourne les pages contenant l'un ou l'autre mot-clé ou les deux,
  • Chirac AND Sarkozy retourne les pages qui contiennent les deux (le AND est facultatif),
  • Chirac -Sarkozy retourne les pages qui contiennent Chirac mais pas Sarkozy.
Premier gag :


RequêteRésultats
Chirac3 260 000
Chirac OR Sarkozy1 570 000
Le nombre de pages qui contiennent Chirac ou Sarkozy, ou les deux, devrait être au moins égal au nombre de pages contenant Chirac, or il est inférieur à la moitié !

Deuxième gag :

RequêteRésultats
Chirac3 260 000
Chirac OR Chirac1 950 000
Chirac AND Chirac1 950 000
Chirac Chirac2 010 000

On devrait avoir le même résultat dans tous les cas.

Troisième gag :

RequêteRésultats
Chirac AND Sarkozy154 000
Chirac -Sarkozy1 950 000
-Chirac Sarkozy320 000
Total2 424 000

Or, en fonction du bon vieux diagramme de Venn ci-dessous, le total des différentes requêtes devrait être le même que Chirac OR Sarkozy, soit 1 570 000 (mais c'est sans doute déjà faux...!).




Je n'ai pas la moindre idée de l'origine du problème. Bien sûr, je sais que les nombres retournés par Google sont des approximations (d'ailleurs le moteur précise bien environ x résultats), que les valeurs peuvent légèrement varier en fonction des "centres de données" qui traitent la requête et qui peuvent varier d'un moment à l'autre. Ces raisons pourraient expliquer de petites différences, mais pas des différences du simple au double. J'ai cherché sur les différents forums. Personne ne semble avoir la solution (si certains parmi vous l'ont, je serais très curieux de la connaître !).

En tous cas c'est bien embêtant pour nos démonstrations pédagogiques (l'autre jour j'ai eu l'air d'un idiot en plein cours -- ok, je survivrai ;-).

Conseil : il vaut mieux utiliser Yahoo! Recherche pour ce genre de calculs :

Test 1 :


RequêteRésultats
Chirac2 219 000
Chirac OR Sarkozy2 450 000
Test 2 :

RequêteRésultats
Chirac2 210 000
Chirac OR Chirac2 220 000
Chirac AND Chirac2 220 000
Chirac Chirac2 200 000

Test 3 :

RequêteRésultats
Chirac AND Sarkozy205 000
Chirac -Sarkozy1 990 000
-Chirac Sarkozy256 000
Total2 451 000

Il y a bien encore de petites fluctuations, mais là je veux bien les mettre sur le compte des approximations de calcul !

Allons, soyons fair-play, Google a droit à quelques bugs. On ne va pas prendre les booles parce qu'il la perd un peu...


Post-Scriptum


24 Jan - Mark Liberman vient d'écrire une suite très intéressante à ce billet sur Language Log.

28 Jan - Nouveaux développements : Comptes bidons chez Google ?

11 Commentaires:

Anonymous Anonyme a écrit...

Biearre, Bizarre ... d'autant plus que le bug est corrigé si la requête est saisie sur Google.fr en limitant les résultats aux pages frances. Google retrouve alors la boole ...
Olivier Ertzscheid. www.urfist.info

19 janvier, 2005 09:49  
Blogger Martin Lessard a écrit...

Bizarre.

J'ai trouvé un 'gags' de plus : des sites apparraissent sur la liste avec Chirac OU sarkozy mais pas avec Sarkozy seulement.

Martin Lessard

http://zeroseconde.blogspot.com/2005/01/google-et-la-recherche-pas-si-avance.html

23 janvier, 2005 13:49  
Anonymous Anonyme a écrit...

(Sorry, my french is terrible, but I understand most of the writing)

The number of results google claims to return is not the actual number of results, just an estimation. So that is another variable which it doesn't seem you have considered in your research which may affect your conclusions.

23 janvier, 2005 22:14  
Blogger Jean Véronis a écrit...

I do agree, and I acutally ackknowledge the fact that the numbers are estimates, and I would accept small variations. However, the figures are way off: results for A OR B are less than 50% of A alone. Sounds more like a bug than an estimate to me.

23 janvier, 2005 22:26  
Blogger Jean Véronis a écrit...

La réponse officielle de Google :
--
Bonjour M. Véronis,

Merci de votre message. Bien que nous prenions en charge l'opérateur OR,
nous nous efforçons d'améliorer l'estimation du nombre de résultats
obtenus avec cette fonction. Comme vous avez l'avez remarqué, nous
fournissons parfois des estimations erronées sur le nombre de résultats
obtenus lors d'une recherche à l'aide de cet opérateur.

Nous vous remercions de nous avoir transmis ces informations.

Cordialement,
L'équipe Google
--
Un peu de la langue de bois, quand même. On verra bien !

26 janvier, 2005 22:31  
Blogger Turulillo a écrit...

Très très beau blog,excellente qualité des posts, bravo.
La Cigogne Déchaînée

28 janvier, 2005 12:41  
Anonymous Anonyme a écrit...

-yo

18 août, 2005 22:08  
Blogger Guillaume a écrit...

Ce commentaire a été supprimé par un administrateur du blog.

06 avril, 2006 14:50  
Blogger Guillaume a écrit...

Quelle différence entre 2 millions ou 200 000 pages? En faisant une recherche simple sur "chirac" sur google.com on peut aller jusqu'au resultat no. 792 (80ème page) et pas au dela.
Donc si google disait qu'il n'y a que 792 entrées pour "chirac" le résultat serait le même.
Pour "the" on arrive à 945 résultats maxi.

06 avril, 2006 14:54  
Anonymous Anonyme a écrit...

à la limite le nombre de pages n'est pas important (peut être du aux approximations de claculs) c'est plutôt la pertinence, surtout pour les premières pages ;-)

28 août, 2007 09:51  
Blogger Unknown a écrit...

Pour un utilisateur lambda, le nombre de pages est secondaire effectivement, par contre, pour certains outils liés à l'intelligence artificielle, il est très intéressant. Grâce à ça on arrive à calculer par exemple une distance sémantique entre 2 mots, afin de savoir s'ils sont proches ou non selon le sens commun. Cf articles "Learning by googling" et sur la "Normalized Google Distance" dispos sur internet.

12 septembre, 2007 11:33  

Enregistrer un commentaire