Web: Google perd la boole
- Chirac OR Sarkozy retourne les pages contenant l'un ou l'autre mot-clé ou les deux,
- Chirac AND Sarkozy retourne les pages qui contiennent les deux (le AND est facultatif),
- Chirac -Sarkozy retourne les pages qui contiennent Chirac mais pas Sarkozy.
Requête | Résultats |
---|---|
Chirac | 3 260 000 |
Chirac OR Sarkozy | 1 570 000 |
Deuxième gag :
Requête | Résultats |
---|---|
Chirac | 3 260 000 |
Chirac OR Chirac | 1 950 000 |
Chirac AND Chirac | 1 950 000 |
Chirac Chirac | 2 010 000 |
On devrait avoir le même résultat dans tous les cas.
Troisième gag :
Requête | Résultats |
---|---|
Chirac AND Sarkozy | 154 000
|
Chirac -Sarkozy | 1 950 000 |
-Chirac Sarkozy | 320 000
|
Total | 2 424 000 |
Or, en fonction du bon vieux diagramme de Venn ci-dessous, le total des différentes requêtes devrait être le même que Chirac OR Sarkozy, soit 1 570 000 (mais c'est sans doute déjà faux...!).

Je n'ai pas la moindre idée de l'origine du problème. Bien sûr, je sais que les nombres retournés par Google sont des approximations (d'ailleurs le moteur précise bien environ x résultats), que les valeurs peuvent légèrement varier en fonction des "centres de données" qui traitent la requête et qui peuvent varier d'un moment à l'autre. Ces raisons pourraient expliquer de petites différences, mais pas des différences du simple au double. J'ai cherché sur les différents forums. Personne ne semble avoir la solution (si certains parmi vous l'ont, je serais très curieux de la connaître !).
En tous cas c'est bien embêtant pour nos démonstrations pédagogiques (l'autre jour j'ai eu l'air d'un idiot en plein cours -- ok, je survivrai ;-).
Conseil : il vaut mieux utiliser Yahoo! Recherche pour ce genre de calculs :
Test 1 :
Requête | Résultats |
---|---|
Chirac | 2 219 000 |
Chirac OR Sarkozy | 2 450 000 |
Requête | Résultats |
---|---|
Chirac | 2 210 000 |
Chirac OR Chirac | 2 220 000 |
Chirac AND Chirac | 2 220 000 |
Chirac Chirac | 2 200 000 |
Test 3 :
Requête | Résultats |
---|---|
Chirac AND Sarkozy | 205 000 |
Chirac -Sarkozy | 1 990 000
|
-Chirac Sarkozy | 256 000
|
Total | 2 451 000 |
Il y a bien encore de petites fluctuations, mais là je veux bien les mettre sur le compte des approximations de calcul !
Allons, soyons fair-play, Google a droit à quelques bugs. On ne va pas prendre les booles parce qu'il la perd un peu...
Post-Scriptum
24 Jan - Mark Liberman vient d'écrire une suite très intéressante à ce billet sur Language Log.
28 Jan - Nouveaux développements : Comptes bidons chez Google ?
11 Commentaires:
Biearre, Bizarre ... d'autant plus que le bug est corrigé si la requête est saisie sur Google.fr en limitant les résultats aux pages frances. Google retrouve alors la boole ...
Olivier Ertzscheid. www.urfist.info
Bizarre.
J'ai trouvé un 'gags' de plus : des sites apparraissent sur la liste avec Chirac OU sarkozy mais pas avec Sarkozy seulement.
Martin Lessard
http://zeroseconde.blogspot.com/2005/01/google-et-la-recherche-pas-si-avance.html
(Sorry, my french is terrible, but I understand most of the writing)
The number of results google claims to return is not the actual number of results, just an estimation. So that is another variable which it doesn't seem you have considered in your research which may affect your conclusions.
I do agree, and I acutally ackknowledge the fact that the numbers are estimates, and I would accept small variations. However, the figures are way off: results for A OR B are less than 50% of A alone. Sounds more like a bug than an estimate to me.
La réponse officielle de Google :
--
Bonjour M. Véronis,
Merci de votre message. Bien que nous prenions en charge l'opérateur OR,
nous nous efforçons d'améliorer l'estimation du nombre de résultats
obtenus avec cette fonction. Comme vous avez l'avez remarqué, nous
fournissons parfois des estimations erronées sur le nombre de résultats
obtenus lors d'une recherche à l'aide de cet opérateur.
Nous vous remercions de nous avoir transmis ces informations.
Cordialement,
L'équipe Google
--
Un peu de la langue de bois, quand même. On verra bien !
Très très beau blog,excellente qualité des posts, bravo.
La Cigogne Déchaînée
-yo
Ce commentaire a été supprimé par un administrateur du blog.
Quelle différence entre 2 millions ou 200 000 pages? En faisant une recherche simple sur "chirac" sur google.com on peut aller jusqu'au resultat no. 792 (80ème page) et pas au dela.
Donc si google disait qu'il n'y a que 792 entrées pour "chirac" le résultat serait le même.
Pour "the" on arrive à 945 résultats maxi.
à la limite le nombre de pages n'est pas important (peut être du aux approximations de claculs) c'est plutôt la pertinence, surtout pour les premières pages ;-)
Pour un utilisateur lambda, le nombre de pages est secondaire effectivement, par contre, pour certains outils liés à l'intelligence artificielle, il est très intéressant. Grâce à ça on arrive à calculer par exemple une distance sémantique entre 2 mots, afin de savoir s'ils sont proches ou non selon le sens commun. Cf articles "Learning by googling" et sur la "Normalized Google Distance" dispos sur internet.
Enregistrer un commentaire