Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, août 23, 2005

Yahoo: Missing pages? (4)



NCSA has issued a strong disclaimer on the Google/Yahoo study which has made so much noise a few days ago [original version]. Yesterday the study page read as follows:
The following study was completed by two of Professor Vernon Burton's students at the University of Illinois. Though one of the students previously worked with Professor Burton at the National Center for Supercomputing Applications (NCSA), the study was done outside the scope of any NCSA core projects. When first published online, staff at the NCSA noted several issues with the study, and some revisions have been made to the document to reflect several of these concerns. Changes are detailed at the bottom of this page.

Please note again that this study is not an NCSA publication and was not conducted as part of any NCSA project or under the supervision of NCSA.

A verification study is currently in progress that addresses the presence of "wordlists" and "dictionaries" in the search results that many rightly point out could count as a source of bias. The new study filters out any dictionary or wordlist results. Preliminary results (from 7000 test queries) indicates that the results of this verification study confirms the conclusions of this study, but final results are still forthcoming.
Today, a new, revised version has been put online. Interestingly enough, Prof. Vernon Burton has disappeared as a co-author, leaving his two students alone on the battlefield. Affiliations to NCSA have been removed as well.

In the new study, the authors still draw two words at random in the ispell dictionary, but exclude a third, random word from the search (using the exlusion operator - ), in the hope of removing word lists and spam from results. For example, they will search for switchers trophoblast -agnus. They find that Google still returns more results (although less often than before).

Unfortunately, this new strategy doesn't remove the bias. Word lists and spam are still returned, as can be easily checked on any of the queries used, such as switchers trophoblast -agnus. Here are the results from a Google search this morning : all results but one are word lists and junk.

Yahoo returns no result on the same query, and thus misses the one interesting document returned by Google [this one]. It turns out that this document is a long pdf file, which is in Yahoo's database [see here], but is not returned because Yahoo indexes long documents less deeply (see discussion in my previous post). The fact that such documents are not returned does not mean that Yahoo lies on the number of documents indexed (which is the question under debate). The authors do not take into account the difference in filtering strategies either (see here).

In conclusion, this new study is just as biaised as the previous one. It still counts numerous junk documents returned by Google, and doesn't address other important issues.

I find it amazing how quickly such a flawed study could be quoted with so much excitement all over the blogosphere and even make its way to the respectable New York Times. Fortunately, a couple of bloggers were on the watch.

Libellés :


2 Commentaires:

Anonymous Anonyme a écrit...

You are making good job!
Keep up the super articles!

discount cialis

23 août, 2005 12:09  
Anonymous Anonyme a écrit...

I love you :-))
or how do you say it in French?
Je vous aime!! Vous parlez la vérité!

HopeSeekr of xMule

23 août, 2005 16:28  

Enregistrer un commentaire

Yahoo: Pages manquantes? (4)



NCSA a publié un démenti assez cinglant sur la comparaison Google/Yahoo qui avait fait si grand bruit il y a quelques jours [version originale]. Hier, la page était remplacée par l'avertissement suivant:
The following study was completed by two of Professor Vernon Burton's students at the University of Illinois. Though one of the students previously worked with Professor Burton at the National Center for Supercomputing Applications (NCSA), the study was done outside the scope of any NCSA core projects. When first published online, staff at the NCSA noted several issues with the study, and some revisions have been made to the document to reflect several of these concerns. Changes are detailed at the bottom of this page.

Please note again that this study is not an NCSA publication and was not conducted as part of any NCSA project or under the supervision of NCSA.

A verification study is currently in progress that addresses the presence of "wordlists" and "dictionaries" in the search results that many rightly point out could count as a source of bias. The new study filters out any dictionary or wordlist results. Preliminary results (from 7000 test queries) indicates that the results of this verification study confirms the conclusions of this study, but final results are still forthcoming.
Aujourd'hui, une nouvelle version révisée a été mise en ligne. Il est assez intérressant de constater que le Prof. Vernon Burton a disparu en tant que co-auteur, laissant ses deux étudiants seuls sur le champ de bataille. Les affiliations au NCSA ont aussi été enlevées.

Dans cette nouvelle étude, les auteurs tirent toujours deux mots au sort dans le dictionnaire ispell mais excluent un troisième mot aléatoire de la requête (à l'aide de l'opérateur d'exclusion -), dans l'espoir d'éliminer les listes et le spam des résultats. Par exemple, ils utilisent la requête switchers trophoblast -agnus. Ils trouvent ainsi que Google retourne toujours plus de résultats (un peu moins que précédemment).

Malheureusement cette nouvelle stratégie ne fait pas disparaître le bais. Des listes de mots et du spam sont toujours présents dans les résultats, comme on peut le vérifier aisément sur n'importe laquelle de leur requêtes. Voici par exemple les résultats que me donne Google ce matin pour switchers trophoblast -agnus: tous les documents sauf un sont du déchet.

Yahoo ne renvoie rien sur la même requête, et rate donc le seul document pertinent renvoyé par Google [celui-ci]. Il s'avère que ce document est un long fichier pdf, qui est pourtant dans la base de données de Yahoo [voir ici]. S'il n'est pas retrouvé c'est parce que Yahoo indexe les longs documents de façon beaucoup moins profonde que Google (voir discussion dans mon billet précédent). Le fait que de tels documents ne soient pas retournés sur certaines requêtes ne signifie pas que Yahoo mente sur le nombre de documents indexés (ce qui est l'objet du débat). Les auteurs ne prennent pas en compte non plus la différence dans les stratégies de filtrage (voir ici).

En conclusion, cette nouvelle étude est tout aussi faussée que la première. Elle continue à compter de nombreux documents sans intérêt et ne se pose même pas la question des autres biais qui ont été signalés.

Je trouve assez étonnant qu'une étude aussi défaillante puisse faire ainsi le tour de la blogosphère, et être citée partout avec autant d'excitation, même par le respectable New York Times. Heureusement un ou deux bloggeurs vigilants étaient sur le pont...

Libellés :


8 Commentaires:

Anonymous Marc a écrit...

Yahoo semble vous remercier...!
Il est amusant de remarquer que lorsqu'on tape NCSA dans yahoo (francophone) vous êtes en 4e position alors que dans Google (francophone) vous n'êtes que 48e...

Un mauvais point toutefois pour Yahoo qui retourne le résumé suivant :
"... extremely detailed study carried out by researchers at NCSA, which I wrote about here, seems to provide grist ... of my last post, the NCSA authors assume that search engines perform ..."
alors que la rerche porte sur les pages francophones...
Google a bien extrait un passage en français.

23 août, 2005 10:53  
Blogger Jean Véronis a écrit...

Marc> Et 14è dans une recherche "tout le web", ce qui est assez extraordinaire vu qu'il y a plus de 5 millions de résultats! Il va falloir que je me penche sur ça, merci!

Le problème du résumé c'est que ma page principale aixtal.blogspot.com contient les 20 dernier billets, méli-mélo de français et d'anglais. Yahoo doit attraper bêtement la première occurence de la chaîne...

23 août, 2005 11:03  
Anonymous Béatrice Foenix-Riou a écrit...

Il semble que mon précédent commentaire sur les pages manquantes pour le mot "azoique" ait fait mouche ;-)

Certes, les précisions de Jean, notamment sur l'indexation partielle des fichiers PDF, et sur le filtrages des résultats, expliquent une partie du mystère...
Mais je voudrais son/votre avis pour une autre devinette, toujours pour des pages manquantes sur Yahoo...

Afin d'éviter, autant que faire se peut, de retrouver des fichiers PDF et des "listes de mots" polluantes, j'ai pris cette fois-ci l'exemple de recherche de "backlinks" – d'autant que cette fonctionnalité est l'un des points forts de Yahoo! vs Google...

Si l'on recherche sur Yahoo! des pages pointant vers le très sérieux et plutôt discret site RIME – Ressources sur Internet en management et économie –, avec la requête "link:http://www.ccip.fr/rime", on obtient "2030 résultats". Là encore, Yahoo! s'arrête dans un premier temps à l'affichage de 273 résultats et à 508 résultats si l'on a cliqué sur "relancer la recherche en y incluant les documents occultés".

Pourtant, pour un site de ce type – qui ne possède pas d'adresse "en propre" –, il ne devrait pas y avoir beaucoup de spam... y-a-til filtrage et à partir de quoi ? y-a-t-il "bidonnage des comptes" ???

L'enquête piétine... Mais Jean va sûrement la relancer ;-)

23 août, 2005 19:00  
Blogger Jean Véronis a écrit...

Béatrice> Il n'est pas sûr que le filtrage post-recherche ne concerne que le spam.

Il y a quand-même un peu de spam ou de pages bizzaroïdes:
inurl:www.ccip.fr inurl:rime

Mais ça ne suffit sans doute pas à expliquer la différence. Je ne sais pas exactement ce que fait Yahoo, mais je constate que de très nombreux liens qui pointent sur http://www.ccip.fr/rime proviennent du site www.ccip.fr/rime lui-même ou de sites apparentés comme www.rime.ccip.fr ou www2.ccip.fr, www3.ccip.fr, www4.ccip.fr, qui contiennent des centaines de fiches générées dynamiquement par script asp et qui toutes contiennent ce lien. Exemple:

http://www.rime.ccip.fr/detail_print.asp?fiche=872

Peut-être que ces pages entrent dans l'équation?

24 août, 2005 10:54  
Anonymous wawa a écrit...

Les bugs du correcteur orthographique de Google :
http://www.au-poil.com/archive/2005/08/25/afghanes-voilees.html#comments

25 août, 2005 23:47  
Blogger Jean Véronis a écrit...

Wawa> Excellent... le contraste est saisissant, quand on voit ce que retourne la proposition Google! Ceci étant, j'ai quand même de plus en plus de mal à comprendre l'algorithme de correction de Google...

26 août, 2005 09:20  
Anonymous Pilou Guy a écrit...

Tout le monde étant interessé par la question, j'ai fait aussi mon petit test ; avec la chaine la plus pertinente possible (pour moi ;>)) : mon pseudo = pilou guy.
Il date de la campagne du référendum (étonnant, non !) et ne traine que sur 4 sites, 2 étant sur le même domaine.
Yahoo n'en trouve qu'un (le principal), Google trois. Le quatrième ne comportait pas la chaine complète, mais la signature Guy pointait sur l'email (qui la contient), que les spammeurs ont bien trouvé.
L'analyse détaillée des résultats renvoyés est passionante, surtout la comparaison de l'ensemble des pages du site commun aux deux moteurs. Leur adresse est du type :
forums.telerama.fr/forums/messages.asp?forum=147&msgID=220224&parentmsgID=0&threadID=64303&forumid=1453
Google en annonce 22 qu'il affiche. Yahoo en annonce 52 et n'en affiche que 20 ; sauf que le même message est sorti plus de 10 fois!

Un autre test avec http://aixtal.blogspot.com ; vous connaissez ? :>)))
Google donne le titre et propose des services : page en cache, contenant les blogs d'août ; sites qui référencent ou parlent d'aixtal.
Yahoo annonce 1317 pages ! Je suis trop paresseux pour en regarder le détail ...
En emmerdeur notoire, j'ais insisté, cherchant langage http://aixtal.blogspot.com
Pas déçu !
Google annonce et affiche 51 pages : une pour chaque titre de blog depuis décembre 2004 (me semble-t-il, a visto de naz) ; à toi Jean de valider la pertinence du chiffre.
Yahoo n'en annonce plus qu'UNE !!! Qu'il n'a pas en cache, et me semble définie comme lien RSS.

Alors, Aixtal, c'est 1, 51 ou des centaines de pages ?
Et c'est quoi UNE page ?
Car l'important, en statistique, ce n'est pas de compter (çà, on sait le faire dés le CP), mais de maitriser le LANGAGE de définition des objets et catégories. Tu devrais y parvenir ;>)))

Dans le cas des forums du genre de Télérama, chaque message et chaque dicussion sont des pages. Comme il existe plusieurs chemins d'accés, le nombre de titres apparents est la combinaison des identifiants valides fournis au script ; l'identifiant du message dépends de sa position dans la base, et donc change à chaque réorganisation.
Google semble avoir un moyen de reconaitre les contenus (sans doute fabrique-t-il une clé), malgrés les modifications apparente de titre ; pas Yahoo, d'où les multiples doublons.

Le nombre de pages étant une chimère, comment peut-on comparer les deux moteurs ?
L'indice de complètude me parait la meilleure piste. Pour "pilou guy" çà donnait 0.75 à Google contre 0.25 à Yahoo si l'on compte le nombre de sites ; mais encore plus médiocre et désequilibré si l'on compte le nombre de textes, mais ne sachant plus combien de fois je m'étais exprimé, l'indice absolu n'est pas non plus calculable.

Plutot que des mots aléatoires, des mots peu usités sont efficaces. Ainsi "epoutir" donne 17 échos chez Google et 32 chez Yahoo, dont 9 de spam chez chacun ( et vols-promo.net, çà devrait se voir!). Le fait que ce soit surtout des dictionnaires et des listes de mots est trés pertinent pour des joueurs de scrabble et des amateurs de mots croisés.
Racahout m'a ébahi : il tient une bonne place dans Madame Bovary !

Tu tiens là de quoi occuper tes étudiants ;>)

La façon de passer la requète la plus efficace pour n'avoir que quelques échos pertinents est aussi un thème de recherche utile ; et à la mode : dans le roman-feuilleton de Libé, il s'agit de trouver UN Morales au Mexique !

26 août, 2005 18:10  
Anonymous Denys a écrit...

Tout à fait par hasard, une requête spécifique me permet de mener une expérience tout à fait discriminante. La phrase : "l'hébergeur est dans mon salon" ne se trouve qu'en deux occurrences : sur la page d'accueil index.html de mon site statique, et sur le gabarit template.php de mon blog sous Dotclear. Google.fr, search.yahoo.fr et search.msn.fr retournent respectivement 2 résultats sur 119, 3 sur 365, et 4 sur 4 ; en demandant à MSN d'afficher plus de résultats, il en trouve 158.
On comprend facilement que, si l'occurrence du fichier index.html est unique, celle de template.php est miraculeusement multipliée suivant des modalités propres à chaque moteur : si j'en crois Dotclear, le blog comporte à ce jour 46 billets. Il semble que, d'une part, l'existence d'une version anglaise virtuelle suffise à doubler ce total et, de l'autre, que les opérations d'indexations successives se superposent, un même billet étant référencé séparément à deux dates différentes.
Moralité : les moteurs de recherches ne s'en sortent pas avec les pages dynamiques, ce qui n'est pas nouveau, et cette opération permet de les classer par ordre de pertinence, avec Google en 1, Yahoo en 2, et MSN en 3.

08 septembre, 2005 15:42  

Enregistrer un commentaire

jeudi, août 18, 2005

Yahoo: Missing pages? (3)



The debate about the size of Yahoo’s index is heating up; even the New York Times has got involved. An extremely detailed study [original version] carried out by researchers at NCSA, which I wrote about here, seems to provide grist to the mill for sceptics by suggesting the numerical superiority of Google’s index. Nonetheless, I demonstrated in my two previous posts [here and here] that certain errors in its methodology completely invalidate the conclusions reached by this study. In this third section, I will go on to show that even its basic assumptions are wrong.



As I mentioned at the end of my last post, the NCSA authors assume that search engines perform no filtering (for instance to eliminate spam sites) and return all the results in their index for each and every search. If this were not the case, one could not legitimately extrapolate the results obtained from small frequencies (less than 1000) to the index as a whole, since this filtering would certainly not be proportionate to the number of results, and nor would it be identical for each of the search engines under comparison. Yet everything seems to point towards the fact that the search engines do indeed use such a filtering system.

Many web surfers have noticed some strange behaviour from Yahoo. For instance, Béatrice explains in a comment on this post [in French -- English version here] that when we do a search for a term like "azoïque" (which is French for “azoic”, a chemical term), Yahoo initially gives us a total number of results on the first page (2380), then replaces this number with a new, lower figure on each of the following pages, until we end up with a much lower number (576 in this case, if we extend the search to include similar results).

I have tested Yahoo using words within a wide range of frequencies, and this behaviour is systematic. The “loss” rises as the frequency falls:


We could of course put this behaviour down to a bug, or imagine that it might be an attempt to manipulate the data, but it’s so clearly visible that I have trouble believing Yahoo’s developers could be so negligent. Moreover, a similar but less obvious phenomenon also affects Google. The most likely hypothesis is in fact that results are filtered after every search in order to avoid undesirable pages, particularly spam.

Spam is clogging up the web, and search engines are making a major effort to fight it, since it can have an extremely negative impact on the relevance of the results they return. There are two complementary ways of fighting against this plague:
  • Identify a document or site as spam when it is indexed, and exclude it from the index.
  • Keep an up-to-date blacklist that allows URLs of known spammers to be excluded after the index has been calculated.
This second technique is especially interesting, since it allows the search engines to react more quickly when new spam is discovered and also allows for dynamic updating without the need to recalculate the index and propagate it across all the search engine’s servers. It is, I believe, this filtering mechanism that we can see at work when pages “disappear” from the total number of results announced.

Needless to say, the search engine doesn’t filter all the results based on the blacklist for any given search! If the user asks for 10 results, it is enough just to apply the blacklist to the beginning of the list of results until 10 valid results are obtained. If the index contains n results, and we have had to eliminate m, a simple rule of three can allow us to display an estimate of the total number of results after filtering, 10 n / (10 + m. The majority of users never request the second screen of results. But if they do, the same mechanism is reapplied, and we then have an improved estimate. Since we know that we have eliminated a total of m' documents, we can display the new estimate of 20 n / (20 + m'). And so on and so forth – easy as pie. Of course, search engines obviously use more complicated functions that the rule of three, since there is no reason why the proportion of spam should remain constant from one screen of results to the next: listing results by relevance even suggests that there ought to be less spam towards the top of the list.

It is exactly this mechanism that we can see at work with Yahoo and Google. The fact that the proportion of pages filtered decreases along with the frequency of the key word is perfectly logical. There are two factors that contribute to this. On the one hand, spam sites make intensive use of dictionaries and lists of random words to produce artificial texts that attempt to fool the search engines. In doing so, these artificial texts use a proportion of uncommon words that is far above the norm. Additionally, listing results by relevance implies for high frequency searches that the pages or documents at the top of the list are probably not spam, as I just mentioned.

Most astonishing of all is that the results published by the NCSA researchers themselves very clearly show this filtering mechanism at work! In their table 3, they show that the percentage of real results returned by Yahoo for the whole of their searches is only 27% (i.e. 73% filtering), compared to 92% for Google (8% filtering). I quote [and you can find the whole study here]:

Table Three (n=10,012)


Estimated Search Results (Excluding Duplicate Results)
Total Search Results (Excluding Duplicate Results)
Percent of Actual Results Based on Estimate
Estimated Search Results (Including Duplicate Results)
Total Search Results (Including Duplicate Results)
Percent of Actual Results Based on Estimate
Yahoo!
690,360
146,330
21.1%
821,043
223,522
27.2%
Google
713,729
390,595
54.7%
708,029
651,398
92.0%

Yahoo applies much more filtering than Google; undoubtedly their blacklist is more complete. In fact, for the test searches in question, Yahoo returns far less junk than its competitor. While this is very much to the credit of the search engine, it does mean that this mechanism makes it impossible to extrapolate the results observed to the size of the index as a whole. So, here we have a third reason that allows me to state that the NCSA researchers have proved nothing at all, other than that Google does a very good job of indexing spam and ispell!

These fellow researchers of mine must have been very upset to hear my criticisms (they can't ahve missed the pointer through the New York Times), along with those of certain other bloggers (here). While I was writing this post, Serge Courrier [who was interviewing me for 01net] brought to my attention that they have modified their page and removed this qualifying remark about their methodology with regard to filtering. So they have obviously realised their error, but rather than cancel their study (anyone can make a mistake, after all), they have chosen instead of remove this carefully phrased remark that did them credit. It’s one way of doing things, I suppose. But not the one I would have chosen ...


Update

22 Aug -- NCSA's staff admits the flaws and issues a strong disclaimer
23 Aug -- A new, revised (but still biased) study is put online

Read details: Yahoo: Missing pages? (4)

Libellés :


0 Commentaires:

Enregistrer un commentaire

Yahoo: Pages manquantes? (3)



La polémique autour de la taille de l'index Yahoo s'amplifie. Même le New York Times s'y met. L'étude très détaillée [version originale] des chercheurs du NCSA, dont je parlais ici, semble apporter de l'eau au moulin des sceptiques en concluant à la supériorité numérique de l'index de Google. J'ai montré toutefois dans les deux parties précédentes [ici et ici] que cette étude était entachée d'erreurs méthodologiques qui invalident totalement ses conclusions. Dans cette troisième partie, je montrerai que ses hypothèses mêmes sont erronées.



Comme je le mentionnais en fin de mon dernier billet, les auteurs du NCSA supposent que les moteurs ne font aucun filtrage (par exemple pour éliminer des sites de spam) et retournent tous les résultats contenus dans leur index sur chaque requête. Dans le cas contraire, il ne serait pas légitime d'extrapoler les résultats obtenus sur de petites fréquences (moins de 1000) à l'ensemble de l'index, car le filtrage ne serait certainement ni proportionnel au nombre de résultats, ni identique pour chacun des moteurs comparés. Or tout porte à croire que les moteurs opèrent un tel filtrage.

De nombreux internautes ont ainsi observé un comportement apparemment étrange de Yahoo. Par exemple, Béatrice dans un commentaire sur ce billet nous explique que lorsqu'on tape une requête comme "azoïque", Yahoo donne un premier nombre de résultats sur la première page (2380), puis révise ce chiffre à la baisse dans les pages de résultats suivantes, et au final on n'obtient qu'un nombre très inférieur (576, en étendant la recherche aux résultats similaires).

J'ai testé Yahoo sur des mots dans une large gamme de fréquences, et ce comportement est systématique. La perte augmente au fur et à mesure que la fréquence diminue:


On peut bien sûr imaginer que ce comportement soit dû à un bug, ou à une tentative de manipulation des données, mais c'est si visible que j'ai peine à croire que les ingénieurs de Yahoo soient aussi négligents. Un phénomène analogue (mais moins marqué) affecte d'ailleurs Google. L'hypothèse la plus probable est justement celle d'un filtrage des résultats à chaque requête pour éviter des pages indésirables, et notamment du spam.

Le spam gangrène le web, et les moteurs font de gros efforts pour le contrer, car il peut dégrader de façon importante la pertinence des résultats. Il y a deux façons complémentaires pour lutter contre ce fléau:
  • détecter que le document ou le site est du spam lors de l'indexation et l'exclure de l'index;
  • tenir à jour une "blacklist" qui permet d'exclure les URL reconnues comme spammeuses après que l'index ait été calculé.
Cette deuxième technique est particulièrement intéressante, car elle permet une réactivité importante et une mise à jour dynamique sans que l'index ait à être recalculé et propagé sur tous les serveurs du moteurs. C'est à mon sens ce mécanisme de filtrage que nous voyons à l'oeuvre dans les "disparitions" de pages constatées.

Le moteur ne filtre évidemment pas tous les résultats en fonction de la blacklist pour une requête donnée! Si l'utilisateur demande 10 résultats, il suffit d'appliquer la blacklist sur le début des résultats jusqu'à l'obtention de 10 résultats valides. Si l'index contient n résultats, et qu'on a dû en éliminer m, on peut déjà par une simple règle de trois afficher une estimation du nombre total de résultats après filtrage, soit 10 n / (10 + m). La grande majorité des utilisateurs ne demandent jamais le deuxième écran de résultats. Mais s'ils le font, on ré-applique le même mécanisme, et on a alors une estimation améliorée. Sachant qu'on a éliminé au total m' documents, on peut afficher la nouvelle estimation 20 n / (20 + m'). Et ainsi de suite. Simple comme bonjour. Bien sûr, les moteurs utilisent certainement des fonctions plus compliquées que la règle de trois, car la proportion de spam n'a aucune raison d'être constante au fil des écrans de résultats: le classement par pertinence implique même qu'il y ait moins de spam dans le haut du classement.

C'est exactement le mécanisme que nous voyons à l'oeuvre chez Yahoo et Google. Le fait que la proportion de pages filtrées diminue avec la fréquence du mot-clé est tout à fait logique. Deux facteurs y contribuent. D'une part les sites de spam utilisent massivement des dictionnaires et des listes de mots aléatoires pour fabriquer des textes artificiels qui essaient de flouer les moteurs. Ce faisant, ces textes artificiels utilisent une proportion de mots peu fréquents bien supérieure à la normale. Par ailleurs, le principe de classement des résultats par pertinence implique sur les requêtes à haute fréquence que le sommet de la liste n'est probablement pas du spam, comme je le mentionnais à l'instant.

Le plus étonnant est que les résultats publiés par les chercheurs du NCSA eux-mêmes montrent très clairement ce filtrage! Dans leur table 3, ils montrent que le pourcentage de résultats réels retournés par Yahoo sur leur ensemble de requêtes n'est que de 27% (soit 73% de filtrage), contre 92% pour Google (8% de filtrage). Je cite [voir l'étude ici] :

Table Three (n=10,012)


Estimated Search Results (Excluding Duplicate Results)
Total Search Results (Excluding Duplicate Results)
Percent of Actual Results Based on Estimate
Estimated Search Results (Including Duplicate Results)
Total Search Results (Including Duplicate Results)
Percent of Actual Results Based on Estimate
Yahoo!
690,360
146,330
21.1%
821,043
223,522
27.2%
Google
713,729
390,595
54.7%
708,029
651,398
92.0%

Le filtrage appliqué par Yahoo est bien plus important que celui de Google. Sans doute leur blacklist est-elle plus étoffée. De fait, sur ces fameuses requêtes-test, Yahoo retourne beaucoup moins de déchets que son concurrent. C'est plutôt à mettre au crédit du moteur, mais en tous cas, ce mécanisme empêche totalement la moindre extrapolation des résultats observés à la taille globale de l'index. Voilà donc une troisième raison pour laquelle je peux affirmer que les chercheurs du NCSA n'ont rien démontré du tout, si ce n'est que Google indexe très bien le spam, et ispell!

Ces collègues ont dû être bien embêtés de lire mes critiques relayées par le NY Times, et celles d'autres bloggeurs (ici). Pendant que je rédigeais ce billet, Serge Courrier [qui m'interviewait pour 01net] m'a fait remarquer qu'ils ont modifié leur page, et ont enlevé cette réserve méthodologique sur le filtrage. Donc ils se sont rendus compte de leur bourde, mais au lieu d'annuler leur étude (tout le monde peut se tromper, ne leur jetons pas la pierre), ils ont préféré supprimer des précautions méthodologiques qui les honoraient. C'est une façon de faire. Pas celle que j'aurais choisie...


Nouveaux développements

22 aoû -- Les gens du NCSA admettent les erreurs et publient un démenti
23 aoû -- Une nouvelle version de l'étude est mise en ligne

Lire les détails: Yahoo: Pages manquantes? (4)

Libellés :


10 Commentaires:

Blogger Jérôme Charron a écrit...

Les chercheurs du NCSA ont tout de même un mérite: ils ont réellement compté les résultats retournés par Google et Yahoo! plutôt que de se contenter de lire l'estimation fournie par les moteurs sur la première page de recherche comme le font beaucoup "d'études" un peu attives.

Quoi qu'il en soit, Jean, vous illustrez une fois de plus avec brio, qu'il est malheureusement nécessaire de faire du reverse engineering (à la manière d'un hacker) pour tenter de comprendre les résultats fournis pour nos chers moteurs commerciaux!!!

18 août, 2005 13:55  
Blogger Marianne a écrit...

Je suis convaincue. Merci !!

18 août, 2005 14:22  
Blogger Chris W a écrit...

C'est un véritable roman policier ici. Encore merci.

Vous expliquez aussi pourquoi j'ai été incapable de reproduire la diminution du nombre des résultats affichés : je règle toujours les options de sorte que le premier écran affiche 100 résultats. La première estimation appliquée est alors déjà plus proche du résultat après-filtrage total.

18 août, 2005 17:59  
Blogger Eric Baillargeon a écrit...

> L'hypothèse la plus probable est justement celle d'un filtrage des résultats à chaque requête...

Ce n'est pas une hypothèse chez Yahoo. Jeremy Zawodny de Yahoo le mentionne clairement dans son billet sur toute cette polémique :
You know, we index those too. But we filter 'em out because they're pretty useless.I'm not sure why Google thinks those are good pages to include, but hey--it boosts the numbers! Our algorithms manage to suppress such pages and I doubt anyone misses them.

Par contre quelques autres observateurs ont tout de même retrouvés ce type de page dans l'index de Yahoo !

18 août, 2005 19:51  
Anonymous Olivier G. a écrit...

"si ce n'est que Google indexe très bien le spam, et ispell!" Ou encore que Google ne donne pas les pages filtrées dans le total de résultat, contrairement à Yahoo qui les retire à postériori.

19 août, 2005 12:07  
Blogger Jean Véronis a écrit...

Olivier G.> Google ne donne pas les pages filtrées dans le total de résultat, contrairement à Yahoo qui les retire à postériori Les deux moteurs filtrent a priori et a posteriori. Mais google laisse passer beaucoup plus de spam (et de copies d'ispell) que Yahoo.

19 août, 2005 12:16  
Anonymous Jérôme k a écrit...

Il reste quand même une réserve dans l'histoire...
Je reprends le test sur "azoïque".
Sur une requête normale j'obtiens 2480 résultats. Mais lorsque je lui dit d'afficher 100 résultats par page, il n'en reste plus que 2390. Et comble d'illogisme, quand sur cette même requête à 100 résultats par page je lui demande d'afficher les résultats omis, il ne reste plus que 2320 résultats!!!
Donc il y a quand même un gros problème de calcul chez yahoo, car le fait d'ajouter des résultats omis ne peut en aucun cas donner un nombre inférieur de résultats...

La copie est donc à revoir pour tout le monde : yahoo pour ses calculs, et les observateur pour leurs commentaires. Il ne s'agit pas seulement d'une question de filtrage, il ne s'agit pas non plus d'un bluf sur la taille de l'index. Il s'agit aussi d'une incohérence totale du choix des résultats affichés.

19 août, 2005 13:44  
Blogger Jean Véronis a écrit...

Jérome k> Oui, mais attention, dans les deux cas, ce qui apparaît sur la première page est une estimation, pas un nombre exact. Or 1) l'échantillon sur laquelle l'estimation est basée n'est pas le même dans les deux cas (ce que j'appelle m dans mon billet est différent ; 2) la formule d'estimation n'est peut-être pas la même avec et sans duplications (il serait logique qu'elle ne le soit pas).

19 août, 2005 14:02  
Anonymous Emmanuel Barthe a écrit...

Je travaille comme documentaliste juridique. Je fais des recherches de documents et informations juridiques tous les jours sur le Web et franchement, je continue à trouver les 30 premiers résultats de Google plus pertinents que ceux de Yahoo, dans 9 cas sur 10. Et ça se vérifie dans d'autres domaines que le droit.

Je comprend la conclusion de Jean Véronis, mais attention à ne pas en déduire que la pertinence des résultats de Google est inférieure à celle de Yahoo. Ce n'est pas parce que Google "gonfle" son index avec des pages de spam que pour autant ses 30 premiers résultats ne sont pas pertinents.

20 octobre, 2005 22:26  
Blogger Jean Véronis a écrit...

Emmanuel> Vous avez raison de souligner ce point. La discussion ici ne porte que sur la taille d'index et sur les mots-clés de petites fréquences (sur lesquelles la taille d'index a une incidence manifeste: pas indexé, pas retourné!). Je n'ai à aucun moment pris position sur la pertinence des résultats retournés par Google ou Yahoo sur des mots-clés plus fréquents.

Merci!

21 octobre, 2005 08:58  

Enregistrer un commentaire

mercredi, août 17, 2005

Ego: Le grand Prof. Aixtal dans le New York Times

J'étais déjà assez content que mes modestes élucubrations linguistico-informatiques retiennent l'attention du Monde ou d'Europe 1, mais être cité par le New York Times [copie ici] c'est carrément la classe...


Le grand Professeur Aixtal dans son atelier
David Bailly (1651) - Stedelijk Museum De Lakenhal


20 Commentaires:

Blogger all a écrit...

C'est carrément la gloire :
Herald Tribune
Félicitations

17 août, 2005 14:25  
Anonymous céline a écrit...

Bravo ! Tu le mérites largement.

17 août, 2005 14:54  
Blogger Jérôme Charron a écrit...

C'est en effet très largement mérité.
En revanche, le NYT pourrait placer des liens dans ses pages Web, histoire de faire un peu d'hypertexte...

17 août, 2005 15:46  
Blogger Chris W a écrit...

[Et moi je croyais que « Aixtal » était un composé de la ville de Aix et du mot allemand Tal, c-à-d vallée... ]

Félicitations !

17 août, 2005 16:00  
Anonymous Tempus a écrit...

Féliciations ! Merci pour votre travail de qualité !

17 août, 2005 16:47  
Anonymous setim a écrit...

Il est très doux que la vanité se moque d'elle même.

18 août, 2005 09:48  
Anonymous np a écrit...

"15 minutes of fame" ;-)

18 août, 2005 12:43  
Blogger Jean Véronis a écrit...

np> Ah, un fan d'Andy Wharol ;-)

18 août, 2005 13:31  
Blogger Loran Bernardi a écrit...

Bravo!!
Et merci aussi pour la pointe d'humour qui permet la découverte du site passionnant de Karine Lanini.

18 août, 2005 14:08  
Blogger lagroue a écrit...

Le bon travail se voit récompensé !

Je suis en train de calculer des "distances google" entre musiciens, et cette page recense l'avancement des travaux. Tout n'est pas encore calculé parce que les API Google et Yahoo ne se laissent pas pomper à tire-larigot. Et j'aurai encore tout un tas de stats à faire dessus.

Pour une requête donnée, je n'utilise que le nombre de résultats retournés par Google et Yahoo. Je n'ai pas le temps d'aller jusqu'à la dernière page des résultats pour compter le "vrai" nombre, contrairement à ce qui se fait par ici. Ce n'est pas à la main qu'on fait des dizaines de milliers de requêtes.

Bref - au vu des quelques résultats intermédiaies, j'ai l'impression que Yahoo soigne son estimation, alors que Google y va à grand coups de tiens voilà du boudin. En effet j'ai trop de classements d'artistes significatifs calculés avec Yahoo pour que ses chiffres ne soient pas utilisables ; et plutôt.. pas assez avec Google.

18 août, 2005 21:04  
Blogger lagroue a écrit...

Je crois m'être trompé de billet...

18 août, 2005 21:08  
Anonymous Sylvain a écrit...

Les journalistes liraient ils les blogs pour préparer leurs articles ? Voilà de quoi relancer un certain débat vieux de quelques mois : les bloggeurs sont ils des journalistes ou seulemnt une source d'informations ?

18 août, 2005 23:14  
Blogger Jean Véronis a écrit...

Sylvain> Les journalistes liraient ils les blogs pour préparer leurs articles ? -- De plus en plus, apparemment! Mais ils n'ont sans doute pas tort. C'est une source d'information comme une autre...

les bloggeurs sont ils des journalistes ou seulemnt une source d'informations ? -- Je présume que ça dépend des bloggueurs. Moi, je ne me sens pas journaliste. Analyste, commentateur, peut-être ; amuseur, parfois (j'espère)... En tous cas, j'y trouve une façon de faire mon métier d'universitaire (faire réfléchir, faire avancer la connaissance) d'une façon nouvelle et bien intéressante.

19 août, 2005 08:36  
Blogger Vicnent 31415 a écrit...

La gloire !
Félicitations...
je ne sais pas si je suis compétent pour dire que c'est mérité, mais voilà une ouverture qui devrait ramener des lecteurs, donc, de la critique, donc, de quoi faire mieux demain. MAis est ce possible ? ;-))
Merci.

19 août, 2005 10:35  
Blogger Jean Véronis a écrit...

Vicnent 31415> voilà une ouverture qui devrait ramener des lecteurs En fait, c'est ça qui est rigolo: à chacun de ces passages médiatiques (y compris le NY Times), je n'ai constaté qu'une augmentation extrêmement réduite de la fréquentation. Quelques dizaines de curieux le jour qui suit, et puis tout s'éteint... "np" a raison ci-dessus ("15 minutes of fame...").

Mais peu importe, je m'en amuse plutôt: je ne cherche ni la gloire ni la fréquentation à tout prix. La fréquentation massive amène plutôt une dégradation de la qualité des commentaires: les discussions sur Slashdot (dont celle récemment sur Yahoo vs. Google) sont assez souvent indigentes...

19 août, 2005 10:43  
Anonymous Anonyme a écrit...

La faiblesse des fréquentations après un coup de projecteur prouve peut-être qu'Internet ressemble globalement plus à une télévision qu'à une bibliothèque : on zappe sur les gros titres amusants mais on ne va pas vérifier les notes en bas de pages. Pour vraiment être célèbre il faudrait, je suppose, démontrer l'index des moteurs de recherche pointe en fait en priorité sur les sites charmants, les sites qui mentent et tout ce qui fait le moins possible mal à la tête.

Félicitations pour ce site en tout cas.

21 août, 2005 21:46  
Anonymous Christophe a écrit...

C'est peut-être moins glorieux, mais on parle aussi de vous, Jean, sur le blog de Daniel Schneiderman.

22 août, 2005 18:47  
Anonymous Christophe a écrit...

Punaise, voilà que vous êtes slashdotté ! Tous aux abris !

22 août, 2005 18:51  
Anonymous Orlando a écrit...

Vous fûtes portraituré en 1651?

Je vous aurais cru moins vieux!-)

(Mais bravo quand même, c'est amplement mérité - l'article comme le tableau, d'ailleurs!)

23 août, 2005 12:01  
Anonymous sarak a écrit...

bravo professeur,
cette nouvelle me redonne un peu d'espoir quant à la curiosité d'esprit des journalistes : tout n'est pas perdu s'ils s'intéressent à vos travaux !

07 septembre, 2005 10:36  

Enregistrer un commentaire

mardi, août 16, 2005

Yahoo: Missing pages? (2)



Since I published the first part of this study, the affair of Yahoo's missing pages has caused quite a stir. Google has announced that its researchers don't believe the figures announced by its competitor (see here), and a detailed study carried out by the NCSA (University of Illinois at Urbana-Champaign) seems to confirm quite clearly the phenomenon that I described in my previous post: for searches that return fewer than 1000 pages, Google systematically returns more results than Yahoo, which seems to contradict the idea that Yahoo's index is two and a half times the size of Google's [23 Aug -- The NCSA has issued a strong disclamer and the study has been revised; see original version and details].



Unfortunately, the study carried out by the researchers at the NCSA has several shortcomings. Firstly, as I showed in my previous post, Yahoo's indexing of long documents is nowhere near as deep as Google's. As a result, even if Yahoo is not lying about the size of its index in terms of the number of documents, this could partly explain the smaller number of documents returned for certain search requests. Sometimes, the document may well be in the database, but it cannot found by key words that do not appear at the beginning of the document. This is the case, for instance, for the pdf document "Depression and soul-loss" in pdf format, which is returned by Google when searching for inabilities hydrocephalic, but which is not returned by Yahoo for the same search, despite the fact that it is in Yahoo's database (see here).



However, the NCSA study contains an even more worrying error in its methodology, which completely invalidates its conclusions. The authors chose words at random from the compter dictionary ispell and typed them in pairs into the two search engines. This is an absurd strategy, for the chances of real documents containing two words chosen at random from a very large dictionary are virtually zero. The researchers in question are almost certain to find more artefacts (lists of words and spam) than anything else. If one of the two search engines produces fewer of these, we can but salute its filtering mechanism; in no way can we extrapolate these figures to make comments about its behaviour in general and about the size of its index.

We can see, for instance, that for the first search carried out by the NCSA researchers - carbolization clambers - the only results returned by Google (and which Yahoo does not find) are pages consisting of simple lists of words, most of which seem to be copies of the ispell dictionary itself.

The following document is a typical example:
It consists of a 1.3 MB file containing 134,175 words that seems to be a copy of ispell. It is not returned by Yahoo for the same search and indeed doesn't seem to figure in the Yahoo database. The Yahoo database, on the other hand, does contain five other (apparently identical) documents that Google does not contain (found via the search wspears dictionary site:www.cs.uwyo.edu):
It is interesting to note that these documents are the only ones among the 29 returned by my search that are not indexed in the Yahoo database, which only includes their URL. Either Yahoo recognises, for instance from a signature calculation, that this is the ispell dictionary, or else it has a filter that allows it to detect documents that are merely lists of words (which is not too difficult to imagine). This is a perfectly intelligent behaviour, and much to the search engine's credit.

Readers can consult the list of search terms provided by the authors, and can see for themselves that, in the vast majority of cases retained (i.e. those with fewer than 1000 results), the results in question are lists and spam. Results that prove to be an exception to this rule, such as cultist email, have been eliminated by the authors because they return more than 1000 results.

By carrying out their research in this way, the NCSA researchers have shown just one thing: that Google has a greater capacity to index lists of words, including the ispell dictionary, and spam. In no way does it prove that the Yahoo index is smaller (in terms of number of documents indexed) than that of Google.

Quite the contrary; if we look at the same sites as those where Yahoo "forgets" the copies of ispell, we can see how it generally indexes a far higher number of relevant documents than its competitor. For example, on the site www.cs.uwyo.edu mentioned above, Yahoo announces 1630 results for the search wspears site:www.cs.uwyo.edu, and I checked that the first 1000 really do exist. Google only returns 289 (or 249 if we exclude "similar results"). In fact, from about the 200th result onwards, the results returned are simply URLs where the content is not indexed, while the first 1000 in Yahoo are all indexed. Here, we have a factor of 5 to 1 in favour of Yahoo ...

The NCSA study contains another considerable bias, which the authors themselves are aware of, since they quite wisely present their working assumptions right at the beginning of their article:
The study operates under two working assumptions. The first is that both the Yahoo! and the Google search engine return all the results that match the particular keywords and does not do any filtering beyond removing duplicate results.
The thing is, everything seems to suggest that these conditions are not respected. I will demonstrate, in the third part of this article, how this problem invalidates the NCSA study and others of a similar nature.



Post-Scriptum

18 Aug -- Very interestingly the authors have just modified their text and have deleted the phrase "and does not do any filtering beyond removing duplicate results"... [thanks to Serge Courrier who alerted me about this modification]


Follow-up


Libellés :


7 Commentaires:

Anonymous Anonyme a écrit...

All you have to say is certainly interesting. It seems that Google and Yahoo have distinctly different views on what a user should see in his results. Google seems to search documents more by simple words contained in the document, where, it seems, that Yahoo tries to return pages that are on the subject of the user's query.

Very interesting indeed. Keep up the blog,

Aryeh Hillman
thenewcloo at gmail dot com

22 août, 2005 18:39  
Blogger Surreal Dreams a écrit...

I question your problem with Google results. You suggest that because the word selection is arbitrary, it's likely that spam pages or dictionary pages are all the Google finds, yet Yahoo finds nothing. Isn't it more important that the engine finds something, even if it may not be relevant, vs. finding nothing at all?

Frank - Surreal Dreams

22 août, 2005 19:48  
Blogger Jean Véronis a écrit...

Frank (Surreal dreams)> I guess it's a matter of taste. Many people seem to emphasize that relevance is indeed what matters, though.

22 août, 2005 20:20  
Anonymous Anonyme a écrit...

The problem when searching is that you want relivant results. I will NEVER go through 1000 results on a search.

Keep in mind, just because an engine returns more results doesn't mean that they're relivant results. It all depends on how and what you're searching for.

For the most part, what I'm looking for is nearly identical between searching Yahoo and Google. I tend to favor Google when searching for technical information, and favor Yahoo on localized information (i.e. resturant menus, etc..). There's no rhyme or reason for this methodology, but all I can say is that I don't see a huge difference between the two.

Great article.

22 août, 2005 22:28  
Anonymous Anonyme a écrit...

Note that for the search "wspears dictionary site:www.cs.uwyo.edu", Yahoo does not at all need to have the 5 results indexd. It might have seen links to them, and maybe stored the URL. That is enough to fulfill the search you did.

However, saying that a file is in the index, simply because you know the URL, wouldn't be fair. So while it MIGHT be that yahoo detected the files as ispell-dictionarys or spam or anything, it might have well simply not DL'ed them.

22 août, 2005 22:40  
Anonymous Anonyme a écrit...

It is interesting to note that there is a new version of the study which addresses the dictionary problem:
http://vburton.ncsa.uiuc.edu/indexsize.html

This version shows Google "wins" 84% of the time, and returns 65% more results on average.

23 août, 2005 00:13  
Blogger Surreal Dreams a écrit...

I have to admit, I'm a Google fan and user. I used Yahoo! years ago, but once I discovered just how relevant Google's results were, I've rarely used another engine.

I wouldn't dare argue that quantity of results is more important than relevancy - I hope I didn't come across that way. I think I can rephrase what I meant to say the first time: 0 results are 0% relevant.

Now that I think about it, I'd rather search the index of 50% fewer if the search results are more relevant. Unless I'm looking for a broad selection of results, I almost never have to leave that first page of Google results, and that's why I keep coming back.

Frank - Surreal Dreams

23 août, 2005 21:31  

Yahoo: Pages manquantes? (2)



Depuis que j'ai publié la première partie de cette étude, l'affaire des pages manquantes de Yahoo fait grand bruit. Google a annoncé que ses chercheurs ne croyaient pas aux chiffres annoncés par leur concurrent (voir ici), et une étude détaillée du NCSA (University of Illinois at Urbana-Champaign) semble confirmer de façon très claire le phénomène que je décrivais dans mon précédent billet: sur des requêtes qui retournent moins de 1000 pages, Google renvoie systématiquement plus de résultats que Yahoo, ce qui semble contredire le fait que son index serait deux fois et demie plus important que celui de Google. [23 août -- Le NCSA a émis de fortes réserves sur l'étude, et une nouvelle version a été publiée; voir version originale et détails]



Malheureusement l'étude des chercheurs du NCSA pêche par plusieurs aspects. Tout d'abord, comme je l'ai montré dans ma première partie, Yahoo indexe beaucoup moins profondément les documents longs. Par conséquent, même si Yahoo ne ment pas sur la taille de son index en nombre de documents, cela peut expliquer partiellement le plus petit nombre de documents retournés sur certaines requêtes. Le document est parfois bien dans la base, mais il n'est pas accessible par des mots clés qui n'apparaissent pas dans son début. C'est le cas par exemple du document "Depression and soul-loss" au format pdf, que retourne Google sur la requête inabilities hydrocephalic, mais que ne retourne pas Yahoo sur la même requête, bien qu'il soit dans sa base (ici).


Toutefois, l'étude du NCSA contient une erreur méthodologique bien plus profonde, qui invalide totalement ses conclusions. Les auteurs ont tiré au sort des mots du dictionnaire informatique ispell et les ont présentés par couples aux deux moteurs de recherche. Cette façon de procéder conduit à une absurdité, car les chances que de vrais documents contiennent deux mots tirés au hasard dans un très gros dictionnaire sont à peu près nulles. Les chercheurs en question sont quasiment assurés de ramener une majorité d'artefacts (listes de mots et spam). Si l'un des deux moteurs en ramène moins, on ne peut que louer son mécanisme de filtrage, et en aucun cas extrapoler les chiffres obtenus à son comportement général et à la taille de son index.

On remarquera par exemple que sur la première requête utilisée par les chercheurs du NCSA, carbolization clambers, les seuls résultats ramenés par Google (et que ne ramène pas Yahoo) sont des pages consistant en de simples listes de mots -- dont la plupart semble être des copies du dictionnaire ispell lui-même.

Le document suivant est caractéristique:
Il est constitué par un fichier de 1,3 Mo, qui comporte 134175 mots et semble être une copie d'ispell. Il n'est pas retrouvé par Yahoo sur la même requête et il semble bien ne pas figurer dans la base de données de ce moteur. Par contre, la base de données Yahoo contient cinq autres documents (apparemment identiques) que ne contient pas Google (via la requête wspears dictionary site:www.cs.uwyo.edu):
Il est intéressant de noter que ces documents sont les seuls parmi les 29 retournés par ma requête à n'être pas indexés dans la base Yahoo, et que seule leur URL y figure. Soit Yahoo reconnaît, par exemple à travers un calcul de signature quelconque qu'il s'agit du dictionnaire ispell, soit il possède un filtre lui permettant de détecter les documents qui sont de simples listes de mots (ce n'est pas très compliqué à imaginer). C'est un comportement parfaitement intelligent, qui est à mettre au crédit du moteur!

Le lecteur pourra consulter la liste de requêtes fournies par les auteurs, et pourra vérifier que, dans une écrasante majorité des cas retenus (c'est-à-dire ceux ramenant moins de 1000 résultats), les résultats en question sont des listes et du spam. Les requêtes qui échapperaient à cette règle comme cultist email ont justement été éliminées par les auteurs parce qu'elles retournent plus de 1000 résultats.

En procédant ainsi, les chercheurs du NCSA n'ont démontré qu'une chose: la capacité supérieure de Google à indexer des listes de mots dont le dictionnaire ispell, et du spam. Ils n'ont en aucun cas apporté la preuve que l'index de Yahoo serait plus petit (en nombre de documents indexés) que celui de Google.

Bien au contraire, si l'on regarde les même sites que ceux où Yahoo "oublie" les copies d'ispell, on s'aperçoit qu'il indexe généralement beaucoup plus de documents pertinents que son concurrent. Par exemple, sur le site www.cs.uwyo.edu mentionné précédemment, Yahoo annonce 1630 résultats pour la requête wspears site:www.cs.uwyo.edu, et j'ai vérifié que les 1000 premiers existent bien. Google n'en retourne que 289 (dont 249 en omettant les "résultats similaires"). En fait à partir du 200ème environ, il s'agit de simples URLs dont le contenu n'est pas indexé, alors que les 1000 premiers de Yahoo sont indexés. On a un facteur 5 en faveur de Yahoo...


L'étude du NCSA contient un autre biais considérable, que les auteurs pressentent, puisqu'ils donnent prudemment leurs hypothèses de travail en début de leur article:
The study operates under two working assumptions. The first is that both the Yahoo! and the Google search engine return all the results that match the particular keywords and does not do any filtering beyond removing duplicate results.
C'est justement là que le bât blesse, car tout indique que ces conditions ne sont pas respectées. Je montrerai dans la troisième partie de cette article que ce problème finit d'invalider l'étude des chercheurs du NCSA, et des études du même type.


Post-Scriptum


18 août -- De façon très intéressante, les auteurs viennent de réviser leur texte et d'enlever la partie "and does not do any filtering beyond removing duplicate results"... [merci à Serge Courrier qui vient de me signaler cette modif]


Lire la suite


Libellés :


7 Commentaires:

Blogger Eric Baillargeon a écrit...

Effectivement cette étude est une pure abhération.

Dans mon cas, en utilisant des requêtes comportant un seul mot, ou des noms composés de petit village entre guillemet, en français pour évitez le spam des sites de B&B et des portails verticaux de tourisme, j'arrive à environ de 25 à 35% de résultats de plus sur Yahoo!

http://inlogicalbearer.blogspot.com/2005/08/yahoo-index-size-25-to-35-bigger-than.html

16 août, 2005 17:28  
Anonymous Anonyme a écrit...

Concernant la requéte wspears site:www.cs.uwyo.edu,
Si l'idée d'une tel requéte est de trouver le contact William Spears, on le trouve sur le premier lien de Google, ce qui n'est pas le cas avec Yahoo.

17 août, 2005 04:47  
Anonymous Anonyme a écrit...

oops non elle apparait chez Yahoo en 55ieme position.
http://www.langreiter.com/exec/yahoo-vs-google.html?q=wspears++site%3Awww.cs.uwyo.edu

17 août, 2005 04:52  
Blogger Jean Véronis a écrit...

Si l'idée d'une tel requéte est de trouver le contact William Spears... Dans ce cas on taperait plutôt:

william spears site:www.cs.uwyo.edu

La page perso de William Spears sort première chez les deux moteurs.

Mais l'évaluation de la pertinence est une autre histoire (difficile!). La question à laquelle j'essaie de répondre est celle de la taille d'index: mensonge ou pas.

17 août, 2005 08:43  
Blogger Vicnent 31415 a écrit...

comment une étude, qualifiée de détaillée, de surcroit faite par une université (University of Illinois at Urbana-Champaign) peut elle être aussi biaisée ??? C'est dingue non ??!!!

17 août, 2005 09:43  
Anonymous Nono a écrit...

Et pas UNE université, Vicnent 31415, le NCSA de l'UIUC est une légende du Web : inventeur du premier navigateur graphique (Mosaïc) et du premier serveur HTTP, rien que ça ! Comme quoi tout le monde peut se tromper... surtout en allant un peu trop vite. Ou tout simplement ils sont plus forts en super-calcul (leur spécialité quand même) qu'en évidences linguistiques...

17 août, 2005 17:01  
Anonymous Christophe a écrit...

Bonjour,
L'auteur de de ce blog, Infothought, http://sethf.com/infothought/blog/archives/000899.html remarque aussi "l'erreur méthodologique" relative aux listes de mots. Par contre, selon Slashdot ce problème de liste de mots n'a que peu d'impact et les conclusions de l'étude leur semblent exactes. http://slashdot.org/comments.pl?sid=159082&cid=13323888
Mais pourquoi donc l'index de Yahoo! "contiendrait " l'index de Google ? ;-)
Au-delà de la taille des index traitée ici, je me réjouis, en tant que veilleur notamment, que Yahoo! ne retourne pas toujours les mêmes résultats que Google. Les 2 index se chevauchent de moins en moins et obtenir davantage de résultats uniques enrichit les découvertes. Idem pour AskJeeves, sur lequel j'avais un à priori de résultats essentiellement américains. Ils dominent , il est vrai, mais les résultats francophones sont très souvent "uniques" par rapport à Google ou Yahoo! Search.
Jux 2 était un outil qui montrait assez bien en "live" ce phénomène de résultats uniques ou sinon de résultats présents pour un moteur sur sa 1ere page, pour l'autre sur sa 9ème. Dogpile propose une approche un peu semblable mais moins puissante. http://influx.joueb.com/news/152.shtml
Reste GahooYoogle http://www.gahooyoogle.com
Alors, même si l'index de Yahoo! est finalement moins important qu'annoncé, mes recherches quotidiennes et celle de mon équipe prouve que ce moteur apporte des résultats notablement différents voire supérieures qualitativement et quantitativement sur certains secteurs. Je parle ici davantage de veille technologique ou scientifique que de recherches grand public du type "voyages" ou "immobilier".

En tout les cas, l'objectif semble atteint pour Yahoo! A partir d'un simple post sur son blog en plein mois d'août et en pleine conférence SES, le buzz est énorme dans un monde Googlisé !

Christophe.
Resp. Veille Internet Digimind.

17 août, 2005 22:46  

Enregistrer un commentaire

lundi, août 15, 2005

Lexique: Somptueuse Assomption

En ce lundi du 15 août, Fuligineuse nous fait remarquer qu'il y a deux mots pour monter au ciel: l'Ascension, et l'Assomption. Le mot ascension nous est familier, mais assomption est un peu curieux. Les Grecs orthodoxes parlent de la Dormition de la Mère de Dieu (Κοίμηση της Θεοτόκου, koinesis tis theotokou), nous rappelant que la Vierge Marie est censée être morte sans souffrir, rejoignant le sommeil éternel dans la paix intérieure. Alors, l'Assomption serait-elle une façon de piquer un petit somme pour l'éternité?



Eh bien non, pas du tout! Tout d'abord, il y a trois mots somme en français. Le somme provient comme son cousin sommeil, du dieu Somnus, l'équivalent romain du grec Hypnos, frère jumeau de Thanatos, le dieu de la mort (tiens, quand on parle du sommeil éternel...). Quant à la somme, elle se dédouble. Provenant de summus, le point le plus élevé, elle désigne le résultat d'une addition, et s'apparente à sommet, sommité, summum. Provenant de sagma, la charge, le bât, elle désigne, sous l'expression bête de somme, l'animal qui porte les fardeaux.

Assomption provient de ad+sumere, prendre avec soi, s'adjoindre quelqu'un, quelque chose. On retrouve cette étymologie dans assumer. En logique, c'est le fait d'ajouter une hypothèse dans un raisonnement -- en anglais, assumption a encore ce sens, et to assume veut dire supposer. La théologie est subtile: le Christ a fait l'Ascension tout seul, mais Marie a été aidée. Dieu le Père s'est adjoint sa présence.

Alors voilà, dites-vous, on retrouve l'idée de la somme-addition... Raté. Les mots sont farceurs, et sumere n'a rien à voir avec l'addition. Il provient de sub (sous) + emere, prendre (en particulier contre de l'argent, acheter). On en a tiré sompteux, qui avait au départ le sens de coûteux (et l'a toujours d'une certaine manière). Somptueuse Assomption... Les deux mots sont ainsi cousins.

Je ne voudrais pas être assommant, mais la confusion est encore plus grande. Les dictionnaires donnent généralement le verbe assommer comme provenant du somme-dodo. La piste est bonne: assommer quelqu'un c'est le faire dormir. Sauf que le mot avait au départ le sens d'abattement moral, et n'a pris qu'ensuite le sens de tuer, puis celui d'endormir brusquement. Certains pensent qu'il provient en fait de sagma, la bête de somme. Assommer ce serait alors accabler sous un fardeau. J'aime bien cette piste: le mot aurait dérivé de sens par contagion étymologique avec le somme-dodo. Je le disais il y a quelque temps, en matière de lexique les arbres généalogiques tiennent du banian...

En tous cas, attention, l'étymologie est un produit à consommer avec modération...

6 Commentaires:

Anonymous Anonyme a écrit...

Il me semble bien que la Dormition de la Vierge signifie justement qu'elle n'est jamais morte ; son sommeil n'était pas éternel, juste une manière de sas moelleux pour pouvoir passer de l'ici-bas des mortels à l'éternité céleste qui l'attendait.
En fait, si je ne me trompe pas elle a fait mieux que son divin fiston, puisqu'elle n'a donc même pas eu à mourir pour rejoindre le Père éternel…
Sous réserve d'infirmation par un théologien je crois bien qu'elle est le seul être humain à n'être jamais mort de toute l'histoire du monde !

15 août, 2005 16:58  
Blogger all a écrit...

Le dogme remonte à 1950 (Pie XII) selon Wikipedia.
C'est notre seule divinité féminine alors autant adorer la Vierge le 15 Août -quand on est catholique. Bien qu'à la Bonne Mère il n'y ait pas que des catholiques qui viennent la supplier.

15 août, 2005 18:21  
Anonymous Lully a écrit...

Il me semble nécessaire de préciser quelques points théologiques.
Selon la Bible, la Vierge n'est pas la seule à n'être jamais morte : Elie a été enlevé au ciel sur un char de feu, sous les yeux de son disciple Elisée. Son retour est encore attendu (et cette non-mort explique que l'on ait pu prendre Jean-Baptiste, selon les Evangiles, comme étant Elie revenu sur terre).
Le dogme remonte effectivement au XIXe siècle. Mais les débats portant sur l'Immaculée Conception (le fait que la Vierge n'a pas hérité du péché originel , qu'elle ait été conçue sans pêché, "immaculée", lui permet d'échapper à la mort, qui est la conséquence de ce péché) naissent au XIIe siècle (la preuve : saint Bernard était contre).
Si en 2225 le pape décide que l'authenticité du linceul de Turin est un dogme, il faut espérer que les historiens du 24e siècle n'en concluront pas que le culte de ce linceul date du 23e siècle...

16 août, 2005 10:57  
Anonymous Anonyme a écrit...

C'est vrai, j'avais oublié Elie… et maintenant que j'y réfléchis le Club des Éternels peut être augmenté encore, car Hénoch n'est pas mort non plus !
Dans le "Livre des générations d'Adam" (Genèse, V) tous les patriarches meurent sauf lui dont la vie s'achève par cette phrase mystérieuse "Puis Hénoch marcha en compagnie de l'Élohim et il ne fut plus, car Élohim l'avait pris" (V,24/éd. Dhorme)
Par ailleurs en Islam chiite il y a aussi l'Imam caché ou Imam des Temps qui reviendra à la fin des temps mais n'est pas mort non plus.
Tout cela nous éloigne un peu de l'étymologie de l'assomption mais pas tant que ça en fait…
Une question d'ailleurs. D'où vient l'idée courante que "religion" était étymologiquement "ce qui relie" ?
Parce que le TLFI donne :
"Empr. au lat. religio « attention scrupuleuse; conscience »; spéc. « scrupule religieux, sentiment religieux, crainte pieuse; vénération, pratique religieuse, culte; croyance religieuse, religion » et « caractère sacré; engagement sacré; chose sainte, objet sacré »"
Moi qui ne suis (plus) latiniste je m'interroge…

16 août, 2005 12:44  
Blogger Jean Véronis a écrit...

D'où vient l'idée courante que "religion" était étymologiquement "ce qui relie" ? > Le dictionaire historique d'Alain Rey discute de cette histoire. Une hypothèse qui remonte à Lactance et Tertullien fait dériver religion de re+ligare (relier).

Mais cette hypothèse paraît assez peu étayée. En fait Cicéron, qui était plus près des faits, dit que le mot religio serait proviendrait de re+legere (recueillir).

C'est beau en tous cas que les auteurs chrétiens aient essayé de voir dans la religion ce qui unit, car malheureusement, c'est plutôt souvent ce qui divise (cf. la Palestine, l'Irlange, l'ex-Yougoslavie...).

16 août, 2005 13:10  
Anonymous Orlando a écrit...

Somptueux dans le sens de coûteux a comme cousin somptuaire, je crois?

23 août, 2005 11:57  

Enregistrer un commentaire

dimanche, août 14, 2005

Yahoo: Missing pages? (1)



Following the latest announcement by Yahoo about the size of its index (nearly 20 billion pages), various web surfers have noticed that the numbers don't quite add up ... In a comment on my previous post, Béatrice Foenix-Riou points out that, for instance, if we search for the French term azoïque ("azoic"), Yahoo promises us 2380 results, but this figure decreases as we make our way through the pages of results and, in the end, we only get 329 ...




Yahoo tells us: "In order to show you the most relevant results, we have omitted some entries very similar to the ones already displayed. If you like, you can repeat the search with the omitted results included." Google does pretty much the same thing. Since many sites contain identical or virtually identical versions of the same document, this seems like a good idea ... The problem, as Béatrice notes, is that even when you repeat the search, you still only get 576 results. She asks - quite rightly - what has happened to the missing pages (of which there are a mere 1804!) ...

For the same search, Google returns 360 de-duped results (i.e. if we omit "similar documents"), and 623 after repeating the research to include pages with similar content; in both cases, more than Yahoo, despite having an index which Google itself admits is less than half the size of Yahoo's. Charlene Li of Forrester Research draws my attention to the same problem (and develops the idea here), and Aki provides us with a detailed analysis on his blog. The conclusion reached by certain commentators is that Yahoo is "tricking" us too ...

Now, I feel no particular goodwill towards Yahoo, and you must surely have noticed the question mark in the title of my post announcing the increase in the size of its index ;-) I've been wondering about this since March, when Yahoo doubled its figures from one day to the next in an inexplicably perfect manner [here] ... I would be the first to denounce such flagrant trickery if I had solid evidence. But I don't believe that, based on these observations, we can claim that Yahoo is lying to us about the size of its index.



Firstly, let's be clear. The term "index size" is a little ambiguous. When Yahoo announces proudly that it is indexing nearly 20 billion pages or documents, we don't know how many words are being indexed. Yahoo could, paradoxically, be indexing fewer words than a search engine that claims to index 8 billion pages. Yet words are what we type into a search engine and are the sole link between a search engine and the pages themselves ... One of the fundamental reasons for this difference lies in just how big a "slice" of a document is really indexed by the search engine. The Web contains some pretty big documents, and search engines limit their indexing to just a part of these documents, the size of which may vary. Google had a famous limit of 101K, which was abolished in January 2005 [see here] - but no-one really knows what the new limit might be.

This is particularly noticeable when it comes to pdf files (theses, reports, etc.) that may be several hundred pages long. Apparently, Yahoo seems to be indexing a much smaller part of these documents than Google. Take the following example. The search term "azoïque" suggested by Béatrice, in Google, returns a particularly relevant pdf document, a thesis on organic chemistry from the école Polytechnique. This document is not returned by Yahoo for the same search request. Yet the document is in Yahoo's database, as can be seen if we search for its title: "Principes de chimie radicalaire" ("Principles of radicalar chemistry").

The problem is, this word appears for the first time on page 16, after only 15,200 characters, but Yahoo hasn't indexed it. Google, on the other hand, hangs in there until around page 68 (it doesn't find "glycinate" on page 69 but finds "chlorosuccinimide" on page 68, which is 86,600 characters from the start ...) This can be seen quite clearly in the cached HTML version.

Undoubtedly, this explains why Yahoo, even if it stores a larger total number of pdf documents than Google, finds fewer of them for a given search such as "azoïque". In this specific case, Yahoo only finds 77 de-duped pdf documents containing this word compared to 124 for Google. The same is obviously also true for .doc, .ppt and other files.

If we exclude pdf files, Yahoo retrieves as many documents as Google and even a little more :


GoogleYahooY/G
pdf1247762%
others236254108%
Total 36033192%

Seach for Azoïque - De-duped


GoogleYahooY/G
pdf18211965%
others441467106%
Total 62358694%

Search for Azoïque - With duplicates

So far, all we can confidently state is that Yahoo doesn't index pdf files as well as Google. We can't conclude that Yahoo is lying about the size of its index in terms of the number of documents. Nor, of course, can we confirm this size ;-)

But "Azoïque" is a peculiar search term. Such technical searches tend to produce a greater number of pdf files than is the case with the majority of more common searches. Nonetheless, we still haven't explained why Yahoo changes its estimate about the total number of results so considerably while the results are being displayed. We will look at that in my next post, where I will show how we can't extrapolate observations made on infrequent searches to the index as a whole.


Follow-up


Libellés :


0 Commentaires:

Enregistrer un commentaire

Yahoo: Pages manquantes? (1)



A la suite de la publication de la nouvelle taille d'index de Yahoo (près de 20 milliards de pages), divers internautes ont noté que quelque chose ne va pas dans les comptes... Dans un commentaire sur mon billet précédent, Béatrice Foenix-Riou, (rédac-chef de Bases-Publications) observe par exemple que si l'on tape la requête "azoïque", Yahoo nous promet 2380 résultats, mais que ce chiffre diminue au fur et à mesure qu'on progresse dans les pages de résultats. Au final, on n'en obtient que 329...



Yahoo nous dit : "Afin de ne vous montrer que les résultats les plus pertinents, nous avons omis certains résultats très similaires à ceux déjà affichés. Pour voir l'ensemble des résultats, vous pouvez relancer la recherche en y incluant les résultats occultés." Google offre un mécanisme comparable. Comme de nombreux sites ont des doublons de documents ou des quasi-doublons, cela paraît être une bonne idée... Le problème que note Béatrice, c'est que même en cliquant sur "Relancer la recherche", on n'obtient que 576 résultats. Elle demande à juste titre où sont passées les pages manquantes (1804, tout de même!)...

Sur la même requête, Google renvoie 360 résultats dé-doublonnés, et 623 après avoir relancé la recherche aux pages à contenu similaire, donc dans les deux cas, plus que Yahoo, malgré une taille d'index auto-proclamée inférieure à la moitié. Charlene Li de Forrester Research me signale le même problème (elle développe ici), et Aki nous livre une analyse détaillée sur son blog) . La conclusion qu'en tirent certains commentateurs est que Yahoo nous "bidonnerait" à son tour...

Je n'ai aucune complaisance vis-à-vis de Yahoo, et on aura certainement noté le point d'interrogation dans le titre de mon billet annonçant l'augmentation de son index ;-) Je me suis d'ailleurs posé des questions dès le mois de mars lorsque Yahoo a doublé ses comptes du jour au lendemain de façon inexplicablement parfaite [ici]... Je serais donc le premier à dénoncer le flagrant délit de bidonnage si j'avais une preuve solide. Or, je ne crois pas que l'on puisse se baser sur ces observations pour affirmer que Yahoo nous ment sur la taille de son index.


Tout d'abord, une petite précision s'impose. La terminologie "taille d'index" est un peu ambigue. Lorsque Yahoo annonce fièrement qu'il indexe près de 20 milliards de pages ou documents, on ne sait pas combien il indexe de mots. Il peut paradoxalement en indexer moins qu'un moteur qui prétend indexer 8 milliards de pages. Or, ce sont des mots que tape l'internaute et qui sont son seul lien avec les pages... L'une des raisons fondamentales à cette différence est la "tranche" du document réellement indexée par le moteur. Le Web contient de très gros documents, et les moteurs limitent leur indexation à une partie, plus ou moins importante. Google avait une limite fameuse de 101 K, qui a été abolie en janvier 2005 [voir ici] -- mais on ne sait pas trop quelle est la nouvelle limite.

C'est particulièrement visible sur les fichiers pdf (thèses, rapports, etc.) qui peuvent faire plusieurs centaines de pages. Il est manifeste que Yahoo indexe une partie bien plus petite des documents que Google. J'en veux pour preuve l'exemple suivant. La requête "azoïque" suggérée par Béatrice retourne avec Google un document pdf très pertinent, une thèse de chimie organique de l'école Polytechnique. Ce document n'est pas retourné par Yahoo sur la même requête. Or, il existe dans la base Yahoo, comme le montre cette requête sur son titre: "Principes de chimie radicalaire".

Le seul problème c'est que le mot apparaît la première fois à la page 16, au bout de 15 200 caractères seulement, mais Yahoo ne l'a pas indexé. Google, lui ne cale que vers la page 68 (il ne trouve pas glycinate à la page 69 mais trouve chlorosuccinimide à la page 68, qui se trouve à 86 600 caractères du début...). Cela se voit très bien sur la version HTML en cache.

Cela explique sans doute que même si Yahoo a repertorié globalement plus de documents pdf que Google, il en retrouve moins sur une requête donnée comme "azoïque". Dans ce cas précis, Yahoo ne retrouve que 77 documents pdf contenant ce mot (sans redondance) contre 124 pour Google. Il en va sans doute de même avec les fichiers .doc, .ppt, etc.

Si l'on exclut les fichiers pdf, Yahoo ramène autant de documents que Google et même un peu plus :


GoogleYahooY/G
pdf1247762%
autres236254108%
Total 36033192%

Requête Azoïque - Sans redondance


GoogleYahooY/G
pdf18211965%
autres441467106%
Total 62358694%

Requête Azoïque - Avec redondance

Tout ce que nous pouvons affirmer jusqu'ici c'est que Yahoo indexe moins bien les fichiers pdf que Google. Nous ne pouvons pas en conclure qu'il nous mentirait sur la taille de son index en nombre de documents. Nous ne pouvons pas non plus, bien évidemment, confirmer cette taille ;-)


Mais "Azoïque" est une requête un peu spéciale. De telles requêtes techniques ont tendance à ramener une proportion importante de fichiers pdf, ce qui n'est sans doute pas le cas avec la majorité des requêtes. Il reste cependant à expliquer pourquoi Yahoo révise son estimation de façon si importante au fur et à mesure de l'affichage des résultats. C'est ce que nous verrons dans le prochain billet. Je montrerai qu'on ne peut pas extrapoler les observations faites sur les requêtes à petite fréquence à l'ensemble de l'index.


Lire la suite


Libellés :


5 Commentaires:

Anonymous Anonyme a écrit...

Interesting experiment.
I was curious how you arrived at the breakouts for html and pdf. I get the same total results as you but 88 + 124 != 360 and I see more html and pdf results than you list for Google.

16 août, 2005 08:30  
Blogger Jean Véronis a écrit...

Anonymous> I used the "html" file format option in Yahoo advanced search and "blabla filetype:html" in Google. I assumed that the difference came from other filetypes (doc, txt, etc.), but in fact these are marginal.

Your comment prompted me to check what was going on, and it turns out that Yahoo and Google have a different behaviour with respect to the html filetype. Google returns only pages that have .html or .htm in their filename, whereas Yahoo returns all pages that are html, irrespective of their filename, such as pages generated by php processors. The difference is obvious with the entry for "azoique" in Wikipedia, which is not returned by Google when the search is restricted to html pages, whereas it is returned by Yahoo.

I modified the tables to take this into account. Many thanks for the remark!

16 août, 2005 10:29  
Anonymous Anonyme a écrit...

Conclusion : Google est plus utile pour les usages scientifiques, les textes scientifiques étant bien plus fréquemment publiés sous forme pdf

18 janvier, 2006 16:17  
Blogger Vincent a écrit...

Bonjour,

j'ai fait un petit test qui permet d'avoir une estimation du nombre de pages indexées par les sites de recherhe (dumoins je le pense).

Pour cela j'ai fait une recherche sur le mot 'a' qui est très largement répertorié aussi bien sur les sites fancais qu'anglophones.

Enfin j'ai les résultats suivants:

sur Google : 23 900 000 000 réponses
sur Yahoo : 7 870 000 000 réponses (on est loin des 20 millirads estimés)

ces résultats peuvent-il servir pour effectuer une estimation de la taille d'index ou serait-ce une erreur de les considérer en tant que tel?

02 août, 2006 16:55  
Blogger Jean Véronis a écrit...

Vincent> Hélas, les mots très fréquents comme 'a' ne sont pas intégralement indexés par les moteurs de recherches. La place requise serait gigantesque. A partir d'une indeaxation d'un sous-ensemble de pages très partiel, les moteurs nous retournent des estimations comme celles que vous mentionnez, mais ce ne sont que des estimations, et elles peuvent être buguées et/ou bidonnées. J'avais fait une série de billets sur ça l'an dernier (par exemple ici).

08 août, 2006 19:24  

Enregistrer un commentaire

vendredi, août 12, 2005

Yahoo: 19 billion pages?



Here’s the latest episode in the search engine war: Yahoo! has discretely announced that its search engine now indexes 19.2 billion pages... This is a new step in the firm’s strategy, since it never used to communicate about the size of its index. Google, meanwhile, is still announcing around 8 billion pages on its home page.




Should we believe these figures? Regular readers of this blog will have noticed that, over the past few months, I have mostly stopped mentioning the index sizes claimed by the different search engines: I have more than amply demonstrated that search engines can tell us whatever they like and fudge the numbers as and when it suits them (see my comments on Google, Yahoo and MSN).

Some, such as Google, really do take us for fools, and don’t even go to the trouble of ensuring the internal consistency of their figures. Although the figure announced on the Google home page remains virtually unchanged, for instance, the number of results returned by each request has been increasing quite substantially. With my usual lists of standard search requests, I have been able to see how the total number of results given by Google for these searches has risen by 75% in English and by 8% in French since March (which may confirm the impression held by some that Google is concentrating on the English-speaking world, something I’ve mentioned before). Over the same period, the number on the Google home page has only gone up from 8,058,044,651 to 8,168,684,336... Spot the difference!




Yahoo tries harder to be consistent. The number of results for individual searches has risen threefold for English between March and August, with 2.7 times as many results being returned for French:




These figures tally with the announcement of 19.2 billion pages indexed. In March I estimated the real size of Google’s index to be 5.5 billion pages, and Yahoo’s index to be at least the same size and almost certainly a little larger. Let’s say 6 billion. Multiplying this hypothetical base by 3 gives us 18 billion pages for Yahoo in August, which is in line with the figure they announced.

It’s interesting to compare the number of results returned by Yahoo and Google. In March, I showed how they were comparable (in fact, slightly higher for French with Yahoo). At the time of writing, this difference has grown considerably. The number of results returned by Yahoo is almost three times as high for English as those returned by Google, and more than four times as high for French (which seems to confirm the differences in terms of global strategy between these two search engines). A great majority of French web surfers use Google (far more than in the United States), but they may well be wrong to do so...





All of this should of course be taken with a large pinch of salt. So far, I haven’t quite caught Yahoo red-handed when it comes to fiddling the books, but this could simply be because they are smarter with their figures than their competitors ;-)


Follow up


Libellés :


5 Commentaires:

Anonymous Anonyme a écrit...

Are you counting actual results or the claimed number of results at the top of the page? http://blog.akashjain.org/2005/08/12/is-yahoos-index-really-bigger-methinks-not-really-googles-index-seems-50-larger/ reports that Yahoo's claimed numbers are up to 5x off of reality, and overall comes to the opposite conclusion that you do...

13 août, 2005 06:20  
Anonymous fuligineuse a écrit...

Commentaire qui n'a rien à voir. Je me trompe ou bien l'en-tête de ce blog a changé ? En tout cas l'actuel - et peut-être nouveau - est très élégant.

14 août, 2005 11:19  
Blogger Jean Véronis a écrit...

Anonymous> the opposite conclusion that you do : note my question mark in the title! I am very suspicious about these self-reported figures, and I have noticed the same problem with pages disappearing. I am trying to assess the situation and I hope I'll be able to post something in the next days.

14 août, 2005 12:13  
Blogger Jean Véronis a écrit...

Fuligineuse> Oui, je me suis amusé à faire un peu de graphisme. L'ancien n'était pas terrible (un truc par défaut de Blogger), mais je n'avais jamais trouvé le temps de m'y mettre...

14 août, 2005 12:14  
Anonymous Anonyme a écrit...

Similar to what the other commenter said, I suspect that Yahoo has inflated their estimations.

This graph shows a nearly vertical increase on about Aug 2.

http://www.trendmapper.com/charts/pages/the.html

16 août, 2005 11:40  

Enregistrer un commentaire

mercredi, août 10, 2005

Yahoo: 19 milliards de pages?




Lire la suite

A lire aussi




Nouvel épisode dans la guerre des moteurs: Yahoo! a annoncé discrètement que son moteur indexait désormais 19,2 milliards de pages... C'est nouveau dans la stratégie de la firme, qui jusqu'ici ne communiquait pas sur la taille de son index. Google, lui, annonce toujours environ 8 milliards de pages sur son écran d'accueil.



Faut-il croire ces chiffres? Les lecteurs assidus de ce blog auront remarqué que depuis quelques mois je ne parle plus trop des tailles d'index annoncées par les moteurs de recherche: j'ai amplement montré que les moteurs nous racontent ce qu'ils veulent et peuvent bidonner les chiffres à leur convenance (voir à propos de Google, Yahoo, MSN).

Certains, comme Google, nous prennent vraiment pour des boeufs, et ne se soucient même pas de la cohérence interne de leurs chiffres. Ainsi, alors que l'annonce sur la page d'accueil de Google reste quasi identique, les nombres de résultats retournés par les requêtes progressent de façon substantielle. En utilisant mes listes habituelles de requêtes-types, je constate que les nombres de résultats annoncés par Google sur les requêtes ont progressé de 75% pour l'anglais et de 8% pour le français depuis mars (ce qui pourrait confirmer l'impression que Google se concentre sur le monde anglophone, impression dont j'ai déjà fait part). Dans le même temps, la page d'accueil de Google n'est passée que de 8 058 044 651 à 8 168 684 336... Cherchez l'erreur!




Yahoo est plus soucieux de sa cohérence. Les résultats des requêtes individuelles ont été multipliés par un peu plus de 3 pour l'anglais entre mars et août, et par 2,7 pour le français :




Ces chiffres sont compatibles avec l'annonce de 19,2 milliards de pages indexées. En effet, en mars, j'estimais la taille vraie de l'index Google à 5,5 milliards de pages, et celle de l'index Yahoo à au moins cette taille et sans doute un peu plus. Disons 6 milliards. Une multiplication par 3 à partir de cette base hypothétique donne 18 milliards pour Yahoo en août, ce qui est bien l'ordre de grandeur annoncé.

Il est intéressant de comparer les nombres de résultats retournés par Yahoo et par Google. En mars, j'ai montré qu'ils étaient comparables (en fait légèrement supérieurs pour le français avec Yahoo). A la date d'aujourd'hui, l'écart s'est fortement creusé. Les comptes retournés par Yahoo sont près de trois fois plus grands pour l'anglais que ceux de Google et plus de quatre fois pour le français (ce qui semble confirmer les différences géostratégiques des deux moteurs). Les internautes français utilisent massivement Google (beaucoup plus que les américains), mais ils ont peut-être tort...





Tout cela est bien sûr à prendre avec prudence. Pour l'instant je n'ai pas réussi à surprendre Yahoo en flagrant délit de bidonnage, mais il se peut simplement qu'ils soient plus malins avec les chiffres que leurs concurrents ;-)


Lire la suite

A lire aussi



Libellés :


17 Commentaires:

Blogger Marianne a écrit...

Je vais songer à changer mes habitudes... mais je comprends pas pourquoi un truc aussi énorme a une page d'entrée aussi laide ; c'est quasiment la même que google (d'ailleurs on se demande pouquoi, ils pourraient utiliser d'autres polices) mais en pire (au moins le logo de google a plusieurs couleurs). Ca heurte mon sens esthétique ! Et puis c'est un critère de choix comme un autre pour les non connaisseurs...

10 août, 2005 15:21  
Anonymous JM Salaun a écrit...

Bonjour Jean,

Suggestion :
Ca m'intéresserait beaucoup si vous vous intéressiez aussi au nouveau moteur chinois Baidu qui vient de faire une entrée fracassante en bourse :

http://www.itrmanager.com/42804-baidu,mieux,google.html


Voir aussi :
http://www.webrankinfo.com/actualites/200508-baidu-au-nasdaq.htm


Et pour un panorama général et officiel :
http://www.bjinformation.com/fawen-2002/pic-2004-29/029-fm.htm


Je sais qu'il y a le défi de la barrière de la langue. Mais cela ne devrait pas effrayer un linguiste.. et ici aussi la relation entre taille (et vitalité) du marché et structure de la langue ou plutôt de l'écriture est passionnante à observer.

10 août, 2005 16:19  
Anonymous Philippe Antoine a écrit...

Marianne, une version graphiquement allégée de yahoo est disponible à cette adresse :
http://search.yahoo.com/

10 août, 2005 16:25  
Blogger Marianne a écrit...

Bonjour Philippe,

Merci, mais c'est de celle là que je parlais (ou de sa version française, qui est quasiment identique) ! Ceci dit je trouve celle de yahoo.com effectivement très moche aussi, dans le style "encombrée" ! :-)

10 août, 2005 17:26  
Blogger Jean Véronis a écrit...

marianne (esthétique)> Oui, Yahoo comme Google sont moches... Je me suis toujours demandé pourquoi. Exalead est un peu mieux, mais à peine. C'est une sorte de malédiction des moteurs de recherche, sans doute... Peut-être ârce qu'ils ont tendance à recruter des informaticiens ;-)

10 août, 2005 20:54  
Blogger Jean Véronis a écrit...

Jean-Michel > Aïe, dur, dur le devoir de vacances! En fait, j'étais déjà allé voir, et cela vous étonne-t-il si je vous dis que je suis un peu sceptique? Evidemment sans une compréhension fine du chinois, c'est difficile de se faire une opinion approfondie, mais sur des requêtes en caractères latins, j'ai trouvé le moteur totalement bidon : reondance extrême (des dizaines de fois le même contenu), très vieilles pages en tête au détriment des récentes, etc. Un exemple sur la star que je connais le mieux : moi. Totalement nul. Mes rudiments de chinois d'analyser de façon assez fine les résultats de requêtes en chinois mais sur des exemples triviaux comme 法国 (France), etc., j'ai l'impression que ça n'est pas génial. Google semble faire aussi bien. Mais je ne suis pas très affirmatif sur ce coup-là! A suivre...

10 août, 2005 21:19  
Anonymous JM Salaun a écrit...

Avec les Chinois, je crois qu'il faut en effet se méfier de conclusions trop rapides. Il est probable que dans un premier temps Baidu ne soit qu'une copie dégradée de Google, mais, à mon avis, cela ne durera pas. Le pays est trop vaste, trop dynamique, trop fier, trop unifié par l'écriture et par les documents pour qu'un tel outil (ou un de ses clônes) n'ait pas d'importantes conséquences.

D'aileurs, si on recherche "Chine" dans Google.fr, il faut arriver au 120ème site pour voir apparaitre un caractère chinois.. et encore il s'agit du site des alliances françaises en Chine !
Avec "China" sur Google.com, c'est mieux, le premier idéogramme arrive au 4e site, et le second au 21ème.

Je crois qu'entre des régions aux modes de pensée et aux structures d'écriture si différentes il est assez naturel qu'une interrogation décalée ne donne pas de réponse externe, du moins pour le moment.

Mais ce qui serait intéressant, serait de savoir comment un modèle très culturel (le moteur) qui mélange commerce et langue (vieux couple..) se développe dans un environnement radicalement exotique et pourtant suffisamment riche pour lui donner une chance de prospérité.

Je serais preneur d'une réflexion sur ce thème, ou même de voir comment monter un petit groupe de travail, s'il y a des chercheurs linguistes et sinophiles intéressés.

11 août, 2005 10:07  
Anonymous Béatrice Foenix-Riou a écrit...

Bonjour,
J'ai été comme vous surprise de l'annonce discrète de Yahoo! (uniquement dans son blog) et, pour mieux en parler dans le prochain Netsources, j'ai fait quelques tests comparatifs (pas aussi poussés que ceux de Jean) entre Google et Yahoo.

J'ai pour ma part choisi une autre approche, à savoir faire des tests sur des mots "obscurs" – qui donnent peu de résultats – afin de pouvoir aller jusqu'au bout de la liste des résultats et voir ainsi s'il y avait ou non "bidonnage"...

Conclusion : sur des mots "obscurs", Yahoo donne souvent moins de résultats que Google et il lui arrive aussi de "bidonner"ses chiffres...

A titre d'exemple, une recherche sur "azoique" obtient 599 résultats sur Google ; après avoir cliqué sur "relancer la recherche en incluant les pages ignorées", on peut en afficher au total 596.

Sur Yahoo!, la même requête obtient "2380 résultats"
Curieusement, dès la 3ème page de résultats (en affichant 100 résultats par page), Yahoo indique "résultats 201-300 sur 605"...
Et après avoir cliqué sur "relancer la recherche sur les résultats occultés", on peut au final obtenir l'affichage de 576 résultats... Où sont passés les 1804 manquants ?

Ne serait-ce pas un flagrant délit de bidonnage ?

et ce n'est pas le seul mot pour lequel c'est arrivé.
J'ai quelques autres exemples, pour des mots qui donnent entre 500 et 1000 réponses sur Google, et pour lesquels Yahoo! affiche alors un nombre de résultats 4 fois supérieur, pour au final donner un nombre équivalent à celui de Google.

Bien sûr, ce ne sont que des constatations sur quelques (rares) exemples de recherches... Histoire de dire que Google ne détient pas le monopole du bidonnage ;-)

Pour les curieux, j'essaierai de mettre un compte-rendu plus détaillé dans les actualités du site Bases (www.bases-publications.com)

Bonne journée à tous

11 août, 2005 11:05  
Blogger Jean Véronis a écrit...

Béatrice> Oui, je suis en train de faire les mêmes constatations...

11 août, 2005 11:25  
Anonymous Sébastien a écrit...

Bonjour,

Juste un mot concernant les interfaces minimalistes des moteurs de recherche.
Elles répondent en fait à quelques critères importants :
- Rapidité d'affichage et de chargement (même pour un 56k). Le moteur si il veux attirer l'internaute doit être accessible et vite. Il n'y a rien de plus pénible que d'avoir à attendre pour lancer une recherche alors imaginez quand il s'agit d'en lancer 50 par jour.
- Simplicité : l'internaute ne doit pas avoir à chercher ou et comment faire sa recherche (donc une barre de recherche et un logo sont suffisant).
- Compatibilité avec le plus grand nombre de navigateurs. Une page très simple à plus de chance de bien fonctionner partout. Les moteurs de recherches sont les rares sites a avoir un nombre important de navigateurs anciens voir très anciens qui les parcours.

Ces trois points sont des constantes parmi les moteurs d'ou leur aspect toujours minimaliste à l'accueil au moins. C'est vrai que ce n'est pas sexy mais leurs utilisabilités est plus importante que le reste ;-)

12 août, 2005 14:46  
Blogger Chris W a écrit...

Je viens de faire un nouveau tour chez Yahoo! suite à votre article.

Oui, Yahoo! devient de plus en plus une alternative tout à fait intéressante.


(Merci Firefox, pourtant, pour l'extension Adblock quand même.)

Je fais beaucoup de recherches dont les résultats se comptent par centainent ou moins. Les résultats de Yahoo! ont l'air plus consistant. Pour la phrase "know him from atom", par ex. Google indique 8 résultats, montre 5 dont un en double. Yahoo! dit qu'il y en a 6 et montre les mêmes 4 que Google, sans doubles.

Il n'en trouve pas davantage, pourtant. Et je viens de découvrir la controverse entre les deux sur la taille de leur index: http://shorl.com/hubystebelagre (Google News Search en anglais). Le dernier mot n'est pas dit là.

Ce que je regrette -- et qui rend Yahoo! presque inutilisable pour moi -- est le support très faible pour la recherche booléenne, et l'absence des jokers (? wildcards...).

12 août, 2005 15:44  
Blogger Chris W a écrit...

"Centaines", bien entendu.

12 août, 2005 15:45  
Anonymous Anonyme a écrit...

Bonjour à tous !

une petite piste de réflexion, Google annonce un nombre de pages RECENSEES et non INDEXEES.

Si ce ne sont que des pages recencées, il ne connait peut-être pas le contenu de toutes et elles n'apparaissent donc pas dans les résultats...

Cela dit, je ne doute pas que les chiffres annoncés sont plus proches du marketing que du réel ;-)

Dan

13 août, 2005 19:44  
Blogger Jean Véronis a écrit...

Anonymous (Recencées/indexées) > Oui, Google entretient l'ambiguïté. Sur Google.com la formulation est "Searching 8,168,684,336 web pages", ce qui semble dire qu'il cherche dans toutes ces pages, donc qu'il les indexe... Mais effectivement, je crois que Google compte tout un tas de pages qu'il a vues mais pas vriament indexées (j'en parle ici).

14 août, 2005 12:09  
Blogger Jérôme Charron a écrit...

Je repensais à une étude récente annonçant 11,5 milliards de pages sur le Web... (???)

22 août, 2005 18:12  
Blogger hassan a écrit...

Vous êtes entrin de critiquer le service Recherche de Google, alors que vous êtes entrin d'utiliser son service BlogSpot, pourquoi n'utilise pas tu le service blog de yahoo? plein de publicité et des iframes?

06 février, 2008 05:24  
Anonymous abseo a écrit...

Google doit être plus puissant et il est plus puissant pour indexer plus de 1000 milliards pages
http://blog.abseo.net/2008/07/google-indexe-plus-de-1000-milliards.html

27 juillet, 2008 19:13  

Enregistrer un commentaire

mercredi, août 03, 2005

Récré: Générez vos noms de plume

Comme promis, voici un petit programme qui permet de générer des anagrammes de votre nom. La difficulté était de faire en sorte que la première partie du pseudo soit toujours un vrai prénom et que le reste soit prononçable, le tout en un temps acceptable... Bon petit exercice -- je laisse les informaticiens cogiter.


Tapez votre prénom et votre nom sans accents ici (exemple: François Rabelais) :



PS: je ne garde aucune donnée personnelle ;-)

80 Commentaires:

Anonymous Anonyme a écrit...

c'est génial !!
Minnie Rattananez

03 août, 2005 09:42  
Anonymous Anonyme a écrit...

genial !!!!
En remettant l'un des pseudos obtenus dans le champ de saisie cela donne encore de nouveaux resultats.


Alma ECERMULEN

03 août, 2005 10:45  
Anonymous Christophe a écrit...

Je me demandais justement comment vous avez fait, vous avez sûrement inclus une liste de prénoms (ou, tout du moins, votre programme doit accéder à une telle liste) ? Il y a des prénoms quelque peu exotiques, voire aux consonnances diaboliques :

Gothart
Hepsibah
Ceporah

:-)

C'est pas mal Ceporah. Tiens, en faisant tourner une deuxième fois avec mon nom, je trouve une liste différente de la première ?

03 août, 2005 14:00  
Anonymous caro a écrit...

c'est excellent, bravo et merci !

03 août, 2005 14:24  
Blogger Jean Véronis a écrit...

Christophe> Oui, j'ai une liste de milliers de prénoms (y compris exotiques!).

Je trouve une liste différente de la première> C'est calculé pour!

03 août, 2005 14:25  
Anonymous Christophe a écrit...

Hum, et pour la prononciabilité des noms, il doit falloir mettre des contraintes sur les suites de lettres (ce qui a pour sympathique effet de réduire l'arbre à parcourir et donc le temps d'exécution !). Ça doit être un bon exercice d'algorithmique :-)

Vous avez programmé ça avec quel langage ?

03 août, 2005 15:55  
Blogger Jean Taillère-Marchand a écrit...

Magnifique... Il faut encore un générateur de texte à succès et nous avons tout à notre disposition pour avoir plusieurs fois le prix Goncourt!

Mathilde RAJAN-NERELAC

03 août, 2005 17:28  
Blogger Jean Véronis a écrit...

Christophe> il doit falloir mettre des contraintes sur les suites de lettres: Oui, j'ai constitué une liste des trigrammes possibles, et je l'utilise pour filtrer les suites imprononçables...

Vous avez programmé ça avec quel langage ?. Perl. Parfait pour tout ce qui est traitement du texte!

03 août, 2005 17:56  
Anonymous Thierry a écrit...

Trop rigolo !

Mais je dois avoir un nom à coucher dehors, j'ai toujours plein de i...

Comment faire, docteur ? ;-)))

Harry INSEPIRITI

04 août, 2005 11:35  
Anonymous Methadone a écrit...

Et j'aimerais bien le garder avec moi ce programme car il me semble drôlement pratique ! Est-ce possible ?

04 août, 2005 14:09  
Blogger Jean Véronis a écrit...

Hélas non, car 1) programmation dégueu (la honte) 2) liste de prénoms et trigrammes que je ne peux pas distribuer...

04 août, 2005 14:14  
Anonymous Miss Tics a écrit...

Enfin très sympa toujours est-il.

Misti SCS

04 août, 2005 17:32  
Blogger VinZ a écrit...

J'aime beaucoup le côté ludo-éducatif de ce blog, de s'amuser avec des outils lié au TAL tout en apprenant des trucs !

Carter CHIVENN

05 août, 2005 13:35  
Anonymous Clo-lo a écrit...

Génial, au gré des mes envies j'endosse de nouvelles personnalités. Me voici Lolita Versi d'Iseca, et je me rêve comtesse italienne. Puis me voilà Octavie Disraelis, et je deviens aventurière de début du siècle. J'arrête ici... Merci Jean.

05 août, 2005 15:52  
Anonymous Anonyme a écrit...

Bien fait!

Callista GONGHET

C'est beau, non?

07 août, 2005 20:35  
Anonymous Anonyme a écrit...

Oui, Callista c'est chouette...
Moi, il ne m'a pas épargné.

Zerk RIMAMMA

10 août, 2005 19:55  
Blogger Vaomiera a écrit...

Je change de prenom et du coup, je suis suppose etre d'une quelconque contree lointaine, exotique, voire lourde de traditions!
Omar EVAI

11 août, 2005 15:44  
Anonymous Fincasor Twillartee a écrit...

Aaaaaaarg !
Encore une fois la machine supplante l'homme !
Il y a quelques années j'avais réussi à me créer une petite réserve schizophrène de noms anagramés... 400 noms à peu près plausibles à partir des 18 lettres de mes nom et prénom ! Et tout ça sans ordinateur... Juste un peu (beaucoup) de temps et d'amusement!

12 août, 2005 08:45  
Anonymous dont_worry a écrit...

C'est très amusant ce petit programme..
0n retrouve des prénoms bizarres, tout de même... Comme Breanne, Shantae, Hazlett (jamais entendu parler)
Et puis les noms de famille !! Je me retrouve avec des noms composés : BOONT-RORZATZ et autres réjouissances. Pour la prononciation j'ai du mal !!!

15 août, 2005 18:55  
Anonymous Anonyme a écrit...

pour quelle raison le simple anagramme n'apparaît-il pas comme pseudo?

19 août, 2005 00:51  
Blogger Jean Véronis a écrit...

dont_worry> Prénoms bizarres : oui, c'est un peu le but. Mais ces prénoms existent vraiment.

19 août, 2005 08:11  
Blogger Jean Véronis a écrit...

Anonymous>
pour quelle raison le simple anagramme n'apparaît-il pas comme pseudo? : je ne comprends pas votre question: qu'appelez-vous simple anagramme?

19 août, 2005 08:13  
Anonymous Anonyme a écrit...

Très intéressant. Le programme est-il disponible en sorte qu'on puisse l'adapter, par exemple changer la liste des prénoms possibles. Merci.

21 août, 2005 07:19  
Anonymous Joe Linux a écrit...

Monsieur,

Votre générateur de nom de romancier fonctionne à merveille.

Par contre je n'ai pas trouvé l'endroit où générer le roman ! La prochaine version, peut-être ? Ou alors peut-etre que le procédé est déjà breveté....

:)

22 août, 2005 09:28  
Anonymous Marc a écrit...

Bonjour,
J'ai essayé, comme beaucoup, de remettre un pseudo dans le zone de saisie mais je ne parviens pas à revenir à mon nom d'origine... je manque peut-être de persévérence (ou de
chance).

Au passage j'ai fait une découverte étrange : comment prononcez-vous ce pseudo?
Costa QURBUME
QUR = CUR?

Avez vous pensé à restreindre les contraintes telles que finir par le triplet "coq" qui permet d'avoir la lettre "Q" sans utiliser "U" ?

Marc BOUSQUET

22 août, 2005 14:26  
Anonymous Anonyme a écrit...

Pas mal pas mal, mais il boucle un peu le machin, il a du mal à aller sur des prénoms qui dépassent la lettre E, et si j'utilise un pseudo déja généré, il tourne un peu en rond sur les mêmes pseudo....

01 septembre, 2005 15:25  
Anonymous Anonyme a écrit...

Pas mal, mais il n'a pas trouvé mon vrai nom de plume. L'anagramme a la mano, c'est rassurant ;-)

01 septembre, 2005 19:47  
Blogger olivier a écrit...

excellent!!

09 septembre, 2005 13:51  
Anonymous Anonyme a écrit...

réginald google vous salue bien ! :-)

14 septembre, 2005 22:16  
Anonymous Christophe a écrit...

Très Sympa en effet. Cependant je cherche un outil similaire qui permet de trouver des vrais mots: exemple: Luc qui forme le mot cul (sorry j'ai pas cherché très loin pour l'exemple ;-))

Si quelqu'un a une piste, merci d'avance.

16 septembre, 2005 16:39  
Blogger Jean Véronis a écrit...

Il y a ça sur DicoWeb.

17 septembre, 2005 17:50  
Anonymous Anonyme a écrit...

Trop amusant, mais pas facile à porter :
Rozanna KRITRECYBIM !!! et c'est pas le pire !

17 septembre, 2005 18:45  
Blogger Jean Véronis a écrit...

Martynne ZIRABRICOK peut-être?

Evidemment avec certains noms c'est plus difficile qu'avec d'autres!

17 septembre, 2005 18:55  
Anonymous Angélique-Opaline LIVI-DUODUMEZ a écrit...

En retirant un prénom crédible et en relançant pour faire un prénom composé, on arrive à des résultats très satisfaisants :

Dominique Galouzeau de Villepin pouvant devenir :
Angélique-Opaline LIVI-DUODUMEZ

06 octobre, 2005 14:19  
Anonymous Anonyme a écrit...

j'aime bien... mais il semblerait que ça ne fonctionne plus! au secours! comment faire!
Kenith SASCARG

20 octobre, 2005 18:26  
Blogger Jean Véronis a écrit...

Kenith SASCARG> Autant pour moi... A vouloir améliorer les choses d'un côté on les dégrade de l'autre. Ainsi va l'informatique... Je vous répare ça ce soir ou demain, promis!

Merci de m'avoir signalé le pb!

20 octobre, 2005 19:59  
Blogger Jean Véronis a écrit...

Kenith SASCARG> Allez, ça remarche! Toutes mes excuses:

Kerstin GACHAS
Kristen CHAGAS
Kassie CHTRANG
Thissa GENCRAK
Gratia KSCHENS
Sashenka GRICT
Sargent HISACK
Kachine STARGS
Christa KASENG
Karissa CHTENG

20 octobre, 2005 20:28  
Anonymous Le garde-mots a écrit...

Bonjour,
Voici d'autres anagrammes, certaines connues d'autres non.
http://legardemots.tooblog.fr/?2005/10/29/412-anagramme

30 octobre, 2005 17:43  
Anonymous Anonyme a écrit...

Très bonne réalisation ! Mais une petite critique : quid des prénoms composés ?

cf. l'écrivain connu sous son nom de plume Sébastien JAPRISOT, qui s'appelait en fait Jean-Baptiste ROSSI. On ne le trouve pas avec ce programme. Comme quoi, l'intelligence humaine semble encore supérieure à l'automatisme, même le plus élaboré.

11 décembre, 2005 13:24  
Blogger Jean Véronis a écrit...

Anonmymous> prénoms composés -- bien vu! J'avoue ma paresse intellectuelle: je les ai zappés par commodité... Mais vous avez raison, et si jamais j'ai trois minutes entre Noël et le Nouvel An, j'essaierai de les intégrer. Merci!!! (mais qu'est-ce que j'ai fait au Bon Dieu pour avoir des lecteurs aussi observateurs?)

11 décembre, 2005 13:30  
Anonymous Anonyme a écrit...

Un chouette programme, mais pour moi il ne trouve rien... pourtant j'ai un nom tres banal, snif

12 février, 2006 23:16  
Anonymous Richard de Firdenet a écrit...

Pa très convaincant.
Je tape mon prénom-nom, et j'obtiens des anagrammes avec des pseudo-prénoms qui en fait n'en sont pas.
Et quand je saisis un des anagrammes, je ne retrouve pas mon prénom. Un comble !
Faites l'expérience, vous verrez.

08 mai, 2006 13:13  
Blogger Jean Véronis a écrit...

Richard> Tous les prénoms que le programme sort existe dans une culture ou une autre... Il ne sont pas tout dans notre bon vieux calendrier. Dans votre cas, ça sort Freddie, Catherin, Dietrich, etc. Il y a beaucoup de lettres dans votre nom + particule + prénom, avec des combinaisons pas évidentes: le programme ne s'en sort pas très bien. A améliorer!

ps: c'est normal que ça ne ressorte pas votre prénom, j'exclus le prénom qui est tapé.

08 mai, 2006 17:11  
Anonymous Yogui a écrit...

Qui aurait pu croire que Lora CESES
était en fait une casserole ?

Pour les parents qui ont eu un procès au cul à cause de nom trop humiliant pour leur enfant, ils ont enfin la solution :) !

Bravo pour le prog !

Juste un tit com aussi sur le chronologue :

je trouve dommage qu'on puisse pas changer l'échelle de temps : même si le calcul mettrait beaucoup plus de temps, je crois qu'il serait très intéressant d'avoir l'évolution de la fréquence des mots sur plusieurs années. Tu crois que ça serait possible ?

En tout cas chapeau !

29 août, 2006 12:20  
Anonymous anne-kathelyne a écrit...

avec mon prenom a ralonge je pensais qu'il y aurai bcp de resultats differents mais ca reviens souvent sur katy, katlyn ecris differament, enfin c tres chouette ce programme
felicitation

25 octobre, 2006 06:22  
Blogger Jean Véronis a écrit...

Anne-Kathelyne> C'est à cause du K, du H et du Y. Il n'y a pas beaucoup de prénoms qui les contiennent...

25 octobre, 2006 07:27  
Anonymous Anonyme a écrit...

et alors ...

Solly AGENOREE
Allys OGERONEE
Gayel LEERONSO
Yolane ROGLEES
Royal GOELENES
Ellon GROYASEE
Alyose LONGEER
Olnay SOLGEREE
Sonya ERLOGELE
Nealy OGOLESER

Vous voyez qui ?

03 mars, 2007 13:27  
Blogger Jerome Potts a écrit...

Maintenant, il ne me reste plus qu'à trouver la nationalité de mes parents qui m'ont flanqué un blaze pareil (Ros JOTEMEPT), des fois qu'on me pose la question...
Et puis il faudrait un truc qui puisse discriminer par sexe
Mais merci qd même!

21 mai, 2007 07:52  
Anonymous didjeko a écrit...

il a un comportement bizarre avec les lettres accentuées, ce générateur
André provoque une erreur mais Benoît donne des résultats...

29 novembre, 2007 14:32  
Blogger VV the Gatt a écrit...

Dans un autre style, il y a le générateur d'anagrammes doubles de vivo.free.fr:
http://vivo.free.fr

Ca peut donner des "noms d'indien" plus que des pseudos en eux-même.

Par exemple, qui pourrait se cacher sous le nom de guerrier "SERAN JOVIEN" ?

Je vous laisse regarder et jouer avec...

PS: vivo.free.fr, c'est moi!

21 février, 2008 14:17  
Anonymous Anonyme a écrit...

Très intéressant. Moi qui cherchait justement l'inspiration pour nommer les protagonistes d'une scène, me voilà servie :)

Olli MAUTASKIAS

24 février, 2008 01:09  
Anonymous Anonyme a écrit...

Excellent ! je me suis éclatée. Parfois j'ai même un prénom masculin... Horace, Franchot... etc
Trop drôle ! Merci pour ce générateur, ça m'évitera des nuits blanches à cogiter.

04 janvier, 2009 23:38  
Anonymous Kitof a écrit...

Ce programme est génial.

Petite idée pas forcément très compliquée à mettre en place : L'auto-apprentissage.

Si un prénom inconnu est saisi plusieurs fois (seuil à définir), il vient enrichir la base des prénoms.

On pourrait même imaginer la même chose pour les noms ce qui permettrait de faire abstraction des contraintes lexicales mises en place pour générer les noms (car les noms de familles ne suivent pas forcément des règles phonétiques pré-établies).

Cette évolution résoudrait du même coup le problème des noms-composés qui s'alimenteraient d'eux-même.

Mais cela poserait un autre problème conséquent de taille : La conservation des données personnelles.

Désolé pour cette analyse disproportionnée, déformation professionnelle ;)

Bravo encore.

04 février, 2009 18:26  
Blogger Jean Véronis a écrit...

Kitof> Génial, n'exagérons rien (mais merci du compliment!).

Ou, l'auto-apprentissage est une bonne idée. En fait, c'est complètement dingue, et c'est ce que je me disais en écrivant ce programme : comment un truc aussi marginal (tout de même) peut-il générer autant de pistes et d'idées d'amélioration ?

C'est vrai pour le stockage des données : je ne stocke rien et n'ai pas l'intention de le faire. Et ça soulève d'ailleurs une question : tout ces gens qui ont tapé leur nom en toute bonne foi... La plupart ne savent même pas qui je suis, et ce que je fais de leur données ! C'est dingue. Remarquez, si je demandais leur téléphone, leur carte bancaire, ils se méfieraient peut-être...

Espérons !

04 février, 2009 18:45  
Blogger TallyHo a écrit...

Mais si il faut exagérer... :D

C'est de la bombe ton script ! J'ai trouvé des bases très sympa pour mon nom de plume ;-)

Merci !

28 mars, 2009 00:44  
Anonymous Anonyme a écrit...

Génial ! Merci je ne savais pas quel nom prendre pour mon premier livre...

02 juin, 2009 09:56  
Blogger Bruno a écrit...

Cool, mais je n'aimerai pas m'appeler Onfre BEREVUL. ^^


Ben ORVEREFUL

30 juin, 2009 20:59  
Blogger Émy_Sphères a écrit...

Merci beaucoup, c'est justement ce dont j'avais besoin. :D

04 août, 2009 15:11  
Anonymous Darell Picinbak a écrit...

Bonjour,

Moi qui me cherchait un pseudo pour signer mes photos, c'est enfin réussi. En plus ça me donne une connotation étasunienne.

Pierrick

26 août, 2009 14:23  
Anonymous Lou a écrit...

Ah oui ? Eh bien, pour ma part, ça me donne un nom à connotation russe ! Marrant, ça !

Sympa comme outil, je vais même peut-être en parler sur mon site !

Très, très bonne continuation !

31 août, 2009 14:26  
Anonymous Anonyme a écrit...

Je n'ai malheureusement pas trouver mon bonheur, mais sympa quand même. Tres ludique !

Bonne continuation.

12 novembre, 2009 14:01  
Anonymous Cochonfucius a écrit...

On en parle sur le forum

http://www.lesmotsenfolie.net/poesies-loufoques-f1/anagrammons-t335.htm#8448

"Les Mots En Folie".

12 avril, 2010 16:56  
Blogger Jean Véronis a écrit...

Merci pour le lien ! C'est marrant comme ce petit outil écrit sur le coin d'une table continue à faire son chemin, cinq ans après...

12 avril, 2010 19:55  
Anonymous Alomère a écrit...

Anna K nous donne ce lien et c'est super! Merci mille fois!
Roanne LANS

26 septembre, 2010 10:28  
Anonymous Reka a écrit...

Très amusant et instructif.
Ca a du vous prendre un temps fou de coder cette application !
Je vais faire suivre :)

12 novembre, 2010 09:04  
Blogger Jean Véronis a écrit...

Merci !

Non, ça ne m'a pris qu'un jour ou deux. C'était un bon exercice ;-)

12 novembre, 2010 09:05  
Anonymous Gibi a écrit...

Je me suis bien amusé. Et ça mmmmarche ! Merci.

19 novembre, 2010 01:00  
Blogger Dominic a écrit...

Bonjour,
Je trouve ce programme génial et je serais curieux de savoir comment ce programme fonctionne. Serait t'il possible d'avoir des détails? comme un algorithme ou une explication simplifié. Ce qui m'étonne le plus est le dictionnaire de prénom (non fantaisiste) et les noms de familles qui sont pronomcable.
Merci d'avance et bravo.

03 février, 2011 12:10  
Blogger ronron a écrit...

Elden ARCAPUT vous salue. Merci!

06 mars, 2011 03:02  
Anonymous Anonyme a écrit...

C'est excellent! Beau travail, vraiment!

Ann BRALT

18 mars, 2011 14:00  
Anonymous Jules Cybele a écrit...

Avec Jules Cybele on obtient savamment : Cull JEBEYSE. Magnifique ^^

01 avril, 2011 14:17  
Anonymous Anatol Kelis a écrit...

Bon, il faut dire que vous avez déjà des noms à coucher dehors alors forcément ! Que fait la police :p)
Je me sers presque quotidiennement de votre script pour trouver facilement des noms de personnages de roman, alors je prends enfin le temps de vous remercier !

ps : pour le comm de 2007, ce sont les anagrammes de Ségolène Royal.
re ps : ça devient vite une seconde nature et en effet, l'esprit devient "anagrammiques" à force d'utiliser votre script. Il a donc aussi une utilité cérébrale. Quel talent ! à bientôt.

Anatol Kelis (anagramme de ???)

12 juillet, 2011 18:54  
Anonymous Anonyme a écrit...

Super génial, Merci beaucoup

06 mai, 2012 10:56  
Anonymous Jean-Marie a écrit...

Bonjour

Très bon outil. Gain de temps. Efficace pour trouver un pseudo.
Un grand merci

26 juin, 2012 04:55  
OpenID zephis-lexaelle a écrit...

Très intéressant !

J'ai essayé avec mes deuxième et troisième prénoms, en plus du premier et de mon nom de famille, et ça donne des noms à rallonge ...
Est-il possible de modifier et générer des deuxièmes et troisièmes prénoms quand le nombre de lettres atteint un certain nombre?

Merci pour ça!

Angelle DERA ^^

01 août, 2012 11:56  
Anonymous Anonyme a écrit...

C'est génial ! en mettant des noms juste avec les lettres qu'on aime cela donne des beaux noms ;)

merci =D

21 novembre, 2012 23:47  
Anonymous Anonyme a écrit...

Beaumont WARRYL vous salue. Génial, Merci Beaucoup !

26 décembre, 2012 03:44  
Anonymous Anonyme a écrit...

Bravo pour ce super petit programme.
Il m'a été très utile pour générer des "noms d'agents" aux copains de mon fils invités à un anniversaire sur le thème "agents secrets".

Deux petites remarques/améliorations :
1/il manque des prénoms français classiques (pierre, paul, jean, marc, henri, etc...)
2/il manque la possibilité de choisir si on souhaite une identité masculine ou féminine

Avec ces 2 petites améliorations le programme serait véritablement parfait !

Encore merci,
Angel Barero

17 mars, 2013 14:08  
Anonymous Alonso GIECHO a écrit...

Merci beaucoup pour cet outil à la fois drôle et utile !

Signé : Alonso GIECHO ;-)

14 mai, 2013 15:54  
Anonymous Anonyme a écrit...

Excellent !

Pour ma part, j'ai généré une série de Noms+Prénoms en enlevant la première lettre de mon nom et prénom.

Exemple:
Nico Leneste devient ico eneste.
Je passe ico eneste dans le générateur et ça me donne par exemple Nic ETOSEE.

L'avantage: ne pas être retrouvé facilement en générant un anagramme à partir de mon anagramme.

Nico Leneste

23 juin, 2013 13:12  

Enregistrer un commentaire

lundi, août 01, 2005

Récré: Alcofribas et al.

Me voilà de retour... Je n'ai pas encore envie de me lancer dans des choses compliquées, et peut-être n'avez-vous guère envie de vous prendre la tête à les lire! Je vais donc rester dans le registre des petits jeux que les magazines nous livrent en ces temps de vacances pour tuer le temps sur les plages... Un des favoris est le décryptage d'anagrammes: on vous donne un mot comme Chine et vous devez deviner l'animal qui se cache derrière en remettant les lettres dans un autre ordre, comme au Scrabble. Vous avez trouvé, bravo; en voici un moins facile: chômant (pas gentil pour les chômeurs)...

Nos plus grands écrivains s'y sont amusés. En 1532, François Rabelais publiait à Lyon son premier livre, Pantagruel, sous le pseudonyme d'Alcofribas Nasier. Un monument, à (re)lire d'urgence!



Évidemment, quand on remet les lettres dans l'ordre, on obtient... François Rabelais. Pierre de Ronsard signe certaines de ses poésies Rose de Pindare (un clin d'oeil), François-Marie Arouet se fait appeler Voltaire (anagramme de Arovet LI = Arouet Le Jeune), Paul Verlaine se surnomme avec auto-dérision Pauvre Lélian, Boris Vian signe Bison Ravi ou Brisavion... Je suis sûr qu'il il y en a plein d'autres, sans compter les noms des personnages de fiction (qui sont parfois des anagrammes phonétiques, comme Jean-Sol Partre, du même Boris Vian).



Générer des pseudos à la main est moins facile qu'il n'y paraît... On manque très vite d'imagination. Alors, je me suis fait un petit programme qui génère automatiquement des propositions à partir d'un nom donné. En voici quelques exemples. Saurez-vous deviner quelles sont les célébrités qui se cachent derrière ces pseudos?

Serenity PRABS
Jack CHELISMANO
Wilbur ELSIC
Ricardo FASMINNETT
Boniface SILARRAS
Modesty VANN
Vince RETA-DEHEUNE
Anna DOM
Scarlett HEREN
Hugo BRESEG
Edmund SHAISSA
Anémone DALSABUS
Maddalena SUREX
Severo NINJA
Juliana PIE
Rachele GLAUDELS
Rocky ZANSSIALO
Ernestine ABILT
Jess RUSTICH
Romeo BEUCT

Trop dur? Voici quelques indices

Le temps de régler quelques détails et je mettrai le programme sur le serveur. Vous pourrez tester les anagrammes sur votre nom, et générer des pseudos pour les forums...

[ps: ça y est, il est ]

Votre dévoué,
Jaron Vinsee

14 Commentaires:

Blogger Caroline Leboucq a écrit...

Il était temps que vous reveniez... On commençait à s'ennuyer ! Je plaisante. Même les blogger ont droit à des vacances.
J'ai hâte que le programme anagrammes soit au point. Je pourrai changer de nom et donc changer de vie !!!

02 août, 2005 08:07  
Anonymous wawa a écrit...

La niche du chien, c'est pas chinois. Le froid arctique qui m'a envahi au second animal s'est en revanche prolongé pour les autres anagrammes. Je n'y vois guère qu'une Vierge (ou tout comme).

02 août, 2005 10:59  
Anonymous Nico a écrit...

Moi, en plus, je vous ai reconnu ! le reste...

02 août, 2005 16:35  
Anonymous marlène a écrit...

Je suis tombée il y a quelques jours sur ce générateur d'anagrammes en ligne :
http://www.barbery.net/anagram/

02 août, 2005 16:42  
Blogger Jean Véronis a écrit...

Marlène> Merci pour le lien!

02 août, 2005 16:46  
Blogger Marianne a écrit...

Ah la vache c'est plus dur que les mots fléchés du téléstar ;-) !
Au moins du force 5, je n'en n'ai pas trouvé le quart pour le moment.
Bonne rentrée !

02 août, 2005 17:26  
Anonymous fuligineuse a écrit...

j'aime bien aussi "Navire Sonje" (presque Navire Night)

02 août, 2005 22:50  
Anonymous wawa a écrit...

Ou Sonia Jenerv.

03 août, 2005 00:35  
Blogger Jean Véronis a écrit...

Marianne> Eh oui, c'est terriblement difficile! J'ai ajouté un lien vers une page d'indices...

03 août, 2005 09:12  
Blogger Marianne a écrit...

Beaucoup mieux avec les indices... mais il me manque encore S. H. ... je vais trouver !

03 août, 2005 11:19  
Blogger Marianne a écrit...

Ca y est je les ai tous !

03 août, 2005 11:26  
Anonymous Boris a écrit...

Il peut même arriver qu'une célébrité se cache derrière une autre... que pensez-vous de Pascal OBISPO ?

21 août, 2005 15:15  
Blogger Jean Véronis a écrit...

Boris> Bravo, excellent! Je ne dévoile pas, pour laisser les autres lecteurs chercher (un indice: né en 81 ;-)

Je me demande s'il y a d'autres couples du même type!

21 août, 2005 16:54  
Anonymous Anonyme a écrit...

Si vous voulez voir Alcofribas Nasier en bonne compagnie, c'est ici:http://hommage-a-rabelais.over-
blog.com/
bien cordialement
Ray

29 janvier, 2012 20:24  

Enregistrer un commentaire