Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

lundi, février 28, 2005

Web: MSN triche-t-il aussi ?



Il y a quelque temps, j'ai montré que Google "gonfle" le nombre de ses résultats par un facteur de 66%, ce qui explique des inconsistences étranges, et en particulier le fait que les pages semblent disparaître comme par enchantement. Quand on cherche des mots tels que alive, economist, focusing, etc. dans les pages anglaises seulement, on n'obtient que quelque 60% seulement des résultats que Google prétend avoir pour l'ensemble du Web, ce qui est évidemement impossible, sauf si on admet que ces mots sont aussi massivement non-anglais. Yahoo a un comportement bien plus raisonnable, et nous dit que 92% de ces mots apparaissent dans des pages en anglais. Google semble gonfler artificiellement les nombres de résultats pour les faire correspondre à la taille de son index principal combinée avec celle de son index supplémentaire, bien que, évidemment, celui ne contienne pas grand-chose (URL, titre, etc.) -- et en tous cas, pas ces mots anglais qui manquent désespérement à l'appel.

Voilà pour Google et Yahoo. Mais qu'en est-il de MSN ? Eh bien, il s'avère qu'il y a des choses bien étranges aussi.

J'ai utilisé la même liste de mots anglais que dans mon étude précédente (et les résultats ont été obtenus au même moment, le 6 février). Le diagramme ci-dessous montre les chiffres donnés par MSN sur les pages en anglais par rapport à ceux qu'il donne sur l'ensemble du Web (voir liste complète ici) :



La pente de la droite de régression indique que les résultats anglais représentent seulement 65% des résultats pour l'ensemble du Web. C'est un peu mieux que Google (56%), mais cela n'a toujours pas beaucoup de sens.

Pour le français, le diagramme est le suivant (voir les résultats complets ici) :



Ceci montre que seulement 75% des ces mots français sont situés dans des pages françaises (Yahoo donne 97% pour la même liste).

Est-ce que MSN a aussi un index supplémentaire comme Google ? ou bien ses résultats sont-ils simplement gonflés pour des raisons de marketing? Je n'ai pas assez d'information à l'instant présent sur l'architecture de MSN pour pouvoir trancher, mais peut-être que certains lecteurs auront des lumières (si c'est le cas, n'hésitez pas à commenter !).

Si nous faisons, en première approximation, confiance à Yahoo, nous pouvons déduire que l'index "véritable" (c'est-à-dire dans lesquels les mots de la page sont indexés) est seulement d'environ 0.65 / 0.92 = 71% de ce que MSN prétend, en se fiant au sondage sur les mots anglais, ou 0.75 / 0.97 = 77% avec la liste française.

En conclusion, il semble que l'index de MSN soit seulement d'environ 75% de la taille prétendue (quelle est-elle, au fait? ils ont annoncé 5 milliards de page avant le lancement, mais je ne me souviens pas d'avoir vu des chiffres plus précis ou plus récents). En conséquence, les résultats semblent gonflés d'un facteur de 33% (1 - 1/0.75).

Google : inflation de 66% ; MSN : inflation de 33%. Environ la moitié. Coïncidence ?

En tous cas, pour l'instant seuls les comptes de Yahoo semblent cohérents (devrais-je dire sincères ?). L'ironie de la chose est que Google a probablement gonflé ses comptes sous la pression de MSN qui annonçait 5 milliards de pages, mais il s'avère que MSN fait probablement la même chose. Poker menteur chez les moteurs ?

11 Commentaires:

Anonymous Anonyme a écrit...

A son tour, MSN ne fait pas l'économie d'une mesure de falsification de ses résultats ! Reste à entendre la voix des officiels de chacun de ces groupes pour confirmer, ou au moins donner quelques explications sur ces résultats plus qu'interrogateurs.

Erak !

01 mars, 2005 10:43  
Anonymous Anonyme a écrit...

Comment se fait le filtre sur "page anglaise uniquement" ?

Ne pourrait on pas penser que c'est ce filtre qui est défectueux et non que les résultats sont gonflés en mode "tout le web" ?

Dans ce cas, le moteur ne verrai pas certaines "pages anglaises" par un mauvais filtrage, et la proportion réelle serait bien plus grande que 66%.

Ainsi une page anglaise serait prise en mode "tout le web" mais pas en mode "pages anglaises" par une sélection défectueuse.

01 mars, 2005 11:11  
Anonymous Anonyme a écrit...

mais qui ment moins que l'autre alors ? C'est une pratique qu'on retrouve chez d'autres moteurs de recherche ?

01 mars, 2005 15:02  
Anonymous Anonyme a écrit...

OK Mais si les mots:
alive, economist, focusing sont dans des pages non anglaises?
ce qui ne serait pas aberrant, non?

04 mars, 2005 14:45  
Blogger Jean Véronis a écrit...

Anne :
>alive, economist, focusing sont dans des pages non anglaises?

A concurrence de 35% pour MSN et 44% pour Google ? Ca n'est guère crédible. Et on aurait une grosse dispersion parce que ça dépendrait évidemment des mots, au lieu du bel alignement qu'on observe.

Pour Yahoo 8% seulement de ces mots apparaissent dans des pages non-anglaises, ce qui me paraît être l'ordre de grandeur correct.

04 mars, 2005 17:27  
Blogger effisk a écrit...

excellente série d'articles. Un vrai polar, vivement la suite :)

12 avril, 2005 17:21  
Anonymous Anonyme a écrit...

Je ne sais pas si cela peut vous aider mais lors d'une recherche sur Google Image, les résultats semblent également surestimés lorsque l'on valide la recherche. Ensuite, à mesure que l'on fait défiler les pages de résultats, on s'aperçoit généralement que les dernières pages de résultats disparaissent...

21 avril, 2005 21:31  
Anonymous Anonyme a écrit...

A mon avis, tu devrais soumettre cette question au site abondance.com, la référence en matière d'informations sur les moteurs de recherche. Même si il est possible comme l'indique Gaetan, que ce soit le filtre en Anglais qui soit défecteux (par exemple il "oublie" des pages vraiment en anglais), il est plus probable que les index sont gonflés. Une autre hypothèse est que, les index étant en perpétuel recalcul, des liens "anciens" sont indiqués dans le total, mais lorsque on clique vraiment sur les pages suivantes, Google se rend compte que les pages n'existent plus dans sa BDD complète et les élimine de la page de résultats??
Cela serait alors un retard de mise à jour d'une 2e base de données par rapport à une première.. Cela peut expliquer la disparition de 10% des liens mais surement pas 33% (le recalcul complet des classements se faisant sur un mois, 33% ca voudrait dire que le web se renouvelle à 1-(1¨-0.33)^3 = 70% en 3 mois !!)
Moi aussi il m'est arrivé souvent de voir pages 1-9 de résultats et arrivé au 65e résultat je constate que les dernières pages ont disparues!!

28 avril, 2005 10:29  
Anonymous Anonyme a écrit...

Félicitations pour ces études ! c'est impressionnant....

il ne manque plus que le petit dernier ! Yahoo :)

05 août, 2005 18:23  
Anonymous Anonyme a écrit...

Bonjour,

Je tiendrais à vous précisez une petite chose : Aucun moteur de recherche n'est réelement fiable à 100% c'est vrai. Néanmoins, il faut se rendre compte qu'il ne sont rémunérés que par des sociétés. Les utilisateurs personnels comme nous ne paye jamais un tel service. De plus, il faut savoir que la société Google possède une politique très correcte qui vise à gagner de l'argent seulement si les sociétés ont un rapport avec l'objet des recherches qui sont effectuées.

Et n'oubliez pas que pour la plupart des webmasters, ils mettent leurs sites à jour très souvent ce qu'un moteur de recherche ne peut se permettre de recenser toujours.

Cordialment. - Defaite -

06 octobre, 2005 14:32  
Anonymous Anonyme a écrit...

concernant ce dernier commentaire, il y a erreur, ce sont bien les visiteurs qui paient, puisqu'ils déterminent la vraie valeur que recherchent les sponsors.
plus les résultats d'un moteur sont bons,
plus il a de visite ( à corriger en fonction de la pub)
plus les annonceurs voudront payer.

15 juillet, 2006 17:05  

Enregistrer un commentaire

Web: MSN cheating too ?



Some time ago, I showed that Google inflates its result counts by a factor of 66%, which explains a number of weird inconsistencies, and in particular the fact that pages seem to disappear as if by magic. When you search for words such as alive, economist, focusing, etc. in English pages only, you get only about 60% of the results Google claims for the entire Web, which is of course impossible, unless these words are also massively non-English. Yahoo behaves in a much more reasonable way, and tells us that these words appear for 92% in English pages. Google seems to artificially inflate the result counts to make them match the size of their main index combined with their supplemental index, although of course this supplemental index contains very little (URLs, titles, etc.) -- and certainly not the English words that are desperately missing.

We've seen Google and Yahoo. What about MSN ? Well... it turns out that there is something fishy there too.

I used the same English word list as in the previous study (and results were obtained at the same time, i.e. February 6th). The figure below plots the counts given by MSN for English pages vs for the entire Web (see complete set of results here) :



The slope of the regression line indicates that the English results represent only 65% of the results for the entire Web. This is a little better than Google (56%), but still does not make sense.

For French, the plot is as follows (see complete results here) :



This shows that only 75% of these French words are located in French pages (Yahoo indicates 97% for the same list).

Does MSN have a supplemental index like Google ? or are the results simply inflated for marketing purposes ? I do not have enough information at this point on MSN's architecture, but maybe some readers have some lights (if so, please comment !).

If we trust Yahoo as a first approximation, we can infer that the "real" index (i.e. in which the page words are indexed) is only about 0.65 / 0.92 = 71% of MSN's claims, if we use the English list as a probe, or 0.75 / 0.97 = 77% if we use the French list.

In conlusion, MSN's index seems only around 75% of the size claimed (what is it by the way? they said 5 billion pages before launching it, I don't remember seeing more precise/recent figures -- again, if you know, please comment !). Consequently, results seem inflated by a factor of 33% (1 - 1/0.75).

Google : 66% inflation ; MSN : 33% inflation. About half. Coincidental ?

In any case, so far only Yahoo's results seem coherent (should I say sincere ?). The irony is that Google probably inflated its count because of MSN's pressure, when MSN announced 5 billion pages, but it seems that MSN if playing a trick too! Search engines playing liar's poker?

2 Commentaires:

Anonymous Anonyme a écrit...

Jean,
I recently did an interview with MSN's search team and they said that the index is currently "north of 5 billion documents".

Great information - thank you for sharing it with us!

19 mai, 2005 21:07  
Blogger Jean Véronis a écrit...

Many thanks for the info, Randfish. Here is a link to this interesting interview if others are interested.

19 mai, 2005 21:13  

Enregistrer un commentaire

samedi, février 26, 2005

Blogs: Le langage des fleurs

Je croyais que la fleur préférée des bloggueurs était le narcisse, mais en fait, chaque blog a sa fleur bien à lui. Voici celle qui correspond à Technologies du langage pour l'artiste Christine Sugrue :


Superbe, non ?

Christine a développé une application Flash, OrganicHTML, qui permet de transformer un site web en une plante plus ou moins colorée et plus ou moins fantastique. On pourrait organiser un concours du plus beau blog...

Il n'y a pas de fichier d'aide, mais Christine m'a fait une fleur et m'a envoyé quelques explications (je traduis) :
"[Le programme] utilise un certain nombre d'élements de la page, liens, texte, couleurs, images, flash et structure des tables. Il dépend beaucoup des tables pour créer l'organisation récursive. C'est un peu dommage parce que les sites CSS sortent comme des tiges à l'aspect plutôt triste (je n'ai pas encore arrangé ça...). Mais en fait, je me remande si cette bizarrerie ne rend pas la chose encore plus marrante."

Merci Christine !

Allez bon week-end. Cultivez votre jardin !




Post-scriptum

Mes conseils de jardinage semblent avoir été suivis, peut-être pour oublier la grisaille de cette fin février (évidemment, ici à Aix-en-Provence il fait un grand soleil, mais ça n'est pas représentatif !). Voici quelques blogofleurs que je me permets d'arroser un peu au PageRank :

Libellés :


4 Commentaires:

Blogger Jean Véronis a écrit...

Eh oui, c'est vrai, j'aurais dû me taire... Mais ça n'est pas forcéement désagréable. Je viens de monter à cheval une bonne heure sous la neige. Magique !

28 février, 2005 11:36  
Anonymous Anonyme a écrit...

Quel bonheur d'avoir un jardin permanent en plein hiver :-)
Merci !
Voici mon Jardin de fleurs du web

03 mars, 2005 14:38  
Anonymous Anonyme a écrit...

Les surfs nocturnes apportent bien des surprises!:)
Moi aussi je voudrais bien agrementer mon blog de zolies fleurs, mais une question me taraude: comment fait-on pour enregistrer l'image de la fleur produite? (passerais-je pour une newbie?...)

02 décembre, 2005 02:22  
Blogger Jean Véronis a écrit...

Mme Sanzô> Moi, je fais simplement une copie d'écran, et je recadre avec Photoshop...

02 décembre, 2005 07:25  

Enregistrer un commentaire

vendredi, février 25, 2005

Web: Google débloggue ?

Mark Liberman fait remarquer sur Language Log que Google semble avoir modifié ses pondérations, et que les blogs sont descendus de façon notable dans le classement des résultats. Et de fait, je ne suis plus premier sur les vernis à ongles, mais 15ème. Snif ! Mais ça n'est que justice, tout de même... J'avais noté dans ce billet le caractère totalement ridicule de la situation, qui semblait se doubler d'un coup de pouce assez scandaleux de Google pour attirer des "clients" sur sa filiale Blogger.

D'autres bloggueurs font la même constatation (Mithras, Locussolus, etc.). Pour certains, c'est la mort du blog... Je ne sais pas. D'une part Google est manifestement en train de chercher la bonne recette, et il y aura sans doute encore des ajustements (surtout si les bloggueurs protestent massivement...). D'autre part, la situation précédente n'était pas tenable -- surtout pour Google, qui ne l'oublions pas, vit des publicités. Si les résultats sur les produits commerciaux courants deviennent totalement aberrants, c'est la mort des moteurs.

Du point de vue technique, l'analyse de la situation n'est pas évidente. Quels sont les blogs affectés ? Blogger, c'est sûr. Les autres aussi (Typepad, etc.) ? Il semblerait. Blogger plus que les autres ? peut-être, mais il faut dire qu'il était poussé drôlement fort quand même ! Il semblerait aussi que les blogs qui ont leur propre nom de domaine ne soient pas affectés (ce qui semblerait indiquer une "rustine" assez rapide de Google basé sur l'examen trivial des URLs) -- mais attention à la propagation des rumeurs. Tout cela reste à vérifier.

Et enfin, je ne m'explique pas que si ce blog est descendu sur vernis à ongles, il soit monté sur langage, passant à la 11ème place (sur près de 5 millions de pages, ça n'est pas mal du tout). Bientôt dans le premier écran de résultats ? Il y a manifestement des ajustements très compliqués chez Google, et qui vont plutôt dans le sens du mieux (non, Google n'a pas injecté de "Latent Semantic Indexing" ou autre produit miracle dans la nuit, attention aux rumeurs à nouveau !).

Les Googlers ont dû avoir chaud avec leur dernière mise à jour début février, qui est apparue très rapidement comme fantaisiste. Et les voix sont de plus en plus nombreuses pour dire que d'autres moteurs, comme Yahoo, retournent des résultats plus cohérents ! Google sait très bien que ses résultats s'érodent. Pour la première fois depuis des mois, il a enregistré sa première baisse...

Qui habet aures audiendi, audiat !

13 Commentaires:

Anonymous Anonyme a écrit...

Personnellement je n'ai pas constaté de tel retrogradage des blogs.

Quand bien même cela serait vrai, je trouve ridicule le fait de crier à la "mort des blogs" : Les blogs sont ils des CMS ou bien des machines à se positionner ?

Un bon contenu, riche et structuré, avec un minimum de notoriété sera toujours bien positionné, car c'est dans l'interet de Google et des utilisateurs. AMHA.

25 février, 2005 11:18  
Blogger Jean Véronis a écrit...

Je suis tout à fait d'accord avec vous. En regardant mes propres fichiers d'accès, je vois que l'accès par les moteurs de recherche n'est pas très important en proportion, et le plus souvent c'est à partir de requêtes accidentelles (genre "vernis à ongle", "infractus", etc.). Pourtant ce blog fonctionne plutôt bien !

25 février, 2005 11:22  
Anonymous Anonyme a écrit...

Bonjour,

Félicitations pour ce blog. Le feed xml va tomber dans ma liste fréquement consultée.

Je suis informaticien pro et linguiste sur le tas, et tous ces billets me parlent bien. Et j'ai des images de l'univ de marseille qui me reviennent , superbe campus (mais j'y venais en touriste).
Concernant l'affaire des blogs, je pense que leur structure (peu de fichiers html, bcp de texte) favorise forcément l'indexation, et que google était obligé de réagir pour garder une cohérence. Dans searchengineforum ils ont du disséquer ce phénomène, je pense.

J'espère pouvoir intervenir ici un jour ou l'autre.
Et tiens je fais de la pub pour mon blog en meme temps : http://404.free.fr/

Wallaye

25 février, 2005 12:53  
Anonymous Anonyme a écrit...

Si je partage votre avis que des "résultats abérrants" (ou plutôt non pertinents) sont affichés pour certaines requêtes, je ne suis pas du tout convaincu de votre argument sur le "favoritisme de Google envers Blogger". Je constate exactement le même phénomène sur mon blog qui a son propre nom de domaine et utilise Dotclear (blog.e-dbc.net).

Imaginez simplement que pour la requête "Yahoo Desktop Search" je suis en première page sur Yahoo (position 3, option "tout le web") alors que la propre page de Yahoo sur son outil est en position 7... C'est aussi absurde que votre vernis à ongle (à force de répéter cette phrase, votre blog deviendra pertinent sur "vernis à ongle" ;-)

MSN lui, semble ne pas aimer les blogs. De plus, même si j'ai peu de connexions provenant de recherches MSN, 9 sur 10 ne sont pas du tout pertinentes.

Une piste plus plausible ne serait-elle pas que les outils de blog créent un contenu HTML (ou XHTML) beaucoup plus propre et sémantique que beaucoup de grands sites commerciaux avec des codes HTML qui ressemblent davantage à de la soupe de tags, truffés d'erreurs et sans aucune valeur sémantique ?

Dans tous les cas, avec ou sans vernis à ongle, je lis votre blog avec plaisir.

25 février, 2005 13:46  
Anonymous Anonyme a écrit...

J'ai toujours considéré, à regarder un peu effaré les requêtes surréalistes (et très "cul") dans mes logs, que le trafic apporté par Google était du "junk", du trafic parasite, pour au moins 95 %. Aussi, je ne regretterai pas un instant que mon blogue sorte moins souvent dans les résultats.
30% de ma bande passante est consacrée à image.google.com, ça fait beaucoup. 25 % de mon trafic vient de google et est non pertinent.
"La mort du blogue", c'est n'importe quoi, sauf pour ceux qui trouvent dans les résultats des moteurs de recherches matière à flatter leur ego. Les vrais lecteurs viennent essentiellement d'autres blogues.

25 février, 2005 14:20  
Anonymous Anonyme a écrit...

Si la seule preuve c'est que certaines pages semblent "tomber" dans les résultats, c'est un phénomène qui existe depuis longtemps. Pendant longtemps j'ai été le premier "françois" sur Google. Aujourd'hui mon blog doit arriver en 3è page sur cette requête, mais ça fait bien un an que cette descente a commencé, ça ne date pas d'hier. Le page rank de mon blog est momentanément descendu de 7 à 6 il y a quelques mois mais aujourd'hui il est revenu à 7, et j'ai beau chercher, je ne vois pas de modification apparente du comportement de Google vis-à-vis de mon site. Et je me demande (hormis la question évidente de la singularisation de domaines entiers comme typepad.com ou blogger.com) comment diable Google pourrait bien décréter que mon site n'est pas un site "normal" mais un blog ? Je génère des pages statiques en XHTML, il ne me serait pas bien difficile de personnaliser celles-ci pour empêcher quiconque de savoir avec quoi je les génère. Dès lors, où placer la ligne de démarcation, à supposer qu'elle existe ?

Je ne partage pas tout à fait l'avis de Laurent sur les "vrais lecteurs". Google rapporte en effet des requêtes non pertinentes, mais c'est aussi grâce à Google que pas mal de mes visiteurs ont trouvé des solutions à des problèmes que j'avais documentés en faisant attention aux mots-clés utilisés dans mes textes. Le problème c'est le ratio signal/bruit, qui dans le cas de Laurent est clairement mauvais (mais bon, je ne montre pas mon cul sur mon blog, moi ;-)).

25 février, 2005 15:05  
Anonymous Anonyme a écrit...

Le ratio signal/bruit est extrêmement bas chez moi parce que je suis très loin d'être monothématique. Et avec 12 100 pages référencées par Google sur quantité de sujets, j'ai statistiquement pas mal de chances de répondre à un large éventail de requêtes farfelues.

Quant à parler de mon cul, je trouve l'attaque très basse... ;-)

25 février, 2005 15:48  
Anonymous Anonyme a écrit...

Désolé Laurent, j'ai pas pu m'en empêcher ;-). C'est qu'il ne faut vraiment pas grand chose pour attirer un certain trafic très concentré en dessous de la ceinture, en provenance de Google.

25 février, 2005 16:12  
Blogger Jean Véronis a écrit...

English is more than OK, many thanks! Google.com and google.fr have not changed in the same way. I'm still ranked 4th on Google.com on this stupid "vernis à ongles" query. Something happened, but what ? I checked a number of forums, and I have a feeling that everybody is lost. Other hypotheses : change in the weight given to titles (which in my view was way too high), impact of the "nofollow" tag, which could change the PageRank of blogs if many cross-blogs links are now ignored, etc.

Anyway, I don't think it is "la mort du blog", either.

25 février, 2005 17:06  
Anonymous Anonyme a écrit...

> Google.com and google.fr have not changed in the same way

Google.com and Google.fr don't seem to have the same index to start with, and it's been this way for as long as I remember. Try the same query on google.com and google.fr (but choosing the whole web instead of French or France) and you might be surprised to see different results. This discrepancy has always surprised me.

25 février, 2005 17:30  
Anonymous Anonyme a écrit...

Bonsoir,

Moi je trouve que de vouloir positionner des mots clefs sur une url blogspot ou (sur free, Lycos etc ..) c'est purrement du gachis car comme multimania devenu Lycos, Google pourrait tres bien imposer des pubs sur ses blogs, voir les arreter si il juge plus tard que ce service n'est plus rentable ou tout simplement si il juge que le contenu ne va pas dans son sens...
( MSN a bien arrete son chat pourtant y avait plein de monde etc ...)
J'ai un ami qui s'est fait effacé son blog parcequ'il est allé ecrire quelques commentaires hors sujet sur d'autres blogs, il s'en moque car il fesait des tests, mais bon pour un gros blog j'aurais quand meme peur qu'ils me l'effacent et donc perdre mes backlinks etc ...
Pour moi il s'agit d'un "service gratuit" que le webmaster/surfeur pourrait en fait payer trés cher !

25 février, 2005 20:19  
Anonymous Anonyme a écrit...

Les blogs sont immortels, du moins je l, espere. Longue vie a tous!!!

08 août, 2005 04:54  
Anonymous Anonyme a écrit...

-yo

18 août, 2005 21:57  

Enregistrer un commentaire

mercredi, février 23, 2005

Google: Stabilisation de la taille d'index


J'ai montré le 22 janvier que la taille de l'index Google avait progressé, bien que la page d'accueil dise toujours "Nombre de pages Web recensées par Google : 8 058 044 651." En utilisant un sondage à partir d'un certain nombre de requêtes, j'ai pu estimer la progression à un facteur d'environ 1.13.

La même technique appliquée un mois plus tard, le 22 février, ne montre pratiquement plus de changement depuis janvier (pente de la droite de régression = 1.01 ou 1.14 depuis novembre).


Le diagramme ci-dessous montre la stabilisation :


Si nous pouvions faire confiance aux chiffres donnés par Google ("Nombre de pages Web recensées par Google : 8 058 044 651"), cela voudrait dire que la taille de l'index est maintenant d'environ 9.2 milliards de pages. Toutefois, il semble que ce chiffre inclut à la fois l'index principal (dans lequel tous les mots de la page sont indexés, jusqu'à la limite de cache utilisée ces temps-ci) et un index supplémentaire, composés de pages que Google a rencontrées mais dont il n'a indexé que très peu de choses (URL, titre...). L'index principal est apparemment de seulement 60% du tout, et les nombres de résultats pour chaque requête "gonflés" artificiellement de 66% pour retomber sur la taille totale (voir étude ici). Etant donné la progression depuis novembre, la taille de l'index principal est donc probablement aux alentours de 5.5 milliards de pages.

Libellés :


1 Commentaires:

Anonymous Anonyme a écrit...

Jean, Je te remercie pour ce blog très interessant.

Depuis la suisse
Martin Demierre
www.touchmind.ch
aide en ligne pour sites web.

27 février, 2005 16:13  

Enregistrer un commentaire

Google: Stabilisation of index size


I showed on January 22nd that Google's index size had increased, although the main page still said "Searching 8,058,044,651 pages". Using a number of queries as a probe, I estimated the increase to a factor of ca. 1.13.

The same technique applied a month later, on February 22nd, shows almost no change since January (slope of regression line = 1.01, or 1.14 since November).


The diagram below shows the stabilisation:


If we could trust the original self-reported figure ("Searching 8,058,044,651 pages") this would mean that Google's index has now ca. 9.2 billion pages. However, it seems that this figure includes both the main index (all the words on the page indexed, up to whathever cache limit they are using these days) and the supplemental index of pages that Google knows about, but for which only very few elements (URL, title...) are indexed. The main index is apparently only 60% of the whole, and numbers are probably artifically inflated by 66% to match the size of the whole database (see study here). Given the progression since November, the main index is therefore probably somewhere around 5.5 billion pages.

Libellés :


0 Commentaires:

Enregistrer un commentaire

mardi, février 22, 2005

Google: Du blé pour les chaumeurs

Voici la réponse à la devinette de la semaine dernière, à propos de la maxime qui figure sur la "Toolbar" de Google, De parvis grandis acervus erit. Je rappelle le contexte. Les Googlers l'ont, semble-t-il, empruntée à un obscur poète "emblémiste" du XVIème siècle, Geffrey Whitney, qui l'a lui-même empruntée à Claude Paradin dans ses Devises historiques (j'ai découvert cette deuxième partie grâce à un commentaire sur mon billet, beauté des blogs !). Ce superbe manuscrit est téléchargeable chez Gallica (à l'époque les notions de plagiat, propriété intellectuelle et... droits d'auteurs n'étaient pas exactement les mêmes). Comment les "Googlers" sont tombés sur cette maxime, je l'ignore... ils ne paraissent ni latinistes, ni philologues (dans la première version de la Toolbar, il y avait même une magnifique faute d'orthographe -- a cervus en deux mots...).

Quoi qu'il en soit, la devinette ne portait pas sur cette filiation, mais sur une curiosité qui, en fait se dédouble : Whitney comme Paradin, utilisent pour illustrer cette maxime une gravure faite de brins de blé qui s'agglomèrent pour former une gerbe. Je reproduis ci-dessous la gravure de Paradin (page 210). On peut constater que Whitney n'a pas repris que le texte !



La question était : pourquoi précisément du blé ? Bien des images et des métaphores seraient possibles pour représenter l'accroissement de la richesse à partir de peu, comme les petits ruisseaux qui forment de grandes rivières...

En fait, la maxime est une adaptation d'un vers d'Ovide, De stipula grandis acervus erit. Au XVIème siècle, c'est une mode chez les poètes que de s'inspirer des Classiques, de les citer ou les adapter. Il y avait d'ailleurs un indice sur la page de Whitney, mais en quelque sorte un indice trompeur puisqu'il renvoyait à un autre passage d'Ovide, justement à la métaphore des petits ruisseaux...

Le vers De stipula appartient à l'Elégie VIII du livre I des Amours, dont on peut lire le superbe texte parallèle latin-français ici. Stipula en latin désigne la tige du blé, qui reste après la moisson, c'est-à-dire le chaume. Le mot a donné en français l'éteule, qui est un autre mot pour le chaume, le verbe étioler, ainsi que le mot stipule, qui a pris un sens technique différent. Dans certaines régions, des gens s'appellent encore Esteulle, Estioulle, Estublier : ceux qui ramassaient les chaumes après la moisson, ou ceux qui couvraient les toits...

D'où l'image du blé. Mais cette image est-elle bien fidèle ? Stipula, ce n'est pas le blé avec ses superbes épis, mais le chaume, ce qui reste après la moisson, la partie la moins noble, la plus dure à ramasser... Je lis le vers différemment : en ne négligeant pas ce que les autres ont laissé, en acceptant les tâches les plus ingrates, on peut encore construire de grandes choses. Avis aux chaumeurs...

Quant à Google, savez-vous qu'il existe une interface Google Latina ?



Cliquez et vous verrez qu'Ovide lui-même a adapté son propre vers...

Mais hélas, le latin n'est que la langue de l'interface. Google ne propose pas une recherche restreinte aux pages latines (c'est dommage, on pourrait chercher les occurrences de stipula). Pourtant, c'est faisable : je cite une fois encore le beau logiciel TextCat de Gertjand Van Noord (démo en ligne, libre et téléchargeable), qui sait faire cette détection de langue. Ce serait un formidable outil de recherche, qui ne coûterait pas très cher au premier moteur qui ferait l'effort et pourrait lui rapporter gros en terme d'image. Peut-être un challenger ;-) saisira-t-il la métaphore : en ramassant les chaumes, moins nobles que les blés, on peut encore faire de beaux profits... A la vitesse où Google s'active, il faut que les autres moteurs se dépêchent pendant qu'il reste quelque chose à glaner, sinon ils vont se retrouver sur la paille !

Libellés :


1 Commentaires:

Anonymous Anonyme a écrit...

Belle démonstration! C'est là qu'on voit l'art du linguiste à la traque du texte et du mot!
Il n'empêche, je me pose une question amusante: Augustin a-t-il lu Ovide ? Ou alors, s'agit-il d'un topos littéraire qui fait son chemin au fil de l'histoire ?

23 février, 2005 09:46  

Enregistrer un commentaire

Microsoft: Même pas mal ?

On connaît la progression spectaculaire de Firefox. On en a parlé partout. Il faut dire que les utilisateurs sont peut-être un peu fatigués des failles à répétition d'IE, qui transforment votre ordinateur en nid à spyware, avec fenêtres qui s'ouvrent partout sans qu'on ne demande rien, remplies de propositions diverses, allant du casino miraculeux au porno le plus abject...

Get Firefox!

Xiti publie une étude selon laquelle le panda rouge (ce n'est pas un renard...) dépasse la barre des 10%. Comme il y a aussi quelques autres navigateurs marginaux (Opera, etc.), Microsoft n'est plus qu'à 87%.


Source : Xiti

La réponse standard de Microsoft c'est "Même pas mal... On n'est pas duuuu tooout inquiets". Pourtant, Fann, sur Infos-du-Net fait remarquer aujourd'hui que :
[...] ce n'est qu'une moyenne d'utilisation sur certains sites connus (le Journaldunet, Neteconomie, Google News, ItrNews, mais surtout TF1.fr, LeMonde, France Inter...). Sur beaucoup de sites internet (professionnels ou non), Firefox dépasse la barre des 10% voir des 15% allègrement. Par exemple, sur mon site internet (DameChaos), Firefox en est à 19,9% d'utilisation. Et ce n'est pas le seul !
Et de fait, si je regarde les statistiques des navigateurs qui accèdent à ce blog, je vois que Firefox est à 44% et qu'IE n'atteint qu'un petit 47% !



Sur LanguageLog, un blog Etats-Unien très fréquenté (2500 visiteurs par jour), et consacré à la linguistique (donc avec un public plus "littéraire", et peut-être moins enclin au "bidouillage" informatique, image dont souffre encore peut-être à tort Firefox), le part d'IE n'est quand même que de 55% :



La grande variabilité de la pénétration des navigateurs en fonction des différentes "sous-populations" qui peuplent le Web est donc patente. Si l'on considère que les lecteurs de blogs sont (peut-être) parmi les internautes les plus actifs, qui préfigurent en quelque sort le Web de demain, Microsoft a de quoi se faire du souci (et s'en fait, en interne !).

Alors, Bill, même pas mal ?

11 Commentaires:

Blogger J2J2 a écrit...

Pour ma part, sur le blog motrech, (je vais bien finir par augmenter mon PageRank à force de placer des liens vers motrech!) les chiffres sont encore plus impressionants (désolé, mais on ne peut pas mettre d'image dans les commentaires de blogger):
http://motrech.free.fr/images/blog/stats-browsers-050222.gifFirefox : 48,48 %
IE 6.X : 34,34 %
IE 5.X : 7,07 %
Opera 8.X : 7.07 %
Mozilla 1.X : 1.01 %
Netscape 7.X : 1.01 %
Netscape 4.X : 1.01 %

22 février, 2005 15:12  
Anonymous Anonyme a écrit...

Ce n'est pas la première fois que je consulte un blog qui dresse des statistiques sur les navigateurs utilisés par ses lecteurs ; pas la dernière fois où Firefox fait beaucoup plus de "parts de marché" que sur des sites généralistes. L'explication donnée est à chaque fois la même qu'ici, à savoir la soit-disante plus grande expertise Web des lecteurs de ces sites par rapport à l'internaute moyen.

Je me demande si, à l'inverse, on ne pourrait pas utiliser le pourcentage de lecteurs d'un site utilisant Firefox comme degré de difficulté d'approche d'un site. Ainsi on pourrait voir se multiplier les avertissements sur les blogs du genre "attention! sachez que 40% des lecteurs de ce site utilisent Firefox" ou au contraire "site à consulter sans risque, 95% des visiteurs y usent de IE"...

En allant plus loin, on pourrait même penser à utiliser les possibilités différentes des navigateurs pour afficher à l'internaute une information à son "niveau". Les différences de traitement entre IE et Firefox (au hasard) en CSS ou en javascript, qui font juqu'à maintenant hurler les webmasters pourraient ainsi trouver une utilité !?

Du sectarisme sans doute, ou même de la "discrimination positive" pour parler moderne, n'empèche que l'idée me trottait dans la tête... :p

22 février, 2005 15:24  
Blogger Jean Véronis a écrit...

Jérôme > Hélas non :

je vais bien finir par augmenter mon PageRank à force de placer des liens vers <A HREF="http://motrech.blogspot.com" REL="nofollow">motrech</A>!) .

22 février, 2005 15:42  
Blogger J2J2 a écrit...

Pas cool Blogger de mettre un nofollow automatique dans les commentaires...
:-(((

22 février, 2005 16:06  
Anonymous Anonyme a écrit...

Firefox est vraiment formidable, dommage que les traducteurs français ne se bousculent pas et que les logiciels associés ne soient pas encore au même niveau (l'agenda est basique et pas beau).

De manière générale vive le logiciel libre!

A propos, pourquoi utiliser Blogger qui est un système propriétaire avec des fonctionnalité réservées aux "bloggers", alors qu'il existe un libre, sans pub et bien français je crois: Dotclear?

22 février, 2005 19:06  
Blogger Loran a écrit...

Bonjour

cette progression (réjouissante :o) ) est d'autant plus significative que les grands entreprises grandes pourvoyeuses de surfeurs n'ont pas (encore?)
incitées (ou le plus souvent permis) l'utilisation de FF.

Quand on voit le temps qu'il a fallu pour passer de Communicator a ie4 ou 5 ou meme 6, on est en droit d'imaginer que la marge de progression est encore importante.

Ceci dit il faut pas vendre la peau de l'ours... MS a montré dans sa guerre avec Linux, que sa capacité de réaction strategique (SCO par exemple), commerciale ( la marie de Paris en est un malheureux exemple), marketing (la plus marquante etant "get the facts") et technologique (une gamme de produit importante et quoiqu'on en dise fonctionnelle) était importante.
Jusqu'a l'obtention de résultats surprenants comme celui commenté ici, (FUD ou réalité le débat n'est pas tranché)
http://www.lelezard.com/actu/2427/windows-server-2003-mieux-que-enterprise-serveur-de-red-hat-.html

Amicalement,


a quand le moteur de recherche libre....

22 février, 2005 19:28  
Blogger J2J2 a écrit...

Le moteur de recherche libre existe déjà... Nutch.
J'ai un projet de billet de sujet, mais j'en ai déjà plusieurs dans le pipe en cours de rédaction. Il faudra donc attendre un peu...

23 février, 2005 00:07  
Blogger Jean Véronis a écrit...

Jérôme (sur "no follow") > oui, mais il faut continuer à commenter quand même, parce que le "no follow" ne s'applique pas à la signature (je ne sais pas si c'est volontaire, ou s'il l'ont loupée) :

<a href="http://www.blogger.com/profile/877477">Jérôme Charron<> a écrit...

Il vaudrait mieux faire comme certains, mettre directement un lien vers un blog ;-)

23 février, 2005 14:07  
Anonymous Anonyme a écrit...

Comment ça c'est pas un renard ? Voilà encore une de mes (peu nombreuses) certitudes mises à mal... C'est quoi ce panda rouge ? !!!
Cela dit je suis passée d'Explorer à Firefox depuis quelques semaines et en suis très contente !

24 février, 2005 10:09  
Anonymous Anonyme a écrit...

Firefox est vraiment formidable, dommage que les traducteurs français ne se bousculent pas et que les logiciels associés ne soient pas encore au même niveau
telecharger msn

27 août, 2005 21:55  
Anonymous Anonyme a écrit...

Je me demande si, à l'inverse, on ne pourrait pas utiliser le pourcentage de lecteurs d'un site utilisant Firefox comme degré de difficulté d'approche d'un site. Logiciel Photo logiciels gratuitAinsi on pourrait voir se multiplier les avertissements sur les blogs du genre "attention! sachez que 40% des lecteurs de ce site utilisent Firefox" ou au contraire "site à consulter sans risque, 95% des visiteurs y usent de IE"...

29 août, 2005 10:31  

lundi, février 21, 2005

Texte: La mort des brouillons ?

Les brouillons des grands écrivains sont de véritables trésors, comme l'a montré la magnifique exposition de la BNF "Brouillons d'écrivains" (elle est toujours en ligne, profitez-en !). Chaque manuscrit porte la trace de la lente gestation de l'oeuvre, les essais, les détours, les doutes, les regrets... Les brouillons nous éclairent parfois d'une façon irremplaçable sur la signification du texte ou l'intention de l'auteur, et constituent parfois des chefs-d'oeuvres artistiques en eux-mêmes.


Manuscrit de Dolor, poème de Victor Hugo

Jean-Louis Lebrave, chercheur à l'ITEM (Institut des Textes et Manuscrits modernes), s'inquiète de la disparition des brouillons avec la généralisation du traitement de texte. Dans quelques décennies, rien ne restera probablement de l'élaboration des chefs-d'oeuvre qui sont en train de naître... Quel écrivain, quel éditeur, garderont les différentes versions de leurs écrits pour la postérité ? L'informatique permet de livrer un produit fini, poli, parfait. Pourquoi garder des strates géologiques imparfaites, sales -- et peut-être bien embarrassantes ?

Un billet de Martin Lessard sur Zéro Seconde, a récemment retenu mon attention. Martin compare les wikis (l'encyclopédie Wikipedia par exemple) avec les palimpsestes du Moyen-Age. Les moines grattaient les parchemins, matériaux coûteux, pour y écrire à nouveau un autre texte :

Cliquer pour voir l'image dans son contexte original.

Voici ce que dit Martin :
Le palimpseste technologique
(nouvelle définition du wiki)

Texte sur une page web dont les copistes de l'Âge Internet ont effacé l'écriture pour y écrire un autre texte.


...suite...
Je vous laisse lire le texte en entier sur ZeroSeconde. C'est l'une de petites merveilles qu'on trouve parfois sur les blogs, du kiss-cool pour la pensée... On en sort avec les neurones tout rafraîchis !

C'est vrai que les wikis, avec leur possibilité de garder toutes les traces de la modification du texte électronique (j'allais dire du manuscrit!), ressemblent à ces parchemins grattés, où l'on peut encore parfois lire d'autres versions entre les lignes. Je regarde souvent moi-même l'historique des articles de Wikipedia avec autant d'intérêt que les articles eux-mêmes :


Mais il y a une différence de taille : les moines essayaient de laver le parchemin de toute trace antérieure. RAZ, reset, comme on dirait de nos jours. Ils ne corrigeaient pas, ils écrivaient autre chose. Le parchemin moderne, la peau d'octet, ne coûte plus rien. Le plus proche de nos wikis, c'est peut-être tout simplement le brouillon d'écrivain, qui garde la trace du processus d'élaboration...

Dans quelques décennies, si tout cela ne se perd pas, on pourra étudier la gestation de la Wikipedia, les luttes d'influences, les négociations, la recherche des consensus. Imaginez que l'on ait tous les brouillons de l'Encyclopédie Diderot-D'Alembert, ou de l'Encyclopédie Méthodique de Panckouke (injustement méconnue) !

Alors, Jean-Louis, tout n'est peut-être pas perdu ? Peut-être le wiki sera-t-il l'outil de renaissance des brouillons ? Il y a déjà des projets d'écriture littéraire sur wiki (WikiRoman, projet Wikira, etc.). Ce sont des projets collaboratifs, mais qui sait si les auteurs individuels ne vont pas eux-aussi trouver dans le wiki un outil formidable de création ?

7 Commentaires:

Blogger J2J2 a écrit...

Au risque de me répéter, encore une fois un billet très intéressant.
Juste une petite remarque anecdotique: Le traitement de texte garde bien souvent une trace très lointaine des écrits d'un auteur. Effacez par exemple un document word, et sauvegardez le... une grande partie de l'historique du document est sauvegardé, même si le document est vide.

Pour ce qui concerne les Wiki, je suis depuis quelques années déjà un "mordu"!!! C'est une fabuleuse réponse au partage collaboratif des connaissances. Et comme vous le mentionnez à juste titre, au dela de la syntaxe simplifiée des Wiki et des liens "automatiques", le "versioning" des pages est vraiment dans la pratique quelque chose de de très intéressant (j'utilise tous les jours un Wiki dans le cadre de mon travail). Je reprocherais peut-être aux systèmes de "versioning" des Wiki l'impossibilité de "Tagger" des pages ou des ensembles de pages comme on le fait sous CVS (Concurrent Versions System) par exemple (le fait de "tagger" permet de poser un tag sur l'ensemble des pages et ainsi d'avoir un état global à un instant donné et d'y revenir plus tard... C'est ainsi qu'on versionne les sources d'un logiciel: Tag_pour_la_version_1.00, Tag_pour_la_version_1.5, ... ceci permet d'avoir une cohérence de l'ensemble des documents).

J'en profite d'ailleurs pour faire une "mini-annonce", mais le thème s'y prête vraiment: Je suis en train de mettre en place un Wiki motrech dont le but est de devenir une base de connaissances collaborative sur les moteurs de recherche et les sujets connexes (veille, référencement, linguistique, ...).
A suivre...

Il manquait dans votre article juste un lien vers le père de tous le Wiki. Voila, c'est chose faite... ;-)

22 février, 2005 10:35  
Blogger Jean Véronis a écrit...

Merci Jérôme pour ces commentaires, judicieux comme toujours. Les traces que laissent les différentes versions dans les documents MSWord posent de gros problèmes de confidentialité. Surtout ne pas écrire "ce gros con de patron" pour l'effacer ensuite ! Des entreprises se sont apparemment faites piéger à diffuser des choses pas vraiment voulues: Alcatel Fucks Up Bigtime (il y a un article intéressant sur ces problèmes sur Transfert.net).

Bon courage pour Wiki-Motrech !

22 février, 2005 14:27  
Blogger J2J2 a écrit...

Comment avez-vous deviné que je travaille chez Alcatraz ? (j'espère qu'avec ces mots je ne ferais pas grossir la liste des bloggeurs licenciés!)

Merci pour vos encouragements concernant Wiki-Motrech... et j'espère bien pouvoir vous compter parmi les futurs contributeurs!

22 février, 2005 15:00  
Anonymous Anonyme a écrit...

A propos des Wikipedias, vous dites :

"Dans quelques décennies, si tout cela ne se perd pas, on pourra étudier la gestation de la Wikipedia..."

Justement, "si tout cela ne se perd pas". Cela est un grand point d'interrogation. Moi qui travaille aussi dans le domaine du TAL, je pense qu'il faut s'interroger sur les avantages d'électroniser le texte. D'un point de vue historique, un gros inconvénient : les formats de données, ainsi que le matériel sur lequel sont stockées les données, deviennent illisibles à une vitesse hallucinante. Quand on pense que nous ne sommes plus une culture où l'histoire est orale, un texte écrit, ou imprimé, sur papier fait partie de notre mémoire collective. Si on ne trouve pas assez vite des standards de formats de données, l'avenir du passé sera en jeu.

23 février, 2005 06:39  
Blogger Jean Véronis a écrit...

Oui, c'est un gros souci... Ma propre thèse est désormais illisible. Il n'y a finalement que le papier qui perdure. J'ai dans la tête de faire un billet sur ça un jour, si je trouve le temps !

On se verra peut-être le 12 mars ? ;-)

23 février, 2005 09:07  
Anonymous Anonyme a écrit...

Oui, vivement le 12 mars ! Je ne manque jamais l'occasion de parler de formats durables, par exemple LaTeX (il fallait bien l'aborder, vous deux parliez plus haut de Word et de thèses illisibles)... :)

26 février, 2005 16:33  
Blogger CédricG a écrit...

C'est assez amusant. J'ai écrit il y a quelques années un logiciel pour écrivain (un de mes rêves - être écrivain), et il avait d'origine le versionnement intégré du texte.

19 avril, 2007 15:57  

Enregistrer un commentaire

vendredi, février 18, 2005

Google: Barre emblématique

Depuis quelques jours, Google propose la version 3 (beta) de sa célèbre barre d'outils, la Google Toolbar. Deux fonctions superbes méritent mention sur ce blog.

Tout d'abord, la Toolbar 3 propose une fonction de traduction de mots très efficace. Il suffit de passer la souris sur un mot anglais inconnu, et la traduction apparaît instantanément sous le curseur (je reprends des passages d'un précédent billet que j'ai écrit en anglais sur ce blog) :


Bien sûr, ce n'est jamais que l'accès à un dictionnaire, mais qui n'a jamais rêvé d'une telle fonctionnalité ? Elle est offerte pour l'instant de l'anglais vers l'allemand, le chinois, le coréen, l'espagnol, le français, l'italien. Évidemment, il y a encore peut-être quelques petites corrections à apporter dans les dictionnaires, mais c'est quand même déjà très beau :


L'autre nouveauté, c'est la correction orthographique dans les formulaires Web. Quel intérêt me direz-vous ? Il s'agit généralement de taper un mot clé, le numéro de son compte en banque, etc. C'est oublier que les blogs s'écrivent généralement à travers une interface Web, justement dans une boîte texte de formulaire. J'ai moi-même trouvé très pénible le manque de correcteur orthographique sur Blogger. Google nous fournit la solution. Il suffit de cliquer le bouton "Check" (vérifier) et la Toolbar souligne les mots inconnus en rouge (je reprends ici aussi un ancien billet, dans l'interface de saisie tel qu'il se présente sur Blogger) :


Superbe !

Cette nouvelle version de la Toolbar confirme la grande maîtrise qu'a Google des processus interactifs et la capacité de réaction de ses serveurs (la réponse est quasi instantanée), qui nous avait déjà épatés il y a quelques semaines dans Google Suggest. Pour l'instant, bien sûr, la Toolbar est proposée pour Internet Explorer, mais il ne fait nul doute que des versions Firefox apparaîtront bientôt (si ce n'est déjà fait).

Comme dit la boîte d'accueil, c'est avec des petits riens qu'on fait de grandes choses :



De parvis grandis acervus erit... Avec de petites (choses) on peut faire de gros amas (... de dollars). Une recherche (... sur Google !) nous indique que cette maxime est empruntée au poète plus ou moins obscur Geffrey Whitney, qui a publié en 1586 un livre d' "emblèmes", une forme artistique très en vogue au XVIème siècle, mélangeant gravures et petits poèmes illustrant une maxime. La gravure associée à "de parvis..." illustre bien l'idée qui est derrière la maxime : il s'agit de petits épis de blés qui forment de grandes gerbes :


Cliquez pour voir l'image dans son contexte original.

Devinette : pourquoi du blé ? La maxime est neutre : avec de petites choses... On aurait pu prendre n'importe quoi d'autre. Par exemple, de petits ruisseaux formant de grandes rivières ! Mais Whitney a choisi le blé pour une bonne raison. Laquelle ?

Libellés :


18 Commentaires:

Anonymous Anonyme a écrit...

le blé?? Car chaque tige donne 14 grains, qui donnent 14 tiges 6mois à un an après (suivant climat).
Avec une puissance de cet ordre, on atteint vite des nombres sympathiques.
Je suis pas sûr du 14, mais le principe est là.

18 février, 2005 11:05  
Blogger Jean Véronis a écrit...

Oui, oui, mais on aurait pu prendre d'autres images (grains de riz sur l'échiquier, multiplication des pains...). En d'autres termes quel est le lien entre la maxime et cette image-là particulièrement (il y en a un !) ?

18 février, 2005 11:13  
Anonymous Anonyme a écrit...

Je reposte une fois, la première n'ayant apparemment pas marché.

La réponse est là ?Si c'est le cas, l'image viendrait donc de ce que le blé est très largement associé métaphoriquement à l'argent ?

Au passage, ai-je trouvé l'expression régulière minimale ?

Wawa

18 février, 2005 12:18  
Blogger Jean Véronis a écrit...

Merci de me donner ce lien sur DSI. Je ne connaissais pas le billet de un dollar à la gerbe ! Ni l'ouvrage de Claude Paradin, que je viens de télécharger . Lecteurs allez-y voir, c'est superbe ! La maxime se trouve à la page 210. Quel bel outil quand même, Gallica, à condition de ne pas s'endormir sur ses lauriers : Google Print avance (mais avant qu'il puisse numériser ça, il passera de l'eau sous les ponts)...

Alors Whitney se serait "inspiré", puisque Paradin est antérieur (1557)... Intéressant.

Quant au blé... oui, la métaphore blé-richesse est bien ancienne, mais il y a d'autres métaphores possibles sur cette maxime (les ruisseaux, mais aussi les abeilles et la ruche, l'écureuil qui épargne petit à petit, la fourmi vs la cigale, que sais-je). Il y a un détail très précis et très factuel qui a influencé Whitney -- enfin, Paradin, finalement... Ah, ah, je reconnais que c'est difficile, mais on a de bons latinistes qui lisent ce blog ;-)

Je vais voir l'expression régulière. Le problème de Blogger, c'est qu'on ne peut pas afficher une rubrique "commentaires récents" et du coup on a tendance à se perdre...

18 février, 2005 13:29  
Anonymous Anonyme a écrit...

Dans un premier temps, je me suis attaché au nom de Whitney en rapport avec Wheat... Mais là, après relecture de la page... je renverrais à la citation d'Horace sur le document même :

[1,12] XII Fructibus Agrippae Siculis quos colligis, Icci,
si recte frueris, non est ut copia maior
ab Ioue donari possit tibi; tolle querellas;
pauper enim non est cui rerum suppetit usus.


traduite par:
[1,12,1] Si tu sais jouir des biens que tu recueilles, Iccius, sur les terres Siciliennes d'Agrippa [La Sicile, le grenier à blé de Rome...], il n'appartient point à Jupiter de te prodiguer une plus grande abondance. Cesse tes plaintes. Il n'est point pauvre celui qui a de quoi vivre.Mais d'Horace, il n'est pas question dans Paradin. L'influence de Paradin sur Whitney est probable... mais cela signifierait alors que ce dernier ait pris la citation d'Horace pour justifier son illustration.

18 février, 2005 15:19  
Anonymous Anonyme a écrit...

J'avais oublié d'ajouter: Whitney lui-même explique son choix dans la marge...

18 février, 2005 15:23  
Blogger Jean Véronis a écrit...

On avance ! Horace est une bonne piste. Whitney et Paradin avaient certainement les mêmes lectures, de toutes façons, et la références aux latins semblait très à la mode. Mais ça n'est pas tout à fait Horace...

18 février, 2005 15:27  
Anonymous Anonyme a écrit...

Exact: j'ai traduit beaucoup trop vite la note de Whitney dans la marge. En effet, Whitney dédie cette devise à son frère. Il s'explique donc: ut huic vacuo spacio aliquid adiiciam, non facile occurit (mi frater), quod et tibi (iam patrifamilias) et huic symbolo magis conveniat, quam illud Horatianum ad Iccium Ce que je traduirais, à main levée et sans dico, par "Pour que je remplisse ce espace vide avec quelque chose, il n'était pas évident, mon frère, que ce quelque chose convienne davantage à toi (déjà père de famille) par ce symbole, plutôt que cette [lettre]d'Horace à Iccius".
En tout état de cause, malgré les faiblesses de ma traduction (fautive, à mon avis), ce serait aussi un hommage à la paternité de son frère !?

18 février, 2005 15:43  
Anonymous Anonyme a écrit...

Référence à Virgile et son Moretum - qui semble-t-il n'est pas de lui... - dans lequel se trouve l'expression "frumenti pauper acervus", pauvre tas de blé ?

Tentative hasardeuse de ma part qui ne suis qu'un bien piètre latiniste...

Wawa (bibi.wawa@gmail.com)

18 février, 2005 17:31  
Blogger Jean Véronis a écrit...

Je suis un piètre latiniste moi aussi (hélas)... Mais je crois bien que les latins n'avaient pas de mot spécifique pour "meule" (de blé, de foin), et le mot habituel était justement "acervus" : "frumenti acervus". On l'a aussi dans le portrait de l'avare assis sur son tas de blé, et qui préférait manger des herbes amères, dans les Satires d'Horace : Si quis ad ingentem frumenti semper acervum....

On se rapproche ; il manque encore un mot essentiel qui explique tout... Et ce n'est pas Horace, ni Virgile, mais on brûle.

18 février, 2005 19:50  
Anonymous Anonyme a écrit...

Sans mérite: une petite recherche sur "acervus" et "granis" via... Google donne un proverbe latin "De minimis granis fit magnus acervus"...(http://www.kocher.pro.br/dicionario/d02.htm -sans garantie de qualité...). Mais de quand date ce proverbe ? Y a-t-il une ou des sources ?
Sans mérite et peut-être sans valeur, mais ça ajoute de l'eau au moulin (à grains...) et puis, on s'amuse. Je préfère ces petits défis-là aux traditionnels concours dans les blogs: "reconnaissez les airs de musique" ou "identifiez les fragments d'affiches de films".

18 février, 2005 20:49  
Anonymous Anonyme a écrit...

Cette fois, je pense que je suis aux origines conscientes ou inconscientes. Il y a plus que probablement, en lien avec la note en marge de Whitney à l'attention de son frère "iam paterfamilias", une allusion au Cantique des Cantiques, VII, 2: Umbilicus tuus crater tornatilis, nunquam indigens poculis. Venter tuus sicut acervus tritici, vallatus liliis...cité et commenté comme tel tout au long du Moyen Âge d'Augustin à Bède, en passant par Ambroise de Milan et Rupert de Deutz... Une autre mention intéressante, significative de l'ampleur de ce topos: dans un sermon de saint Augustin, n° 278: nam et aceruus frumenti minutissimis granis colligitur. Hélas, je n'ai pas de base de données de textes de l'antiquité sous la main, on pourrait peut-être remonter plus loin...

18 février, 2005 23:22  
Anonymous Anonyme a écrit...

Petite remarque hors concours :

Si la barre de Google nous permet d'avoir un correcteur orthographique dans les champs de texte, c'est vraiment bien ! (par exemple pour les profs qui complêtent leurs bulletins via une interface web...)
Mais cela signifie que tout ce que je tape dans une fenêtre web est aussi envoyé à Google. Ca me pose quelques problèmes de confidentialité, tout cela. A moins que je n'ai pas tout bien compris ?

Blog très intéressant. Merci !

19 février, 2005 10:17  
Blogger Jean Véronis a écrit...

Daniel > Ca me pose quelques problèmes de confidentialité, tout celaC'est clair ! Et avec GMail, qu'offre qussi Google, le problème est planétaire :
http://www.epic.org/privacy/gmail/faq.htmlhttp://www.google-watch.org/gmail.htmlCa fait un peu peur... Big brother is watching you!

19 février, 2005 10:29  
Anonymous Anonyme a écrit...

Moui, j'ai installé aussi cette Béta. Mais cela fait longtemps que je connaissais des formules similaires concernant la traduction. Babylon translator qui fut longtemps gratuit était bien mieux!
Par ailleurs je préfère naviguer avec Firefox dont s'inspirera IE7 fin 2006 et pour lequel Google n'a pas deigné faire évoluer sa toolbar alors que Mozila-Firefox est un fidèle soutien depuis plus de 5 ans (IE de Microsoft voudrait imposer MSN search qui est de mieux en mieux mais...largué)

Quant à Big Brother, je suis chez gmail (Google) et je je me doute bien que la traçabilité de mes navigations produit de l'information à valeur ajoutée pour les commerçants high tech, mais je n'en ai pas peur.

Ma crainte viendrait plutôt des manipulations éventuelles de l'information à des fins idéologiques ou politiques. Et là, je dois avouer que j'ai le sentiment que les contre-pouvoirs sont suffisants (à commencer par les blogs). Vive la démocratie et surtout vive l'Internet libre!

21 février, 2005 21:22  
Anonymous Anonyme a écrit...

Pour info. La barre Google ne semble pas (encore) offrir ces magnifiques outils sous Firefox. Dommage.

Avec Safari 2.0 sous Mac OS X on bénéficie de la correction orthographique dans les formulaires et aussi de l'annulation multiple. Un must !

Sur l'excellent site www.acces-pour-tous.net on trouve aussi des barres d'outils à télécharger mais aussi un correcteur d'orthographe en PHP (licence GNU) à installer sur un serveur web. C'est là :

http://www.acces-pour-tous.net/fichiers_communs/telechargement.php

À +

06 juillet, 2005 14:42  
Anonymous Anonyme a écrit...

-yo

18 août, 2005 21:55  
Anonymous Anonyme a écrit...

Je voyais plutot la devise comme une réfrence à la façon dont les produits google et notamment la barre d'outils sont finalement un ensemble (bien pensé) de petites fonctionnalités.
Comme quoi en mettant bout-à-bout de petites choses on arrive à en faire de grandes.

19 avril, 2007 15:32  

Enregistrer un commentaire

mercredi, février 16, 2005

SMS: Nomina Sacra

Du "texto" au Ier siècle ?

C'est ce que pourrait laisser penser le fragment de papyrus ci-dessous, acheté à un marchand égyptien en 1934, et connu sous le nom de papyrus d'Egerton 2.

Cliquer pour voir l'image dans son contexte original.

Ce fragment est fascinant, car c'est l'un des plus anciens manuscrits de la chrétienté (on estime qu'il date de la fin du Ier siècle ou au plus tard du début du second). Il fait partie d'un évangile apocryphe, c'est-à-dire l'un des textes qui n'ont pas été retenus lors de la construction du canon par l'Eglise (bien plus tard, au IVè siècle). Il est antérieur aux plus anciens fragments connus des évangiles (Marc, Matthieu, Luc, Jean) retenus dans le canon.

Les deux petits rectangles colorés indiquent des abréviations : le premier rectangle contient les lettres ΚΣ, abréviation de ΚΥΡΙΟΣ (kyrios = seigneur) et le second, ΙΗ, abréviation de ΙΗΣΟΥΣ (iésous = Jésus). Pour bien marquer qu'il s'agit d'une abréviation, les lettres sont surmontées d'une barre horizontale.

Bien sûr, on peut se douter que le papyrus était un matériau coûteux, et qu'il convenait d'optimiser l'espace. Les abréviations semblent exister depuis l'invention de l'alphabet par les phéniciens, et peut-être même depuis les débuts de l'écriture. Mais si l'on regarde attentivement l'usage qui en était fait par les premiers chrétiens, il est très différent de ce qu'on peut observer par exemple chez les moines du Moyen-Âge, qui économisaient manifestement le parchemin (encore plus coûteux que le papyrus), entre autres à l'aide des "notes tironiennes" (inventées par Tiron, esclave affranchi de Cicéron, pour retranscrire les discours de celui-ci au Sénat). Dans le papyrus d'Egerton 2, le "taux de compression" (si on peut se permettre cet anachronisme) est très faible ! Le scribe aurait pu abréger bien d'autres mots. Il suffit de comparer avec le taux de compression de ce texte médiéval (Saint-Thomas d'Aquin, 1286) :


Cliquer pour voir l'image dans son contexte original.

Cette ligne comprend les mots : modo ipsius; et ideo non habent rationem satisfactionis, sed vindica(tionis) ! Pratiquement chaque mot est compressé.

Rien de tel dans Egerton (et dans les anciens papyrus chrétiens). Le scribe se contente d'abréger une petite liste de mots sacrés, Seigneur, Jésus, Jérusalem, croix, etc. C'est pour cela que ce système d'abréviation a reçu le nom de nomina sacra.

Ne retrouve-t-on pas là le double besoin qui se fait sentir dans l'écriture "texto" : gagner de la place, sans doute, mais aussi marquer son appartenance à une tribu, à un groupe à part ? Il y avait très probablement un tel sentiment chez les premiers chrétiens, comme nous le rappelle l'étymologie du mot église : du grec ek - klesia, "qui a été appelé hors de"...

5 Commentaires:

Anonymous Anonyme a écrit...

Jolie analyse, j'apprécie en connaisseur.
Les nomina sacra , formes abrégées des principaux termes utilisés chez les Chrétiens pour désigner Dieu, sont en effet fascinants. Il semble bien que les nomina sacra soient apparus dans les milieux judéo-chrétiens d'Alexandrie, non pour des raisons de "compression" en effet, mais probablement pour exprimer l' "inexprimable tétragramme" , le Nom sacré, en le mettant en avant de la sorte. Je ne suis pas sur cependant qu'on puisse parler de signes identifiant une communauté dans la mesure où les intellectuels chrétiens qui écrivent et lisent ces textes sont bien peu nombreux à l'époque et où le sentiment d'appartenance large à l' ecclesia (en bon médiéviste, je préfère le latin!) s'exprimait par bien d'autres biais et symboles. N'empêche, l'hypothèse ne manque pas d'intérêt!
Pour les abréviations du plein Moyen Âge, attention de ne pas confondre le système abréviatif usuel et les notes tironiennes, plus rarement utilisées. A cette époque, évidemment, les abréviations étant héritées des modes abréviatifs romains (notamment en droit), on ne doit pas y voir du tout, c'est sur, de moyen d'identifier un groupe (par contre, l'écriture elle-même, héhé, je crois que ce serait bien le cas...). Les abréviations sont là pour 1. comprimer le texte et surtout 2. accélérer l'écriture posée non cursive: chaque lettre étant écrite, "calligraphiée" l'une après l'autre, ça devait prendre un temps fou: l'usage des abréviations permettait d'accélérer la copie, tâche pas amusante du tout...
D'ailleurs lorsque l'écriture deviendra totalement cursive, les abréviations disparaitront presque totalement.
En ce sens, on peut comparer avec les SMS: dans ces messages, chaque lettre est décomposée, comme "écrite" l'une après l'autre, avec un relatif inconfort (petit clavier, 9 à 12 touches seulement...) et par ailleurs, les textes doivent être courts, comprimés. Pour moi, le sentiment d'appartenance à une communauté est une conséquence apparue a posteriori à la suite de ces nécessités quasi-physiques!
Belle note, très stimulante!

17 février, 2005 19:27  
Blogger Jean Véronis a écrit...

Un grand merci ! des commentaires comme celui-là ça vous coupe le souffle, et ça vous récompense pour tout le temps passé sur ce blog ! C'est peut-être la beauté des blogs : rapprochement inattendus entre cogitateurs d'horizons différents... Dans quelle conférence académique informaticiens et médiévistes pourraient-ils avoir de tels échanges ? Pourvu que ça dure, que les spammeurs ou le business ne tuent pas ce beau médium. Des vitamines pour la pensée...

18 février, 2005 11:21  
Anonymous Anonyme a écrit...

Passionnant! Et croyez bien que si je ne laisse pas de commentaires, habituellement, c'est que mes réflexions personnelles se placent bien en deçà des vôtres. Il demeure que depuis quelques semaines je ne loupe pas vos cogitations enrichissantes.

Sur ce thème néanmoins, il me semble que la notion de communauté du SMS est analytique et non explicite. Je veux dire par là que personne n'écrit de SMS pour appartenir à une communauté. La motivation reste le message et la volonté de communiquer en utilisant la langue que l'on suppose vulgaire, c'est-à-dire largement partagée.

Je rejoins la position de Zid concernant le caractère pratique de l'écriture "comprimée".

Il demeure, que votre analyse est un angle de vue brillant et intéressant à plus d'un titre. Il y a certainement une part de vraie dans votre exposé puisque c'est ainsi que vous avez vu les choses.

Après avoir emprunté les icônes, les cartouches, voilà que nous aurions également emprunté les nomina sacra aux scribes? Vite, allons voir ce que nous pourrions encore leur piquer, histoire de se faire du fric sur un brevet!

20 février, 2005 12:37  
Anonymous Anonyme a écrit...

Très intéressant. Notamment la théorie de la tribu. De l'abréviation au sobriquet il n'y a pas loin.
Soit dit en passant, j'utilise pour mes notes des abréviations que j'ai été ravie de retrouver ici : m surmonté d'un trait horizontal = même, c surmonté idem = comme... Je n'en connaissais pas l'origine mais cela va loin !

20 février, 2005 15:42  
Blogger Jean Véronis a écrit...

Fabounet > Ce qui est fascinant dans les blogs, c'est qu'on peut présenter les choses de façon un peu provocante, on peut lancer des pistes pour réfléchir, on peut lancer des débats, faire rencontrer des mondes inattendus... Toutes choses qui sont difficiles dans la publication scientifique traditionnelle. Je ne dis pas que l'un doit remplacer l'autre, mais les blogs fournissent un espace de liberté très propice à la pensée, à la créativité...

Qu'est-ce qu'on pourrait encore emprunter aux scribes? Le palimpseste peut-être. J'ai lu l'autre jour un joli billet de Martin Lessard, qui nous fait faire une de ces rencontres inattendues que j'adore...

Fuligineuse > Nos petits signes de prise de notes du lycée, le petit rond suscrit pour les finales en -ion, etc., remontent effectivement bien loin. Et le système n'est pas figé, on utilise aussi des emprunts plus récents, aux maths par exemple (le E à l'envers pour il existe, // pour parallèle, etc.). Mes étudiants intègrent maintenant les abréviations des SMS. Fascinant...

20 février, 2005 17:10  

Enregistrer un commentaire

mardi, février 15, 2005

Référencement: Chirac, Chirac !

Fantastique ! Ca ne pouvait pas mieux tomber après mon billet d'hier : la preuve par l'absurde...



Sur Google.fr, Technologies du langage ne sort que sixième (mais avec le présent billet, ça va grimper ;-).

1 Commentaires:

Anonymous Anonyme a écrit...

Bonjour! J'ai aussi été très surpris en constatant qu'à l'inverse de votre Chirac Chirac, ma requête pourtant assez restrictive Buffalo buffalo buffalo buffalo buffalo buffalo buffalo buffalo m'affichait quand même quelques 107 000 000 résultats... Clin d'oeil au linguiste qu'une telle page, bien qu'en anglais, ne peut que faire jubiler : Wiki.

19 octobre, 2006 09:47  

Enregistrer un commentaire

lundi, février 14, 2005

Référencement: Drôlement verni !

Qui ne rêverait de se positionner premier sur un produit de grande consommation, susceptible de rapporter des millions ? Eh bien voilà, pour moi, c'est fait :


Les habitués de ce blog (il commence à y en avoir, merci de votre fidelité !) se rappellent peut-être que j'avais commis un billet sur les vernis à ongles et la chasse à courre... qui n'avait à voir ni avec les vernis ni avec les ongles, mais plutôt avec les stupidités des correcteurs orthographiques dans l'e-pub. A part ça, je ne crois pas avoir jamais parlé de vernis à ongles. Le hameau est tout petit, et on a un peu toujours les mêmes conversations au bistrot-épicerie-poste...

Donc, me retrouver positionné sur les vernis à ongles devant tous les sites de beauté :
les sites marchands :
et surtout (tout de même !) :
ça me les coupe (les ongles !). Les observateurs attentifs noteront que les grandes marques de produits de beauté se classent particulièrement bas (évidemment on ne peut s'empêcher de penser que cela arrange bien Google, qui peut leur proposer des liens sponsorisés à prix d'or pour qu'elles deviennent visibles...).

Alors voici une recette (gratuite) de positionnement miracle :
1. Choisissez un produit qui peut rapporter très gros, mais n'a que peu d'occurrences sur la toile.
2. Arrangez un truc avec les chinois pour en avoir du pas cher en grande quantité.
3. Ouvrez un blog chez Blogger.
4. Mettez le nom du produit en titre d'un billet.
Mais attention, mettez ce nom dans les quatre premiers mots, parce qu'au-delà, Google ne fera pas attention à vous. Je suis très déçu de voir que je ne suis vraiment pas positionné pour la chasse à courre, alors que le même billet contenait ces mots dans le titre.

En tous cas, dépêchez-vous, il reste des affaires à faire avec :
  • "rouge à lèvres" (73 600 pages)
  • "fard à paupières" (7 980 pages)
  • "cremes depilatoires" (681 pages)
Ca devient de plus en plus juteux au fur et à mesure qu'on descend dans la liste.

Conclusion : c'est n'importe quoi, et je n'aimerai pas être référenceur par les temps qui courrent.
*
* *
Un peu plus sérieurement : certains diront que "vernis à ongles" n'a que 52 200 occurrences sur le Net (enfin... sur Google -- lapsus révélateur), et qu'il est plus facile de se positionner correctement sur quelques dizaines de milliers de pages que sur plusieurs millions. C'est peut-être vrai (encore que...), mais je remarque que de très nombreux produits de grande consommation ont des fréquences faibles. Il y en a des exemples ci-dessus, mais vous pouvez faire d'autres essais, vous serez surpris. Les mots les plus fréquents ne sont peut être pas ceux qui correspondent à du moyen et petit business. Téléphones et télévisions ont plusieurs millions d'occurrences, mais qui peut raisonnablement attaquer ces marchés-là ?

Malgré la satisfaction qu'expriment les utilisateurs (voir rapport Pew), les moteurs de recherche ne fonctionnent pas de façon optimale, les experts le savent bien, et même les concepteurs l'avouent (pour Gregory Salinger, le directeur de MSN France, "une recherche sur deux ne donne pas de bons résultats"). Il n'est pas normal qu'un petit blog de rien du tout se positionne à l'aide d'un billet totalement anecdotique au-dessus de grandes marques internationales sur des produits qui sont au centre même de leur business. Bien sûr, on voit ici en oeuvre le coup de pouce de Google pour sa filiale Blogger, qui devient plus qu'un simple soupçon. On y voit aussi l'effet de la pondération irraisonnable que donne Google aux mots du titre. Mais au-delà de tout ça, on bute sur les limites des principes actuels d'indexaxtion.

D'une manière ou d'une autre, les moteurs actuels classent les résultats par notoriété. L'algorithme du PageRank, utilisé par Google dès 1999 est l'illustration parfaite de ce principe de notoriété. Pour faire simple, plus un site reçoit de liens et plus ces liens proviennent de sites importants, plus il monte dans les résultats. Les moteurs, Google en tête, ont dû aménager cette logique, car elle était trop vulnérable aux attaques de spammeurs, et on ne sait plus très bien quels sont les brouets numériques obscurs que concoctent les moteurs à l'heure actuelle pour classer les résultats, mais le principe de base n'a certainement pas fondamentalement changé.

Le problème avec le principe de notoriété, est qu'un site peut avoir une grande visibilité dans un certain domaine, sans pour autant être pertinent pour toutes les requêtes. Le vernis à ongles en donne un bon exemple. A supposer que ce blog ait une mini-notoriété dans le domaine du langage, du Web, etc., cela ne lui donne a priori aucune prétention dans le domaine des produits de beauté.

On voit mal comment remplacer le principe de notoriété, qui restera sans doute longtemps, sous une forme ou une autre, la base des classements de résultats. Cependant, il devrait être pondéré par une analyse minimale des sites. A l'heure actuelle, les critères internes aux sites sont extrêmement minimes (pondération du titre, évaluation globale de la quantité de contenu pour combattre les spams, par exemple). Bien sûr, des traitements sémantiques très compliqués peuvent être envisagés, mais des outils de statistique lexicale extrêmement rustiques pourraient déjà permettre une amélioration considérable des résultats. Sur ce blog par exemple, un classement trivial des mots par fréquence ferait immédiatement apparaître que vernis et ongles n'ont eu que des mentions marginales, et ne doivent donc pas faire remonter le site sur ces requêtes. A mon avis, c'est le traitement linguistique (même minimal) du contenu des sites qui permettra le prochain saut quantique dans l'univers des moteurs de recherche.

Or, la grande faiblesse de Google est justement son manque de chercheurs dans le domaine du traitement des langues. L'analyse des domaines de compétence de ses chercheurs à travers leur CVs et leurs publications fait apparaître une absence quasi-totale d'expertise dans ce domaine. Une telle expertise existe chez les développeurs de petits moteurs (notamment en France), mais les petits David semblent bien faibles par rapport au grand Googliath.

Le seul challenger sérieux, c'est... Microsoft, qui, lui, a des équipes de recherche extrêmement étoffées et d'une très bonne qualité sur le traitement des langues. Microsoft est parfaitement en mesure, s'il le décide, de faire le saut quantique dont je parlais ci-dessus, à relativement court terme. Des travaux sont d'ailleurs en cours. Mais la firme est connue pour son cloisonnement, sa bureaucratie, le fossé qui semble parfois impossible à combler entre ses recherches de pointe et la qualité éternellement médiocre de certains de ses logiciels, alors je ne ferais aucune prédiction. Microsoft pourrait. Le fera-t-il ?

D'une certaine manière, il vaudrait mieux que Microsoft ne devienne pas aussi le leader des moteurs de recherche. La main-mise du Léviathan informatique sur la quasi-totalité de l'accès à l'information en plus de tout ce qu'il contrôle déjà est une perspective qui a de quoi faire frémir.


Post-scriptum


23 fév - Il semblerait que Google soit en train de changer ses pondérations et qu'il fasse descendre les blogs (via LanguageLog). De fait, Technologies du langage semble avoir un peu descendu sur cette requête (et c'est logique quand même !), mais reste haut classé sur bien d'autres (et toujours premier sur infractus... A suivre !

25 fév - Ca semble se confirmer - Voir ce billet.

6 Commentaires:

Anonymous Anonyme a écrit...

Félicitation pour le contenu et l'écritue de votre Blog, qui est à la fois drolatique, analytique et très bien documenté, en particulier sur les différentes orthographes. En dépit des dysfonctionnements et des propres critères des moteurs de recherche, vous vous étonnez à de nombreuses reprises de votre PageRank élevé - mais vos lecteurs, dont je suis, y décèleront sans ambages une espièglerie, et trouvent ce PR justifié à plus d'un titre.
Quant à commenter ce dernier billet sur le référencement ("vernis à ongle"), je crois que c'est un plus grand profit si l'internaute, qui escomptait sans doute une manucure prochaine, conserve plutôt à la suite de sa requête ses doigt sur le clavier, et se consacre à la lecture de vos billets !

14 février, 2005 18:15  
Anonymous Anonyme a écrit...

"Téléphones et télévisions ont plusieurs millions d'occurrences, mais qui peut raisonnablement attaquer ces marchés-là ?"

Et pourquoi pas? En fait, un peu comme pour "vernis à ongles", il reste encore quelques secteurs où la concurence n'est pas trop rude en la matière. Pour d'autres, comme "téléphone", cela parait compliqué...
Mais tout le travail d'une bonne agence de référencement n'est-il pas aussi de compenser les faiblesses linguistiques des moteurs (et des internautes) et cela en trouvant les expressions et mots clés réellement en rapport avec le contenu d'une page et surtout avec les visiteurs ciblés? Je m'explique... J'ai travailler dernièrement sur l'optimisation et le référencement d'un site de téléphonie (vous le trouverez facilement parmis les résultats des requêtes proposées dans ce commentaire... mais je ne le siterai pas parceque ce n'est pas l'endroit pour faire de la publicité!). Travail compliqué à première vue! Mais finalement, il s'est avéré qu'être bien positionné sur des expressions tels que les marques et models de téléphones était beaucoup plus ciblé et donc rentable que des expressions laxistes comme "téléphone".
En effet, quand un internaute effectue une recherche sur le mot "téléphone", que cherche-t-il vraiment? Personne n'en sait rien en fait... Et il ne faut pas s'attendre à ce que le moteur de recherche (quel qu'il soit, bien que MSN ai fait de réel efforts en la matière, mais ce genre d'optimisation on souvent pour résultat de formater et donc d'uniformiser les résultats) le devine! Hors ce genre de requêtes (mal formulées, imprécises, indécises?...) est très fréquent, d'où le "une recherche sur deux ne donne pas de bons résultats"...
Il ne s'agit donc pas tant alors d'optimisation des moteurs que d'éducation des utilisateurs! Si vous recherchez "téléphone portable", ou "forfait téléphone" ou encore plus précisément "sagem myx5-2t", il y aura beaucoup moins de déchets dans les résultats proposés...
En conclusion, si vous ne savez pas ce que vous cherchez, ce n'est pas un problème de language qui se pose... simplement il ne faut pas demander à ce que votre moteur préféré le devine à votre place!

14 février, 2005 19:20  
Blogger Jean Véronis a écrit...

Vous avez tout à fait raison, le moteur ne peut savoir ce qu'il y a derrière certaines requêtes. Les moteurs ne tarderont pas à donner à l'internaute des possibilités de préciser sa requête. On aimerait avoir par exemple pour pizza:
* restaurants
* livraison
* recettes
Certains (petits) moteurs essaient déjà (avec plus ou moins de bonheur). C'est là que le traitement du langage intervient...

14 février, 2005 20:43  
Anonymous Anonyme a écrit...

Passionnant.

Je decouvre votre blog aujourd'hui, et c'est un réel plaisir de vous lire.
On y apprend beaucoup, en nous rappelant a l'occasion qu'il est toujours bon de s'interroger sur les outils que l'on utilise, surtout aussi massivement que dans le cas de Google.

15 février, 2005 18:11  
Anonymous Anonyme a écrit...

Petites precisions :
1) blogger n'est pas particulierement favorisé par google. j'ai des tres tres bonnes positions avec des blogs sur 20six comme sur joueb. cela tient plus de l'architecture des blogs en eux meme s'ils sont facilement positionnés qu'à une marque de fabrique precise.
2) les blogs ont toujours d'aussi bonnes positions, d'ailleurs, pas de pertes a signaler avec mes blogs mentionnés ci-dessus.
3) le classement par ordre de frequence des mots en analyse plain text avait déja ete testé par le Altavista de la vieille époque avec comme resultat de ramener des pages où le mot clé etait repeté 50 fois en blanc sur fond blanc...

28 février, 2005 12:36  
Blogger J2J2 a écrit...

Chacun son domaine de prédilection...
;-)

30 mai, 2005 12:20  

Enregistrer un commentaire

vendredi, février 11, 2005

Lexique: Yahoo et les yahoourts


A Henri, grand amateur d'informatique,
de langues et de yaourts,
et qui a eu la mauvaise idée de nous quitter trop tôt.

J'espère que le paradis n'est pas virtuel, et que tu nous y attends.



Le petit billet de Langue sauce piquante sur le yaourt a évidemment déclenché mon réflexe pavlovien habituel : me jeter sur Google en salivant (malgré ses petits soucis en maths) pour chercher la fréquence des différentes orthographes : yaourt, yoghourt... Mais j'ai aussitôt ressenti comme un flottement m'envahir : quelles sont au juste les orthographes possibles pour yaourt ? Le TLFI en donne trois en vedette : yaourt, yogourt, yoghourt, mais cite dans le texte tout un tas d'orthographes utilisées par des auteurs ou données par d'autres dictionnaires au fil du temps : yoghourt, yogourth, yoghourth, yohourt, yohourth, yahourt, yahourth, yagourt, yogourt, yoghourt, yoourt. Pour trouver la fréquence des différentes orthographes sur Internet sans pédaler dans le yaourt, il faudrait déjà avoir un moyen de les lister correctement.

Un peu de réflexion : il y a sept parties, on va dire graphèmes, dans ce mot, et chacune peut avoir des variantes. Je serai généreux en acceptant de commencer le mot par y ou i (on verra bien si iaourt, etc. sont attestés ou pas sur Internet). On peut résumer la combinatoire sous forme d'un tableau (je marque -0- pour les graphèmes facultatifs) :

1234567
iagourth
yoghoou

-0-


hu




-0-




Cela fait 2 x 2 x 4 x 3 x 1 x 1 x 2 = 96 possibilités. Il n'y a plus qu'à écrire le programme correspondant...

Oui, mais il y a des trucs pas nets qui nagent dans le yaourt. Ma belle logique sort des formes comme yaurt, ou yourt que j'ai bien du mal à prononcer en deux syllabes... Là, il m'a fallu un p'tit Yop pour me remonter ! Mon programme doit donc respecter la logique phonologique du français, et générer séparément les deux syllabes du mot, avec une règle gérant l'hiatus à leur rencontre : a+o ça fait deux syllabes, mais a+u ou o+u ça n'en fait qu'une. Dans ce cas, le g, gh ou h n'est plus facultatif, il faut l'insérer absolument pour rendre le mot correctement lisible : yagurt ou yahurt, par exemple. Maintenant que la situation est clarifiée, il suffit d'écrire quelques lignes de code, et voilà le résultat :

ya-yo-ia-io-
yagoourtyogoourtiagoourtiogoourt
yagoourthyogoourthiagoourthiogoourth
yaghoourtyoghoourtiaghoourtioghoourt
yaghoourthyoghoourthiaghoourthioghoourth
yahoourtyohoourtiahoourtiohoourt
yahoourthyohoourthiahoourthiohoourth
yaoourt
iaoourt
yaoourth
iaoourth
yagourtyogourtiagourtiogourt
yagourthyogourthiagourthiogourth
yaghourtyoghourtiaghourtioghourt
yaghourth
iaghourth
yahourt
iahourt
yahourthyoghourthiahourthioghourth
yaourtyohourtiaourtiohourt
yaourthyohourthiaourthiohourth
yagurtyogurtiagurtiogurt
yagurthyogurthiagurthiogurth
yaghurtyoghurtiaghurtioghurt
yaghurthyoghurthiaghurthioghurth
yahurtyohurtiahurtiohurt
yahurthyohurthiahurthiohurth

Cela fait 80 possibilités, si je n'ai pas bugg(h)é ! Il n'y a plus qu'à vérifier tout ça sur... eh bien, sur Yahoo (pages francophones), ça s'impose !

FormeSingulierPlurielTotal%
yaourt1120004940016140074,8
yogourt2610021802828013,1
yahourt134001960153607,1
yoghourt295085338031,8
yogurt343010935391,6
yoghurt117057517450,8
yaourth113012912590,6
yagourt11181190,1
yogourth7318910,0
yaghourt618690,0
yogurth342360,0
yahourth103130,0
yaoourt11
110,0
iogurt6170,0
iogourt6
60,0
yohourt4150,0
yagourth4
40,0
iagourt2
20,0
yaghurt1120,0
yagurt1120,0
iaourt1
10,0
ioghurt1
10,0
yahoourt1
10,0
yahurt1
10,0
yoghoourt
110,0
yohurt
110,0
Total16050855251215759100

Il y a 26 formes attestées, et les gagnants sont yaourt, yogourt et... yahourt, pas du tout yoghourt que nous donne le respectable TLFI (cette forme n'arrive qu'en quatrième position).

Et si l'on autorisait l'étirement du oooooooooooo ? La "netlangue" s'amuse beaucoup avec ça pour marquer des émotions : biiizzzz ! je t'aiiime ! etc. Joue-t-elle aussi avec la nourriture ? Je n'ai évidemment pas testé l'infinité des séquences. Seul le dieu Godgle pourrait peut-être, et encore. Je me suis limité à trois o consécutifs. Résultat : pas de yahooourts, ni de yoghooourts, sur le Net, rien du tout. Manque total d'émotion pour les produits laitiers. Il faudrait peut-être lancer une marque ? Yahooourt ! ça sonne bien. Et comme il n'y en a pas sur Internet, nous serions premiers sur tous les moteurs ;-) On pourrait se faire un sacré beurre.

Quelle complexité tout de même pour un seul mot ! Il faudrait peut-être éviter d'importer n'importe quoi à l'avenir, ou alors demander une directive européenne qui normalise les orthographes... En tous cas, je crois que je vais boire du petit lait en lisant vos commentaires. "Il nous fait tout un fromage pour un yaourt", etc. Allez-y, ne vous gênez pas, je n'en ferai pas un flan ; les commentaires, c'est comme le lancer de petits suisses à la cantine, ça défoule (mais ça salit moins!).

Exercices pour la semaine prochaine


1. Exercice à 0% : parmi toutes ces formes, lesquelles sont reconnues par les correcteurs orthographiques A) de Google, B) de Yahoo, C) de MSN, D) de votre traitement de textes favori ? Que concluez-vous ?

Exemple :






Avantage Google.

2. Exercice au lait entier, pour les experts seulement : qui trouvera la plus petite expression régulière qui génère cet ensemble de séquences (et celles-là seulement)?

12 Commentaires:

Anonymous Anonyme a écrit...

Non là franchement y déblog...

11 février, 2005 12:49  
Blogger J2J2 a écrit...

Vous faites dans ce billet, un peu la même "gymnastique" que celle que je réalise parfois lorsque je ne suis plus tout à fait certain de l'orthographe d'un mot: Je lance une recherche avec les deux orthographes envisagées et je retiens celle pour laquelle le moteur a retourné le plus de résultats (c'est pas joli, joli...).

Mais le Web peut-il aujourd'hui être perçu comme un corpus de l'état actuel des langue? (comme vous le mentionnez dans votre billet, la "netlangue" est souvent déformée, mal orthographiée, ...)

Les langues bougent, évoluent, mais le Web n'en serait-il pas un reflet déformé?

11 février, 2005 14:05  
Blogger Marianne a écrit...

Votre blog est toujours un régal... surtout quand on y parle de yaourt !
A ce sujet, on trouve même quelques yaoort et yahoort. Mais avec aussi peu d'occurrences, difficile de savoir si ce n'est pas juste une faute de frappe.
Pour l'expression régulière, je cherche...

13 février, 2005 21:25  
Blogger Jean Véronis a écrit...

Merci d'apprécier le menu !

J'ai éliminé les finales en -oort, car, selon moi, elles sont assez imprononçables en "ourt". Il y a me semble-t-il vraiment une association "oort" = flamand = prononciation "ort". D'ailleurs une recherche sur "yahoort" m'avais donné des pages en langues étrangères (même avec une recherche francophone) et quelqu'un qui s'est crée un pseudo "yahoort" par jeu de mot... Mais bon, on peut les inclure si on veut, il y en a de toutes façons pas beaucoup.

Pour l'expression régulière, hé hé... pas facile, hein ?

13 février, 2005 21:35  
Anonymous Anonyme a écrit...

Allez hop, un petit commentaire laitier de plus : yayourt, 218 résultats, qui dit mieux !

Merveilleux billet que celui-ci, félicitations :)

14 février, 2005 14:29  
Blogger Jean Véronis a écrit...

En réponse à Jérôme :

Je lance une recherche avec les deux orthographes envisagées et je retiens celle pour laquelle le moteur a retourné le plus de résultatsVous connaissez ce petit outil sympa : GoogleFight ?

Mais le Web peut-il aujourd'hui être perçu comme un corpus de l'état actuel des langue?Oui, tout à fait. La linguistique a manqué pendant longtemps de données d'observation. Avec le Web elle a une masse de données gigantesque à disposition et c'est fascinant. Bien sûr, ça n'est pas simple, il y a de multiples pièges -- ne serait-ce que les instruments d'observations (Google par exemple), qui sont imparfaits. Mais c'est la même chose dans les sciences "dures": les astronomes ont dû améliorer leurs téléscopes, etc. Mes travaux sur Google, les comptes, etc. sont un essai de compréhension et d'étalonnage des outils...

Les langues bougent, évoluent, mais le Web n'en serait-il pas un reflet déformé?

Je ne sais pas. Je crois que le Web nous donne un instantané de l'état de la langue, avec de multiples couches, depuis l'ultra-formel littéraire, juridique, etc. jusu'à l'hyper-relâché (forums, etc.). Le problème est de démêler le tout. Mais c'est un peu comme l'astronome qui observe le ciel... C'est très compliqué ; il y a de tout là-haut, et ça n'est pas l'astronome qui choisit l'ordre ou le désordre. Il ne peut qu'affiner ses instruments pour essayer de voir de mieux en mieux, et trier, catégoriser, modéliser. C'est ce que j'essaie de faire, modestement, avec le langage.

14 février, 2005 16:51  
Anonymous Anonyme a écrit...

{i,y}a{g,gh,h,-o-}{ou,oou}rt{h,-o-}U{i,y}{a,o}{g,gh,h}urt{h,-o-}U{i,y}o{g,gh,h}{ou,oou}rt{h,-o-} ???

15 février, 2005 18:08  
Blogger Jean Véronis a écrit...

Bel essai ! Je recopie l'expression façon Unix (egrep) de façon à pouvoir tester avec ma liste que j'ai mise dans un fichier (et a contrario avec la liste des cas que l'expression devrait rejeter : yaurt, yourt, etc.).

((i|y)a(g|gh|h)?(ou|oou)rth?|(i|y)(a|o)(g|gh|h)urth?)|((i|y)o(g|gh|h)(ou|oou)rth?)

ou encore mieux :

[iy]a(g|gh|h)?(ou|oou)rth?|[iy](a|o)(g|gh|h)urth?|[iy]o(g|gh|h)(ou|oou)rth?

L'expression reconnaît bien les 80 séquences correctes, et filtre les 16 autres.

Score : 76 caractères (dans le format Unix/egrep).

Il me semble qu'on peut gagner encore un peu en factorisant le début et la fin :

[iy](a(g|gh|h)?(ou|oou)|(a|o)(g|gh|h)u|o(g|gh|h)(ou|oou))rth?


62 caractères...

Peut-on faire mieux ? Je ne sais pas, le problème est ouvert... Si on ne peux pas réduire plus, c'est quand même horriblement compliqué pour un seul petit mot !

18 février, 2005 13:54  
Anonymous Anonyme a écrit...

Mais quel délice ce blog... avec des vrais morceaux de graphèmes dedans... et des concepts bien brassés...
Je ne peux pas résister à la tentation d'ajouter un proverbe grec :
"Maintenant que la mer est devenue du yaourt, nous on n'a plus de cuillères !"

20 février, 2005 16:05  
Anonymous Anonyme a écrit...

y'a mieux, 51 caractères !!!

[iy](ag?h?(o?ou)|[ao](g|gh|h)u|o(g|gh|h)(o?ou))rth?

25 février, 2005 11:46  
Blogger Jean Véronis a écrit...

Ah oui, bravo "Anonymous" ! bien joué...

Qui dit mieux ?

25 février, 2005 12:44  
Anonymous Anonyme a écrit...

a propos de l'exercice à 0%, google dit que "...Google est prêt à réagir à toute autre pratique malhonnête – par exemple, abuser les utilisateurs en enregistrant la version volontairement erronée de sites Web populaires (Yahoort, Gougol, Adobi...)".
cf leurs conseils aux webmasters.

07 avril, 2005 21:15  

Enregistrer un commentaire

mardi, février 08, 2005

Web: Le mystère des pages manquantes de Google résolu




Lire la suite

28 fév - MSN triche-t-il aussi ?
7 mar - Yahoo indexe plus de pages que Google
13 mar - Google ajuste ses comptes
23 mar - 5 milliards de "the" sont partis en fumée
25 mar - Un instantané sur la mise à jour



Dans de précédents articles, j'ai mis en évidence deux problèmes étranges affectant les comptes de Google (ici et ici). Des millions de pages semblent massivement disparaître :
  • si l'on tape Chirac OR Sarkozy, on obtient la moitié des résultats obtenus pour Chirac tout seul, ce qui peut trouver une explication politique, mais constitue une curieuse approche de la logique booléenne ;
  • si l'on cherche the dans les pages anglaises, on obtient 1% du nombre de résultats obtenus sur l'ensemble du Web, toutes langues confondues. Est-ce que ça veut dire que the est 99 fois plus fréquent dans les langues autres que l'anglais ? Bien sûr que non.
Où sont passées les pages manquantes ? C'est le problème que je me pose dans cet article. Un scenario possible est que l'index véritable de Google est considérablement plus petit que la taille officiellement annoncée. L'expérience détaillée que je rapporte ci-dessous donne une estimation de 60%, ce qui correspondrait à une taille d'index véritable d'environ 5 milliards de pages. Ce scénario est bien sûr entièrement hypothétique, mais il permet d'expliquer les différences dans les comptes de pages anglaises, et le comportement singulier des opérateurs booléens.

Je préfère le dire clairement tout de suite, de façon à ne pas faire perdre leur temps aux commentateurs éventuels : ceci ne veux pas dire que Google soit un mauvais moteur (je l'ai d'ailleurs en page d'accueil de mon navigateur). Pour la plupart des utilisateurs, les comptes sont sans intérêt, et ce qui... compte pour eux, c'est de savoir s'ils obtiennent leur résultats rapidement et efficacement ou non. Les chiffres ne présentent un intérêt que pour les experts, et dans ce cas précis, ils ont des raisons de s'interroger.

Une expérience

Dans cette nouvelle expérience, je n'ai pas utilisé des mots fréquents comme the, car de tels mots ont toutes les chances de faire l'objet d'un traitement spécial dans tous les moteurs de recherches. Ils font probablement partie d'un antidictionnaire (stoplist), et leurs occurrences ne sont probablement pas pleinement indexées. J'ai plutôt utilisé 50 mots anglais tirés au hasard dans un corpus d'un million de mots (accumulated, alive, ancestor, bushes, etc.), en éliminant les mots pour lesquels je connaissait un homographe évident dans une autre langue (par exemple patio).

La figure ci-dessous donne une représentation des comptes fournis par Google pour une recherche de ces mots dans les pages en anglais par rapport à ceux qu'il fournit sur l'ensemble du Web (la partie qu'il en connaît, bien évidemment) [voir résultats complets ici -- toutes les valeurs ont été obtenues le 6 février] :


La pente de la droite de régression nous indique que les résultats en anglais représentent 56% des résultats pour l'ensemble du Web, sur les mêmes mots. Bien entendu, j'ai pu manquer quelques homographes interlingues, et certains des mots apparaissent probablement cités dans des pages non-anglaises, mais ces facteurs devraient être marginaux -- et de toutes façons différents pour chaque mot. Si quasiment la moitié des occurrences apparaissent dans des pages non-anglaises, on devrait oberver une dispersion considérable des résultats. Au lieu de cela, on observe une très forte corrélation entre les deux comptes, avec un coefficient de détermination R2 égal à 0.96. Cette corrélation importante est statistiquement impossible, et un facteur systématique doit être présent pour l'expliquer. Une possiblité serait une performance très médiocre de l'algorithme de détection de langues utilisé par Google, mais c'est une explication très improbable, car on en verrait des traces dans près d'un résultat sur deux. Or, c'est loin d'être le cas : la détection des langues dans Google est très robuste, même si, évidemment, elle n'est pas parfaite.

Par ailleurs, si nous examinons les résultats de Yahoo pour la même liste de mots, nous obtenons un comportement bien plus conforme à nos attentes [voir résultats complets ici] :


La corrélation est également très forte (même plus forte, en fait), mais ceci est tout à fait normal, puisque les résultats sont presque identiques : les résultats anglais représentent 92% du total. Ce chiffre est bien plus en accord avec nos connaissances linguistiques.

Les résultats français sont tout à fait similaires. J'ai fabriqué une liste de mots français selon les mêmes principes, et je l'ai soumise à Google et Yahoo [voir résultats complets ici]. Google donne 58% des résultats situés dans des pages en français, avec, à nouveau, une corrélation importante -- légèrement plus faible (R2 = 0.86), mais également incompatible avec la proportion importante de résultats qui seraient situés dans des pages non-françaises. Le comportement des mots individuels devrait amener une image globale beaucoup plus aléatoire.



Yahoo se comporte exactement comme pour l'anglais. La proportion des résultats situés dans des pages françaises est même légèrement supérieure (97%), ce qui est conforme aux attentes, puisque l'anglais, langue internationale, est plus susceptible que le français d'être cité dans de nombreux documents en langues étrangères.



Un scénario possible

De nombreux experts (voir par exemple ici) pensent que la base de données de Google est composée de deux parties (au moins). L'une des deux parties est un véritable index, tandis que l'autre ne contiendrait que des URLs de pages dont Google connaît la présence, mais qui n'ont pas été réellement indexées (à part peut-être les mots présents dans l'URL). Je n'ai bien entendu aucun moyen de savoir si cette hypothèse est correcte (bien que, jusqu'en 2002, Google l'ait admise publiquement), mais elle permet d'expliquer les comportements curieux dont je me suis fait l'écho ci-dessus.

Appelons ces parties hypothétiques A et B, composant à elles-deux la base de données D :



Nous pouvons dès lors écrire un scénario possible. Quand on interroge Google avec un mot X sans spécification d'une langue particulière, Google interroge son index (c'est-à-dire la partie A), qui lui fournit un nombre de résultats. Ce compte est extrapolé pour être en accord avec la taille de la base de données D (c'est-à-dire augmenté dans un rapport de 1/0.60 = 1.66). Par contre, lorsque la recherche est restreinte à une langue particulière, l'extrapolation n'est pas faite, car les pages dans la partie B ne sont pas indexées, et pas catégorisées du point de vue des langues. Seuls les résultats de A sont fournis. Bien sûr, il aurait été possible de projeter les proportions des différentes langues de A dans la base de données D, et de fournir une extrapolation réaliste malgré tout, mais les ingénieurs de chez Google n'y ont sans doute pas pensé, ou ont trouvé que c'était sans importance.

On peut calculer une estimation très précise de la taille relative des parties A et B, à partir de mes résultats précédents. Selon Yahoo (si on accepte de lui faire confiance), 92% des résultats concernant ma liste de mots anglais sont situés dans des pages en anglais. Si l'on applique la même proportion à Google, cela veut dire que l'index (c'est-à-dire la partie A) est de 0.52 / 0.92 = 60.9% de la taille de D. Il est assez intéressant de remarquer que si on applique les mêmes calculs au français, on obtient une estimation de 0.58 / 0.96 = 60.4%. Ces chiffres sont si proches qu'il serait surprenant qu'ils soient dus à une coincidence.
Selon le scénario esquissé ci-dessus la taille réelle de l'index Google est donc d'environ 60% de celle de la base de données complète, et les résultats fournis sont affectés d'un facteur d'inflation de 66% (1/0.60 - 1).
Il est difficile de rapporter ces proportions à des valeurs absolues, car personne ne sait exactement quelle est la taille de la base de données Google. En novembre 2004, Google a annoncé que le moteur cherchait dans 8 058 044 651 pages Web. Ce chiffre n'a pas changé depuis sur la page d'accueil, mais j'ai montré le 23 janvier que l'index s'était accru d'un facteur 1.13 depuis novembre (lire ici). Une estimation du 6 février me donne un facteur d'accroissement de 1.14. Ceci correspondarait à une base de données de 9.2 milliards de pages, c'est-à-dire un index véritable (partie A) d'environ 5.5. milliards. Certains obervateurs ont observé qu'en novembre, Google a affiché pour un court instant 10.8 milliards de résultats pour la requête the, ce qui indiquerait une base de données plus grande encore, à moins que cela signifie simplement qu'à un moment donné Google a envisagé un facteur d'inflation encore plus grand. Nous ne le saurons probablement jamais.

Un nouveau regard sur la logique Googléenne

Le scénario hypothétique esquissé ci-dessus fournit également une explication simple au problème de la logique Googléenne. Rappellons-nous que X OR Y renvoie moins de résultats que X tout seul (voir détails). Encore plus étrange, X OR X et X (AND) X renvoient aussi moins de résultats que X tout seul. J'ai interrogé Google avec X OR X et X (AND) X pour chaque mot de ma liste anglaise (avec l'option "tout le Web") . Les résultats sont dans les deux cas quasiment identiques pour la totalité des mots [voir résultats complets ici], et, ce qui est encore plus surprenant, ils correspondent quasi exactement aux résultats pour X sur les pages anglaises seulement (coefficient de détermination R2 > 0.999 !


Il est probable que Google effectue ses calculs booléens (union et intersection de listes) sur la base de l'index véritable (partie A). Ceci expliquerait pourquoi X OR X et X (AND) X donnent les mêmes résultats qu'une recherche sur X en anglais. La même chose se produit avec les mots français [voir résultats complets ici]. Si ce phénomène surprenant n'a pas été relevé jusqu'ici c'est sans doute qu'il est brouillé lorsqu'on utilise des mots qui peuvent apparaître dans plusieurs langues (homographes comme patio ou noms propres comm Chirac ou Bush).

Selon toute probabilité, les ingénieurs Google ont oublié de connecter la routine d'extrapolation à la sortie du module de requêtes booléennes ! En conclusion, si vous voulez connaître le vrai compte des mots dans l'index Google, tapez-les deux fois :

MotCompte
Chirac3 570 000
Chirac Chirac
2 170 000

La deuxième ligne fournit probablement le vrai compte...

Lire la suite

28 fév - MSN triche-t-il aussi ?
7 mar - Yahoo indexe plus de pages que Google
13 mar - Google ajuste ses comptes
23 mar - 5 milliards de "the" sont partis en fumée
25 mar - Un instantané sur la mise à jour



34 Commentaires:

Blogger Loran a écrit...

Excellent!!!!!!
Bon ben c'est definitif je deviens pompom girl de votre fan club!

08 février, 2005 15:22  
Blogger J2J2 a écrit...

Ou comment le marketing l'emporte sur la raison.Cet scénario semble finalement assez probable.

En effet, l'hypothèse des deux index est plus que certaine. Tous les moteurs de recherche fonctionnent plus ou moins de de la sorte.
Le "spider" est alimenté par une file d'attente d'URLs issues de l'analyse des différents documents de la base de données A et des soumissions volontaires. Ce spider alimente la base de données B en parcourant le web. La base de données B, en attente d'indexation (afin d'entrer dans la base de données A) est potentiellement très grosse puisqu'un
spider (qui finalement n'est rien d'autre qu'un wget) n'est limité que par la bande passante, contrairement au processus d'indexation qui demande des algorithmes complexes.

En revanche cette extrapolation m'inquiète encore un peu plus sur Google (j'avais déjà tellement d'inquiétudes au sujet de Google aujourd'hui...).
Que Google fasse une extrapolation à partir de résultats partiels, pour nous fournir une évaluation du nombre de réponses me semble tout à fait acceptable, mais extrapoler sur le volume d'une base qui n'est pas indexée est tout de même incroyable!

Google aurait-il si peur que cela de MSN et Yahoo?L'équipe de management de Google doit tout de même bien savoir que la taille de l'index n'est pas TOUT dans un moteur de recherche...

08 février, 2005 16:04  
Anonymous Anonyme a écrit...

Bon ben je viens de poster un commentaire ici allant dans le sens de ton article, mais ma contribution était évidemment beaucoup moins bien argumentée et documentée.
Pourtant, il me reste un doute concernant les 60% de pages référencées : c'est le rapport anglophone/web de l'ordre de 1% qu'on obtient pour "the" mais aussi pour l'ensemble des mots très fréquents en anglais (et donc très fréquents sur le web anglophone).

Ce rapport n'est-il pas en faveur d'une partie indexée bien inférieure aux 60% que tu obtiens ?

Autre chose, pour répondre au commentaire précédent et au blog cité en lien par l'auteur : il n'y a pas que les google search, google mail, google photos en ligne... Il y a aussi le google jeu : il s'agit de trouver une requête sur deux termes (français) ne rendant qu'un seul résultat.

Exemple en françaisExemple en anglaisLes deux exemples se rapportent à google.fr, recherche sur le web entier, mais évidemment, toutes les variations sont possibles ;-)

08 février, 2005 18:00  
Blogger Loran a écrit...

Rebonjour

ne pourrait on pas tester ceci en faisant la recherche sur un mot extremement rare (moins de 1000 resultats qui est la limite d'affichage de google)?

Je n'ai pas réussi a trouver de mots avec moins de mille résultats en Francais et en Anglais.

Pour info ornithorynque renvoie quand meme 49 500 pages de resultats.

Mais dans d'autres langues accessibles a travers l'onglet recherche avancée (je pense a l'islandais, le croate ou le serbe)?
Le probleme etant alors d'avoir un dictionnaire sous la main permettant la recherche d'un mot rare en serbe (Mais m'adressant a un linguiste, je suis plein d'espoirs! :) ).

On devrait pouvoir trouver un mot qui renvoie moins de 1000 reponses dans les deux cas (international et langue choisie).
Si le probleme vient du fait que l'indexage n'est pas encore réalisé on devrait pouvoir voir les resultats proposés par l'index international non encore indexés?
Ce qui permettrait de voir s'il existent, s'ils sont classes et si oui comment...
C'est un peu fumeux mais qu'en pensez vous?

08 février, 2005 18:09  
Blogger Jean Véronis a écrit...

Ouh là! tous ces commentaires, d'un coup. Je n'arrive pas à suivre. J'étais en train de répondre à Anonymous sur l'autre post... Je met ici ce que je disais.
--
Il est fort improbable que les mots fréquents soient totalement indexés, pour des raisons évidentes de place. Pas question d'indexer tous les "the", mais on peut en indexer une partie, concernant les pages de relevance la plus élevée. Mon hypothèse est qu'au-delà de 0.5 x 10^8 la proportion mise dans l'index suit une loi de ce type. Ca paraît être une bonne solution technique. Et comme l'interrogation sur les pages en anglais a l'air de faire apparaître le vrai contenu de l'index [voir mon billet d'aujourd'hui], c'est peut-être l'explication...
--

Sur l'indexation progressive, Jerôme a tout à fait raison. Le problème c'est qu'il y a peut-être une limite technique, qui fait que Google doit enlever des pages d'un côté s'il en ajoute de l'autre... On pourra vérifier si on voit croître la partie A ou pas. Beaucoup de gens disent que la programmation de Google arrive un peu à bout de souffle avec des bases de données de tous les côtés et pas mal de rustines pour tenir le tout. Les moteurs plus jeunes ont l'avantage de pouvoir partir sur du neuf...

Pour Loran : je crois que les mots à très faible fréquence suivent encore une autre logique, et sont peut-être encore dans un autre index... A voir. Effectivement, on pourrait en tester, et tester des langues plus rare (c'est dans mes plans, mais le temps manque un peu).

Pour le fan-club, c'est super (mais les poms-poms girls, j'ai l'impression que ça va faire un peu "cage aux folles" si j'en juge par le profil de Loran ;-).

08 février, 2005 18:23  
Blogger Eric Baillargeon a écrit...

Je pense que la théorie des 2 index est surement probable. Par contre la détection des langues est plutôt problématique. Un exemple que j'affectionne est sur des mots rares comme "Gourgane" sur Google Canada:
Google Web : 698 résultats
Google Pages Canada : 751 résultats
Google Pages Francophones : 1,170 résultats

08 février, 2005 21:42  
Blogger Eric Baillargeon a écrit...

Oups... dans le commentaire précédent le mot Gourgane devrait avoir être "Gourganes" avec son S

08 février, 2005 21:47  
Anonymous Anonyme a écrit...

Un ami m'a conseillé la lecture de votre article, tandis que je réfléchissais à un autre problème : un site web qui n'est pas indexé par Google (par choix, avec un un robots.txt comme il faut) qui a pourtant un pagerank de 2 !... Et votre explication de la base de données en 2 parties a fait tilt. Une possibilité : la partie B serait aussi utilisée pour le calcul du pagerank. Les pages non-indexées participent ainsi à leur insu, et se voient même attribuer en retour des points de pagerank... En l'occurence ce site, forum, pointe sûrement vers beaucoup de pages à pagerank élevé. Ce qui indiquerait l'importance des liens sortants... vu qu'il n'y a pas de liens entrants.

09 février, 2005 06:38  
Blogger Jean Véronis a écrit...

Christophe: Oui, c'est entre autres à Greg R. Notess que je pensais. Des études très bien faites, bien qu'un peu anciennes -- mais l'architecture et la programmation de Google n'ont probablement pas changé de façon fondamentale depuis. J'ai ajouté un lien dans le texte. C'est intéressant de voir qu'à l'époque (2001-2002), Google communiquait encore sur ces aspects. Maintenant c'est le blackout total. Les marketoïdes ont manifestement pris le pouvoir chez Gg.

09 février, 2005 08:22  
Blogger Jean Véronis a écrit...

Sur les liens sortants : il est à peu près certain que l'algorithme initial du PR a été affiné. Je ne crois pas qu'il ait été abandonné (cela impliquerait une refonte totale de l'architecture et du soft, qui n'a justement pas pour l'instant été faite chez Gg et c'est bien son problème majeur). Mais les paramètres ont certainement été fortement corrigés. De très nombreux commentateurs ont fait remarquer depuis au moins 2001, que les liens sortants contribuaient à la qualité des sites, et du Web dans son ensemble, et qu'il n'était pas normal que, comme dans la version initiale du PR, ils entraînent une diminution de celui-ci. Il est donc fortement probable que leur impact négatif ait été diminué, voire supprimé. Certains disent effectivement qu'ils pourraient désormais avoir un effet positif. Je préfère ne pas l'affirmer sans en avoir de preuve (il faudrait faire un certains nombre de tests). Une chose est certaine : Google (et Y! et MSN) utilisent le rapport de liens sortants à la taille du site pour détecter les spammeurs et les descendre dans le PR. Il est possible que cela affecte aussi des sites normaux. Les spammeurs ont d'ailleurs compris l'importance des liens sortants et on est en train d'observer de stratégie de leur part. J'ai d'ailleurs l'intention de faire un billet sur ça, mais il faudrait que les journées aient... 35h (je vais faire une manif dans ce sens) !

09 février, 2005 08:59  
Anonymous Anonyme a écrit...

Salut Jean !

Depuis le temps que je lis tes billets et me dis qu'il fallait que je laisse des commentaires, je n'ai pas eu vraiment le temps... surtout que tu postes régulièrement des articles intéressants :-)

Je suis d'accord avec ton article dans l'ensemble, c'est une piste très intéressante. Il est évident que la partie B de l'index de Google existe, elle est parfois visible avec des requêtes du type site: mais pas avec des requêtes "normales".

Par contre dans un commentaire tu dis que (d'après la formule d'origine du PR) les liens sortants font baisser le PR de la page faisant les liens, alors que ce n'est pas le cas. Ajouter des liens externes fait moins de PR distribué sur les autres pages internes mais c'est tout.

A bientôt sûrement pour d'autres commentaires, ici ou sur WRI ou sur mon blog www.prweaver.fr/blog/

Olivier Duffez

09 février, 2005 11:55  
Blogger Jean Véronis a écrit...

Bonjour Olivier, et merci de cette remarque. Voilà ce qui se passe quand on répond trop vite aux commentaires sans bien relire ses phrases (et des commentaires j'en ai eu un paquet sur ce billet, y compris par mail!). Je ne crois pas avoir dit que les liens sortants faisaient baisser le PR de la page qui les contient, mais visiblement ma phrase ne devait pas être bien claire. La multiplication des liens sortants affaibli(ssai)t effectivement la propagation du PR sur les autres pages, ce qui semble dommage.

09 février, 2005 12:40  
Anonymous Anonyme a écrit...

ce passionant article me donne enfin une explication aux résultats parfois étonnant des ce moteur de recherche.
Je m'explique : lors d'une recherche sur des mots 'exotiques'(surtout le nom de fonction informatique) google m'indique 3 pages de résultats. Lors de la consulation effectives de ces pages, souvent, la troisième page diparaît, et la seconde contient fort peu de liens.

14 février, 2005 10:23  
Anonymous Anonyme a écrit...

Salut,

http://www.google.com/search?&q=chirac me renvoit 3,340,000 résultats, et parfois seulement 2,070,000...

Est-ce qu'il ne pourrait pas y avoir un problème de synchronisation des bases de données de Google? Et selon le load balancing, on est renvoyé vers telle ou telle base mirroir, plus ou moins mise à jour...?

Enfin je dis ça comme ça, j'ai pas testé en profondeur... mais si c'est le cas, vos résultats pourraient être assez incertains...

Cyao.

(Désolé, j'ai pas lu en détail les commentaires, si quelqu'un en parlait déjà ^_^)

14 février, 2005 11:32  
Blogger Jean Véronis a écrit...

Jusqu'à présent les fluctuations étaient minimes. Une telle différence me surprend, et effectivement en testant les différents data centers, je vois qu'il y en a un qui retourne un nombre beaucoup plus faible de résultat (les autres retournent toujours 3 millions et des poussières).

http://216.239.53.104 retourne seulement 2 020 000 pages, c'est-à-dire à peu près le nombre que vous indiquez, et qui correspond au nombre vrai de pages indexées selon mon hypothèse.

C'est nouveau. Changement en cours chez Google? Je sais qu'ils sont au courant de mes études et que ça a fait pas mal de bruit dans le Googleplex. A suivre...

14 février, 2005 11:50  
Anonymous Anonyme a écrit...

Je ne suis pas d'accord, sur au moins deux points :

- quand tu cherches "chirac chirac", google te renvoie les pages qui contiennent (au moins) deux occurences du mot "chirac".

- le nombre de pages trouvées qui est renvoyé par google est une estimation très grossière du nombre réel de page. Il suffit d'aller à la fin des pages renvoyées et de voir que le chiffre réel est plus faible.

14 février, 2005 18:01  
Blogger Jean Véronis a écrit...

Je ne pense pas que la requête X X retourne les pages où X apparaît deux fois. Pour le vérifier il suffit de taper un mot qui apparaît avec une fréquence très faible, comme numérité numérité. Vous verrez que les pages ne contiennent pas nécessairement deux occurences du mot. Cela n'expliquerait d'ailleurs pas le cas de X OR Y.

Sur la question de l'approximation, lorsqu'il s'agit d'une perte de moitié, alors effectivement elle est bien grossière...

14 février, 2005 19:09  
Anonymous Anonyme a écrit...

gagné ! :)

15 février, 2005 00:37  
Anonymous Anonyme a écrit...

pour eric B. -> "antilogie"
pages france : 198
francophone : 296
web : 846

youpi !!

15 février, 2005 00:45  
Anonymous Anonyme a écrit...

> Je ne pense pas que la requête X X retourne les pages où X apparaît deux fois.

Au risque de vous contredire, je vous confirme que X AND X doit effectivement retourner les pages où le terme est présent 2 fois. Vous savez, il me semble avoir entendu ça un jour, en cours de LOGIQUE BOOLEENNE... et Google fait bien un lien ET entre les mots d'une requête, comme expliqué dans l'aide sur le site.

Ensuite le fait qu'aucune page au monde ne contienne en double votre terme "numérité" et qu'en conséquence Google décide de passer en recherche terme à terme ne devrait pas induire votre réflexion en erreur : ce n'est là qu'une commodité pour éviter d'avoir à taper la recherche mot à mot manuellement. Vous pourriez remarquer que Yahoo a la même démarche :
http://fr.search.yahoo.com/search?p=num%E9rit%E9+num%E9rit%E9
et ce même si, on est bien d'accord, ce résultat est faux en sens logique puisqu'on a demandé le mot 2 fois.

Et si vous n'êtes pas convaincu, essayer d'autres recherches de mot doubles, dont par exemple celle-ci :
http://www.google.com/search?q=hop
puis
http://www.google.com/search?q=hop+hop
et vous aurez peut-être quelques réponses quant à votre "analyse" à propos de ces pages que vous croyez manquantes.

Cordialement,

Ame Nomade

15 février, 2005 13:30  
Blogger Jean Véronis a écrit...

Bah... qui peut-être sûr de ce que font les moteurs de toutes façons, par les temps qui courent ? (et c'est bien le problème).

Mais il y a un élément de plus qu'il faut prendre en compte. Dans le classement des résulats sur un requête X Y Z sans accents, Google donne une pondération importante aux résultats qui contiennent exactement la chaîne "X Y Z", comme si on avait tapé avec les guillemets (ceci parce que de nombreux utilisateurs ne maîtrisent pas la syntaxe avancée). Donc chirac chirac renvoie en premier les pages qui contiennent deux occurrences consécutives du mot. Mais pas plus au total...

Mon billet de ce jour illustre ça de façon assez cocasse ;-)

15 février, 2005 13:43  
Blogger J2J2 a écrit...

Quelques indices dans mon billet du jour "Brève - Retour vers le Passé..." confirmeraient l'existence des deux bases...

25 février, 2005 14:09  
Anonymous Anonyme a écrit...

Personnellement, le fait qu'une recherche sur un terme retourne moins d'enregistrements que la même recherche sur 2 fois le même terme ("Chirac" vs "Chirac Chirac") ne me choque pas plus que celà.
La recherche sur le terme seul peut très bien retourner l'ensemble des pages citant au moins une fois ce terme.
La recherche avec deux fois le même terme peut très bien retourner l'ensemble des pages où le poids de ce terme est plus important qu'un certain seuil.
Ainsi sur les (par ex.) 3 200 000 pages citant "Chirac", il pourrait y en avoir 1 200 000 qui ne font que citer le terme qu'une fois. Une recherche simple retourne toutes les pages, mais une recherche en doublant le terme dans la recherche peut ne retourner que les pages où le terme Chirac apparait X fois avec X > 1.
Qu'en pensez vous ?
Après ce qui m'étonne plus c'est que (sur le test que je viens de faire) :
"Chirac" retourne X pages
"Chirac Chirac" retourne Y pages avec Y < X
"Chirac Chirac Chirac" retourne Z pages avec Z > Y !
"Chirac Chirac Chirac Chirac" retourne à nouveau Y pages.
Là j'avoue je suis bluffé ;)

14 avril, 2005 21:32  
Anonymous Anonyme a écrit...

> Mystic 777 : une autre façon de voir les choses est qu'un pays ne sera cité que dans le cadre de dispositions particulières à ce pays, qui modifient les dispositions générales pour lesquelles il n'est pas nécessaire de dire qu'elles s'appliquent à tous les pays nommément... ce qui revient à dire : le traité constitutionnel est suffisamment proche de ce que souhaitait la France que celle-ce n'a pas besoin de bénéficier de clauses particulières.
Ce qui correspond aux avis de beaucoup de pays européens : "ce traité est d'inspiration française".

31 mai, 2005 18:19  
Anonymous Anonyme a écrit...

Merci beaucoup pour toutes ces informations, c' est excellent.

27 juillet, 2005 08:03  
Anonymous Anonyme a écrit...

-yo

18 août, 2005 21:52  
Anonymous Anonyme a écrit...

Cher Monsieur, votre étude est interessante, mais il lui manque un élément tout simple : l'analyse des weblogs des sites référencés par Google, la mise en évidence des requêtes des 'bots Google et des pages réellement indexées, pour enfin finir sur les requêtes des internautes partant de Google et arrivant sur ces même sites. Peut-être votre vision statistique eut été enrichie d'une manière moins empirique. Enfin, entre autres méthodes utilisées par les moteurs, je vous renvois à l'hyper-searching, concept mis au point par le MIT dans les 90's, dont un article du Sciam dans les mêmes années explique le principe (Scientific American, faire une recherche sur leur site, mon gros carton de revue étant haut perché ...!). je crois que Yahoo! utilise cette méthode, ceci expliquerait peut-être cela.
Votre étude est néanmoins interessante et enrichissante, mais il semble que dans l'ensemble les moteurs de recherche fassent à peu près leur boulot. Vos critiques sont néanmoins fort constructives. A mon sens, fréquentation et utilisation d'un moteur de recherche devront-ils répondre à un une réalité objective, aux besoins subjectifs des utilisateurs préférant peut-être ceci à cela, ou à des exigences commerciales ? Dans un monde où l'information demeure le monopole d'une dixaine de pays (http://www.ipwalk.com/), je doute dans tous les cas d'une objectivité globale et humaniste. Merci, bien à vous, cdt.

01 décembre, 2005 17:22  
Anonymous Anonyme a écrit...

Bonjour,

Il fut un temps où, avec Altavista, on pouvait obtenir assez rapidement un page pertinente. Ensuite Google est arrivé et les résultats ont d'abord été d'aussi bonne qualité mais aussi avec plus de choix...

Actuellement il est très facile de mettre en défaut ce moteur. Au-delà de 5 ou 6 mots on voit très facilement le nombre de pages qui augmente lorsque pourtant on réduit les possibilités.
Voici un exemple qui vient de m'arriver et qui m'a conduit à chercher des explications, d'où ma lecture de la présente.

Ayant enregistré une émission sur le vin sur France2, en décembre 2005, mais en ayant manqué le titre, j'ai voulu le retrouver pour l'inscrire. Je passe sur le moteur de France 2 qui est incapable de trouver quoi que ce soit...

Sur Google je saisi ceci :

émission france2 vin décembre 2005 : 20300 pages.

J'ajoute donc "raisin" pour réduire le choix :
émission france2 vin décembre 2005 raisin :
369 pages, encore trop...

Comme il s'agit de l'émission présentée par François de Closets, à caractère scientifique, j'ajoute encore le mot "science" :

émission france2 vin décembre 2005 raisin science : 423 pages !

Voilà maintenant que cela remonte ;-)).
Un tel moteur me semble donc inutilisable en mode avancé, la logique n'étant pas respectée...
Il y a environ un an j'ai signalé ce phénomène à Google, qui m'a répondu qu'ils connaissaient le problème et travaillaient dessus... Je suppose que ce sont surtout des commerciaux qui s'en occupent... Ce n'est quand même pas compliqué, dans une même session, de comprendre qu'un utilisateur qui ajoute mot vise à réduire le choix... N'importe quel programmeur sait faire ça.

Dégoûté, je tente un truc fou, faire passer le mot "science" en début de requète, ce qui devrait donner la même chose, bien sûr :

science émission france2 vin décembre 2005 raisin : 437 pages au lieu de 423. C'est vraiment n'importe quoi !

Il me semble quand même qu'il pourrait y avoir dans le mode avancé un réglage qui permettrait un tri classique pur et dur...

J'ai fait un tour chez Altavista : seulement deux pages, sans intérêt.

A l'heure où j'écris je n'ai toujours pas mon titre... J'ai même retrouvé le nom de l'émission, "Les grandes énigmes de la science", mais sans plus...

JeanPhi

14 février, 2006 16:20  
Anonymous Anonyme a écrit...

Je ne comprends pas trop les critiques de certains commentaires de la démarche Jean Veronis.
Qu'a t'il voulu démontrer avant tout ?
Qu'on ne pouvait se fier au nombre de pages retournée par google.
Et que l'outil très précieux pour lui de recherche avec des opérations booléenne sur les mots ne fonctionnait pas avec google.
Et j'estime qu'il a parfaitement démontré tout cela.
Ensuite il a tenté de calculer l'indexage réel ce qui n'est pas évident vu la stratégie de google.
Là les commentaire on tous montré que on ne pouvait vraiment pas utiliser google pour estimer la fréquence d'un mot sur la toile d'où l'utilisation de doc.com pour ses algorythmes.

27 avril, 2006 11:04  
Anonymous Anonyme a écrit...

Bonjour et merci de l'article,
Meme problème avec les guillements dans google ?
Exemple :
le premier cri : 2 310 000 résultats
"le premier cri" : 2 350 000 résultats

01 novembre, 2007 09:24  
Blogger Jean Véronis a écrit...

Non, dans ce cas, la petite différence peut se mettre sur le compte des approximations lors du calcul. Car Google ne fait pas le compte exhaustif des résultats pour une requête complexe comme "premier cri", avec ou sans guillemets. Il examine le début des résultats retournés pour "premier" et pour "cri", et extrapole en conséquence.

01 novembre, 2007 09:29  
Anonymous Anonyme a écrit...

Bonjour,
comme je n'aime pas être anonyme mais que je n'ai pas de compte,je me présente en 2 secondes : David Hervé Bibliothécaire à Pau.
Je pense que votre conclusion sur l'utilisation redondante d'un terme X AND X pour avoir la vrai taille de l'index n'est pas juste car si on rajoute des AND: X AND X AND X, j'ai constaté qu'a chaque ajout le nombre de pages indexés diminuait. Ce que moi je conclue c'est que Google n'utilise pas une logique boolènne puremais qu'il doit la mixer avec autre chose. J'ai fait le même test avec Exalead, le nombre de pages est identique qu'on fasse X ou X AND X
(mot utilisé: chien)
Merci pour votre article

12 février, 2008 09:09  
Anonymous Anonyme a écrit...

Si vous n'avez rien contre les commentaires tardifs, une explication plus probable est donnée par l'étude de la stratégie de recherche d'Ebay. Lorsqu'on n'utilise pas de connecteur logique (Chirac), Google étend la recherche aux variantes - inflexions, fautes d'orthographe courantes, etc (CHIRAC, chiRAC, chiraquien, chiraquie, chiraquisme, chiraq, chiraque, etc). Pour des raisons de performance liée à la combinatoire, cette stratégie doit être limitée lorsque la recherche inclut des connecteurs logiques (cela ferait trop de combinaisons de recherches élémentaires à poser à la base).

Il est évident qu'une recherche Google engendre plusieurs requêtes distinctes menées en parallèle sur la ou les bases de Google (recherche des variantes). La stratégie de fabrication de ces variantes relève du savoir-faire de Google et de contraintes de temps de réponse et de disponibilité.

Il n'y aurait rien d'étonnant à ce que "Chirac" se décline en un nombre de requêtes supérieur pour Google à "Chirac OU Sarkozy", puisque la première demande est hautement plus fréquente (et donc plus soignée en termes de recherche de variantes) que la seconde. Et donc qu'elle produise plus de résultats.

J'ai observé la même stratégie sur Ebay. La recherche de "billet train (paris OU rennes)" donne sur Ebay moins de résultats que "billet train paris" parce qu'un objet dénommé "2 BILLETS DE TRAIN PARIS" (avec billets au pluriel) est retourné par la seconde recherche mais pas par la première. Il y a sûrement des raisons de performance pour lesquelles Ebay recherche les variantes dans le second cas mais pas dans le premier, mais en tout cas, cela montre qu'il faut prendre des précautions lorsqu'on interprète le nombre des résultats retourné par un moteur de recherche comme vous le faites.

21 avril, 2010 14:24  
Blogger Jean Véronis a écrit...

Bien sûr ! il faut toujours être très prudents !

Je ne crois pas, néanmoins, que ce soit l'explication, parce qu'à l'époque de ce billet (2005), Google ne faisait pas d'extension aux variantes (inflexions, etc.). C'est une addition récente (surtout pour le français).

21 avril, 2010 14:28  

Enregistrer un commentaire

Web: Google's missing pages: mystery solved?




Read follow up

28 feb - MSN cheating too?
7 mar - Yahoo indexes more pages than Google
13 mar - Google adjusts its counts
23 mar - 5 billion "the" have disappeared overnight
25 mar - A snapshot of the update



In previous articles, I pointed out two strange problems with Google counts (here and here). Pages seem to massively disappear:
  • If you type Chirac OR Sarkozy, you get half the number results of Chirac alone, which may have a political explanation... but is a weird approach to boolean logic.
  • If you search the in the English pages, you get 1% of the number you get for the all languages together. Does this mean that the is 99 times more frequent in languages other than English? Of course not.
Where are the missing pages gone? This is the question that I am trying to address in this article. A possible scenario is that the real index used by Google is considerably smaller than the counts officially announced. The detailed experiment reported below yields a precise estimate of 60%, thus leading to a real index size of ca. 5 billion pages. This scenario is of course entirely hypothetical, but it enables to explain both the discrepancy in the English page counts and the strange behaviour of Google's Boolean operators.

Let me say it right away, in order to save commentators' time: this does not mean that Google is a bad search engine (and I actually have it as my browser's home page). For most users, counts are useless, and what... counts for them is whether they find the right results quickly and accurately or not. Figures are relevant only for experts, but in this case, these have some reasons to wonder.

An experiment

In this new experiment I do not use frequent words such as the, because frequent words are likely to be processed in a special way by any search engine. They are probably on a special stoplist, and their occurrences not fully indexed. I have used instead 50 English words drawn randomly from mid-range frequencies in a 1-million word corpus of English text (accumulated, alive, ancestor, bushes, etc.). I have eliminated words for which I knew obvious homographs in other languages (such as patio, etc.).

The figure below plots the counts given by Google for English pages vs the entire Web (the part known to Google, of course) [see complete results here -- all figures in this study were obtained on February 6th].


The slope of the regression line indicates that the English results represent 56% of the results for the entire Web for the same words. Of course, I may have missed some collisions of homographs accross languages, and some of the words probably appear cited in non-English pages as well, but these factors should be marginal, and in any case, different for each word. If almost half of the occurrences of these words are located in non-English pages, there should be a considerable amount of dispersion in the plot. Instead, there is a very strong correlation between the two counts, with a coefficient of determination R2 equal to 0.96. This high correlation is statistically impossible, and some systematic factor must explain it. A possibility would be an extremely poor behavior of the language detection algorithm used by Google, but this is very unlikely because we would see evidence of that in almost every other result, and it is far from being the case: Google's language detection is fairly robust, if not perfect.

On the other hand, if we look at Yahoo's results for the same word list, we get a much more expected pattern [see complete results here]:


The correlation is very high too (higher, indeed), but this is normal because the results are almost identical: English results represent 92% of the whole. This figure is in line with our linguistic knowledge.

Results for French are very similar. I built a French word list on the same principle, and ran it through Google and Yahoo. Google gives a 58% share of results located in French pages, and again a high correlation, slightly lower (R2 = 0.86), but still incompatible with a large proportion of results outside the pages categorised as French. Individual word behaviour should bring a much more random pattern [see complete results here].



Yahoo behaves just as it did for English. The proportion of results located in French pages is even higher (97%), which is expected, since English, as an international language, tends to be cited in more documents than French.



A possible scenario

Many experts believe (see for example here) that Google's database is composed of (at least) two parts. One part which is a full index, and another one which contains URLs and other information for pages that Google knows about, but whose content has not been indexed (only the words in their URLs are possible indexed). I have no means to know whether this hypothesis is correct (although Google admitted it publicly until 2002), but it could explain the strange behaviour reported above.

Lets call the two hypothetical parts A and B respectively, composing together the whole database D:



We can then build a possible scenario. When we query Google with a word X in any language, it looks it up in its index, i.e. the part A, and extrapolates the count to match the size of the entire database D. However, when we restrict the search to a given language, it does not extrapolate, because pages in part B are not indexed and not categorised in any language. Only the results of A are reported. Of course, it would have been possible to extrapolate the language proportions from A to the entire database D, and extrapolate anyway, but the Google engineers didn't think of it, or didn't think it was important.

We can compute a fairly good estimate of parts A and B, using my calculations above. According to Yahoo (if we accept to trust it), 92% of the results for my English word list are located in English pages. If we apply the same proportion to Google, this means that the index, i.e. part A, is 0.52 / 0.92 = 60.9% the size of D. Interestingly enough, if we do the same computation using the French list, we get an estimate of 0.58 / 0.96 = 60.4%. These figures are so close that it would be surprising that they are a pure coincidence.
Under the scenario outlined above, the real size of Google's index is therefore ca. 60% of the entire database, and the numbers reported are inflated by a factor of 66% (1/0.60 - 1).
This is difficult to match to absolute numbers, because nobody knows exactly the size of Google's database. In November 2004, Google announced that it was searching 8,058,044,651 web pages. The number has not changed since then on the main page of the engine, but I have shown on January 23 that the index had increased by a factor of 1.13 since the announcement (read here). An estimate on February 6th gives a growth of 1.14. This would correspond to a current database size of ca. 9.2 billion pages, i.e. a real index size (part A) of 5.5 billions. However, some observers have noticed that for a short while before the announcement in November Google reported 10.8 billion results for a query on the, which would indicate an even larger database, unless it simply means that at some point in time Google had considered an even larger inflation factor. We will probably never know.

A new light on Googlean logic

The hypothetical scenario above also nicely explains the Googlean logic problem. We remember that X OR Y returns fewer results than X alone (see details). Even weirder, both X OR X and X (AND) X return also fewer results than X itself. I queried Google for X OR X and X (AND) X for each word X in my English list (with the "any language" setting) . The results for both queries are almost identical for all words [see complete results here], and very surprisingly, they are almost identical to the number of results for X in the English pages only (coefficient of determination R2 > 0.999!).


It is likely that Google does the boolean computations (union and intersection of lists) on the basis of the real index, i.e. part A. This would explain why X OR X and X (AND) X yield the same results as the search in English pages when X is an (almost exclusive) English word. The same occurs with French words [see complete results here]. This fact probably went unnoticed until now because if you use words that can appear in many languages (homographs such as patio, or proper names such as Chirac or Bush), the pattern is blurred.

In all likelihood, the Google engineers simply forgot to plug the extrapolation routine at the end of the boolean module! Therefore, if you want to know the real index count for any word, simply type it twice:

WordCount
stuttering749,000
stuttering stuttering452,000

The second line is likely to be the real count...

Read follow up

28 feb - MSN cheating too?
7 mar - Yahoo indexes more pages than Google
13 mar - Google adjusts its counts
23 mar - 5 billion "the" have disappeared overnight
25 mar - A snapshot of the update



11 Commentaires:

Anonymous Anonyme a écrit...

Very, interesting study. Re: the repeat keyword searches I'm not sure if your analysis is completely accurate. For example, stocks vs. stocks stocks produces entirely different results (notably removing many of the expected results). If you look at the descriptsion of stocks stocks you will see that it looked for sites that happened to have a paragraph like this: "Learn The Basics of Stocks. Stocks, stocks and more about stocks."

-WebConnoisseur

11 février, 2005 00:30  
Blogger Jean Véronis a écrit...

Re: stocks stocks

The counts seem to be in line with what my findings:

Stock 30,200,000
Stocks stocks 18,700,000

However, your are right, the ordering of results is very different. It seems that when you type a multi-term query A B C... without quotes, Google gives an advantage to pages containing the exact string "A B C...". In fact, it seems that you get a mixture of what you would get with A B C with no quotes and "A B C" within quotes. This makes great sense, because most users do not put the quotes around multi-term queries.

11 février, 2005 09:28  
Anonymous Anonyme a écrit...

Thanks for posting this -- very interesting.

I've noticed another discrepancy that you may be interested in investigating:

We have been trying to get counts for double-byte character words in Chinese and Japanese and wrote a simple program that sent appropriate url calls (VB.net) and pulled out -- the counts that we get doing this however are several orders of magnitude different from what you get entering the same word manually, ie. entering the word in the webform and hitting search. It appears only to make a difference in double-byte characters - not single.

Weird.

14 mars, 2005 18:22  
Anonymous Anonyme a écrit...

Moi je retiens votre insistence à parler de "billet"... et je m'en excuse, je vous avoue que ça me fait un peu rire.

On a essayé blogue et joueb pour évite le "post" anglophone qui est aussi simple qu'économique.
Rien n'y fait.

Courriel traîne encore face à mél
et à l'encontre d'e-mail...

Je ne suis pas parvenu à faire passer adrélec ni adrelec pour adresse électronique (faites une recherche avec Google et vous comprendrez pourquoi je dis ça).

La liberté, c'est sacré : alors, faites comme vous voulez, mais Billet , c'est peine perdue ...Vous m'en direz qqch...d'ci qq temps.
Non, on billette pas des billets, on poste des posts ... voilà.
"La loi du franglais est toujours la meilleure" ;-(
Tant pis pour ceux qui ne marcheront pas au pas ;-(3)

08 avril, 2005 02:12  
Anonymous Anonyme a écrit...

I think google has a crappy language recognition system. So it can very rarely be 100% sure whether a certain page is English or not. And it only displays a page as "English" when it's 100% sure that it is. Therefore, among all the English pages it indexes, it probably only recognizes a small number of them as "English". That's why when you search for "English pages only" it displays results among the small number of pages it recognizes as "English".

15 avril, 2005 15:39  
Anonymous Anonyme a écrit...

It is very well-known that all major search engines return estimates of the count. There are multiple papers in conferences such as WWW2005 that tell you how they use a sampling technique to do the estimate. The problem with estimations, of course, is that they're sometimes wildly off.

28 mai, 2005 10:23  
Anonymous Anonyme a écrit...

-yo

18 août, 2005 21:55  
Anonymous Anonyme a écrit...

Hmm.... Good article. Thanks for research.

22 septembre, 2005 12:11  
Anonymous Anonyme a écrit...

Interesting Interesting Interesting stuff!

17 février, 2006 17:03  
Anonymous Anonyme a écrit...

thanks for post

08 juillet, 2007 14:35  
Anonymous Anonyme a écrit...

Interessant. Et pourtant,

"english pages search" = (.com/.org/.mit/..) + badLanguageRecoSystem;

Vs.

"ouebe francais" = (.fr + .ca(quebec)) + EvenWorseLangRecoSys;

ouebe finlandais = .fi..?

etc?

Juste une pensee.
Merci pour les donnees!

20 octobre, 2007 18:22  

Enregistrer un commentaire