Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

lundi, janvier 31, 2005

Lexique: Cliquez, cliquez, et les "binettes" cherront !

Un billet de Langue sauce piquante (le blog des correcteurs du Monde, que je recommande chaudement !), nous parle du verbe choir et nous dit qu'il n'est plus guère utilisé qu'à l'infinitif et au participe passé (sauf sans doute chez Raymond Devos). Le Dictionnaire de l'Académie en fait la remarque dès 1740 (après l'avoir trouvé vieilli en 1718).

Et pourtant, le futur vivote encore. Un titre de Libération m'avait fort amusé il y a quelques semaines :
Tirez la languette et le latex cherra
Je me suis demandé quel était le "degré d'activité" de ce futur. Quelques prestes e-questes sur Google ("le * cherra" et "la * cherra", et la même chose avec cherront), ont fait choir tout un tas d'exemples dans mon escarcelle numérique :
Cliquez, cliquez, et les "binettes" cherront ! (smileys)
Passez lentement la souris sur les bobinettes et le blabla cherra (photos d'amis)
Tire la manivelle et la piécette cherra (bandits manchots)
La « shopinette » cherra (une patinette pour faire ses courses)
Donnez la phalangette et la phalangine cherra, puis la phalange, la main et le bras cherront ! (un homosexuel hostile au mariage gay)
Tire la bandelette et la chevillette cherra (momies)
Tirons sur le bon bulletin et la martinette cherra (contre Martine Aubry)
Tire sur la chiraquette et la bombinette cherra (Chirac et la dissuasion nucléaire)
Tire la bambinette, le bambino cherra (rapports mère-enfant)
Tirez la chevillette, et le plaisir cherra (consommez...)
Il est frappant de voir que toutes les occurrences sur Google (j'élimine bien sûr les exemples en ancien français) sont des détournements de la réplique célébrissime du Petit Chaperon Rouge : Tire la chevillette... Le lexique est décidément tout sauf une bête liste où les mots entreraient et sortiraient bien en ordre, comme dans les éditions successives du Petit Larousse. J'ai eu l'occasion de parler d'écologie du langage sur ce blog. En voici un bel exemple. Le futur de choir résiste toujours, mais uniquement dans une "niche écologique", le moule stéréotypé Impératif + ...ette + cherra. C'est Perrault qui a sauvé cette espèce menacée. Il ne s'en fallait que d'un fil, pour que, comme la bobinette, le futur n'ait chu. Ne soit chu ? Chu plus très sûr...

0 Commentaires:

Enregistrer un commentaire

samedi, janvier 29, 2005

Web: Google Print en marche

J'ai eu l'occasion de parler du programme Google Print sur ce blog, et j'ai eu aujourd'hui la bonne surprise de voir que Google avait mis mon best-seller ;-) dans le circuit. Une recherche sur Jean Veronis (vanité des vanités...) affiche la bannière suivante en haut des résultats :


Jusque là, ça ne se distinguerait pas trop d'un "lien sponsorisé", mais la différence est de taille. En cliquant sur le titre du bouquin, Parallel Text Processing, on aboutit à la table des matières, et surtout à un moteur de recherche qui permet de trouver des extraits du bouquin. Exemple : "Rosetta stone" renvoie 18 résultats avec les numéros de pages, mais le plus épatant, c'est qu'en cliquant sur chaque résultat on accède à un fac-similé de la page avec les mots de la requête surlignés (et apparemment les trois pages qui suivent) ! La reproduction ci-dessous est réduite, mais la version fournie par Google est de la taille de la page réelle et elle est parfaitement lisible (cliquez sur l'image pour voir) :



J'avais beau savoir comment ça marchait et avoir vu des démos, j'en suis tout ébahi.

D'accord il y a encore quelques petits détails à régler. Tout d'abord, ça ne marche que sur Google.com, et pas sur Google.fr. Les restes du monde devront attendre... Les accents ne sont pas non plus la priorité à Seattle : Jean Véronis ne pointe pas sur Google Print. Et puis, il y a quelques bizarreries internes. Il faut taper la requête sans guillemets, contrairement à ce que l'on imaginerait : la requête sur l'expression exacte "Jean Veronis" ne renvoie pas elle non plus vers Google Print.

Mais je ne vais pas être chien. Quel outil extraordinaire ! Et ce n'est que le début...


Voir aussi

11 mai - La BnF, la France et l'Amérique



5 Commentaires:

Blogger Jérôme Charron a écrit...

Suite à votre billet, je viens de tester sur différentes requêtes (dont Jean Veronis, ce qui m'a permit de retrouver trace de Christian Fluhr, et al dans votre littérature). Et en effet, quel outil extraordinaire!

Google va peut-être donner corps au vieux rêve de "Virtual Library" qui est né en même temps que le web.

Et ce n'est en effet que le début.
Quel rêve dans quelques années de pouvoir "potasser" n'importe quel ouvrage par quelques simples clics de souris. Quel rêve d'avoir toute cette connaissance à portée de presque chaque foyer (vous avez-dit fracture numérique?).
Quel rêve de pouvoir utiliser le livre d'une toute autre façon: Pouvoir faire des recherches full-text sur l'ensemble de la connaissance humaine (il faudra tout de même attendre quelques années!), tout en conservant la mise en page "papier" (c'est très intelligent de la part de Google, et très agréable)...

A suivre très très attentivement...

29 janvier, 2005 22:30  
Blogger Luc a écrit...

Ces livres scannés certainement par des machines automatiques me rappellent irrésistiblement la séquence d'ouverture du film de Sydney Pollack "les trois jours du Condor". Vous vous souvenez ? C'était en 1975. Le but était déjà (dans le film) de "digérer" et d'interpréter tout ce qui s'imprimait sous forme de livre papier.

C'est vrai que c'est fascinant !

Dans le genre délirant, Google offre déjà le service Google Catalogs dans lequel ils ont scannés tous les catalogues de vente par correspondance américains, et sur lequel vous pouvez faire effectivement une recherche "full text" sur les pages papier ! Allez-y, et tapez "ford mustang" par exemple, vous allez être surpris !

11 mai, 2005 21:42  
Blogger Jean Véronis a écrit...

les trois jours du Condor> Absolument! très beau film (Robert Redford, Faye Dunaway...), bien que plutôt pessimiste! Cette séquence me revient souvent à l'esprit (mais bon sang, ça remonte aussi loin que ça, 1975 !).

Google Catalogs> Oui, absolument fascinant. Je veux en parler depuis pas mal de temps et puis les sujets d'actualités se succèdent (la Constitution!), et je remets aux calendes. Mais il faudra que je trouve un quart d'heure. Merci de m'avoir rappelé ça!

11 mai, 2005 21:54  
Anonymous np a écrit...

j'ignore si google va faire des progrès dans sa gestion des sponsored links, mais le premier sur lequel je suis tombé ce jour est tout simplement édifiant :-))

Réalisé sans trucage

30 mai, 2005 12:41  
Anonymous Anonyme a écrit...

-yo

18 août, 2005 21:52  

Enregistrer un commentaire

SMS: Pouce !

G T MDR en lisant cette nouvelle dans le Corriere della Serra : les parents d'une adolescente de 14 ans de Savona en Italie se sont rendus chez leur pédiatre parce qu'ils n'arrivaient pas à comprendre pourquoi leur fille avait le pouce bloqué. Le pédiatre en question a diagnostiqué une belle tendinite du pouce, due aux 100 SMS par jour que la collégienne envoyait à ses potes ! Tordant (pour les doigts). On se demandait déjà si les portables ne donnaient pas le cancer, mais voilà un autre danger pour la santé. A quand les avertissements sanitaires sur les téléphones, du genre les SMS peuvent entraîner une tendinite longue et douloureuse ? ou Protégez les enfants, ne leur envoyez pas de SMS...

Une solution, en attendant que la dictée vocale soit au point, serait l'"écriture intuitive", qui permet de réduire les frappes -- mais elle crée d'autres soucis (je vous les garde pour un prochain billet !).

1 Commentaires:

Blogger Dalb a écrit...

Ne rions pas ! Plus grave que les tendinites, ce qui attend les adeptes des ordinateurs : le syndrome du canal carpien (SCC) dans la famille des TMS (troubles musculosquelettiques, avec les lombargies). Et oui...
L’usage continue du clavier et de la souris est ici à incriminer, particulièrement avec les portables.
Parmi ces TMS, les affections péri-articulaires (celles qui nous concernent ici) sont passées de 8 662 cas en 1996, à 23 042 en 2001 (cas déclarés) » (Forum International Travail Santé, 29, 30 novembre 2004, présentation, Extrait du dossier de presse du Conseil supérieur de la prévention des risques professionnels, avril 2004 sur le site du ministère de la santé (http://www.sante-securite.travail.gouv.fr/index.asp)

Vous pouvez en apprendre plus sur ces souffrances qui sont tout sauf virtuelles et les bonnes pratiques à suivre avec ce document (http://www.franceweb.fr/sosinformatique/poignets.html ), une page orpheline depuis un moment, mais dont le contenu reste valable;
ou là : http://www.reseauproteus.net/fr/Maux/Problemes/Fiche.aspx?doc=troubles_musculosquelettiques_main_poignet_pm
Une fiche d’information plus complète mais tout aussi « lisible » pour tous émanant d’une fondation philanthropique canadienne …Réseau Proteus.

Parmi les remèdes, alterner souris/trackball, devenir ambidextre et/ou faire plus souvent des pauses ! et on attend bien sûr les performances des outils vocaux.

11 février, 2005 18:07  

Enregistrer un commentaire

vendredi, janvier 28, 2005

E-Pub: Du Bush à l'oreille

Yahoo! Recherche propose cette pub pour la requête Bush :



Il y avait déjà eu un président acteur, un autre saxophoniste... Quels artistes ces présidents américains ! A moins que ce ne soit une pub pour la chanteuse anglaise Kate Bush...

Cette rencontre hasardeuse (qui rappelle un peu celle de mon précédent billet sur l'e-pub), montre le chemin qu'il reste à faire dans le domaine... Comme peu de gens, globalement, doivent connaître Kate Bush, la pub doit leur apparaître comme un mauvais gag. Etant donné que la pub est la source de revenus quasi exclusive des moteurs, il est étonnant qu'il n'y ait pas plus de recherches sur la façon d'apparier les requêtes, les résultats et les annonces. Il y a pourtant des choses à faire. Une idée toute simple : lorsqu'il s'agit de personnes (musiciens, auteurs, etc.), donner systématiquement le prénom ! Si on avait eu "enchères de disques pour Kate Bush", il n'y aurait eu aucun problème (je devrais proposer mes services à Yahoo! ;-) ).

Au fait, de quoi W pourrait-il jouer ? De la bombarde sans doute...

5 Commentaires:

Anonymous Anonyme a écrit...

Tiens, moi, quand je le vois, ou dès que j'entends son nom, ce sont les tambours... de guerre qui me Bush les oreilles...

Entékâ.

Dubbleya ne connaît sûrement pas les "Wuthering heights" ou les "Hounds of love" de Kate. Par contre, on pourrait rêver de l'entendre chanter "Hello Earth", en espérant que le Calme ne soit pas définitivement mort de sorte que la suite des choses ressemble enfin à "Go to sleep little Earth". Et puis enfin retrouver des "lendemains qui chantent" à la Biolay.

À propos de bombarde, dans ma campagne québécoise, ce qu'on appelait bombarde ressemblait plutôt à, euh... comment dire, ça avait la forme d'un trou d'ancienne serrure, c'était en métal rigide, ça tenait dans la main aisément et, à la partie la plus étroite était rattachée une tige plus souple, aussi en métal, qui faisait à peu près la moitié du diamètre de la forme (ça aurait été si simple si j'avais pu la dessiner !). Bref, on posait cette partie-là contre les lèvres, et avec un doigt, on agitait la tige. Ça donnait une espèce de bourdonnement d'intensité variable.

Je vous ai donné le bourdon ?

Cathy

31 janvier, 2005 03:46  
Blogger Mat a écrit...

A mon avis, la pub était reliée au groupe Bush (tout court, http://www.bush-music.com).

31 janvier, 2005 16:59  
Blogger Jean Véronis a écrit...

Ah oui, peut-être bien ! Merci de cette info, je ne connaissais pas et je vais écouter derechef. Faut dire que Kate est plus de mon âge ;-) Mais, bon, je préfère sa photo quand même !

31 janvier, 2005 22:03  
Anonymous Anonyme a écrit...

"ça avait la forme d'un trou d'ancienne serrure, c'était en métal rigide, ça tenait dans la main aisément et, à la partie la plus étroite était rattachée une tige plus souple, aussi en métal, qui faisait à peu près la moitié du diamètre de la forme (ça aurait été si simple si j'avais pu la dessiner !). Bref, on posait cette partie-là contre les lèvres, et avec un doigt, on agitait la tige. Ça donnait une espèce de bourdonnement d'intensité variable."

Quelque chose comme ça, en somme ?

07 février, 2005 11:39  
Anonymous L'AdmiRateur a écrit...

Il y a aussi ça :
miserable failure renvoie la biographie de Bush en premier ! L'explication est ici

13 août, 2006 11:46  

Enregistrer un commentaire

jeudi, janvier 27, 2005

Renseignement: Technologies du langage à la DGSE

Il semble y avoir un mouvement croissant en direction des technologies du langage au sein du monde du renseignement et de l'intelligence économique (IE). La vague a commencé aux Etats-Unis (réseau Echelon, etc.). Elle atteint manifestement la France, où de plus en plus de signaux intéressant commencent à s'allumer et à converger (voir par exemple, mes billets sur l'IE ou sur la police high-tech. Je découvre aujourd'hui le texte suivant sur le site de la DGSE (page Moyens techniques) [c'est moi qui souligne] :
La DGSE utilise des solutions logicielles multilingues de traitement de l'information stratégique et notamment :
  • pour le recueil d’informations sur toutes sources, présentation graphique et système d’alerte, analyse de la tonalité du discours (gestion de l’image) ;
  • pour la surveillance, découverte et partage d’informations, gestion de collaborations et gestion de connaissances sur Intranet ;
  • pour la recherche en langage naturel d’informations structurées ou non dans le système d’information de la DGSE ;
  • pour l’extraction, la structuration des informations, appliquée à la veille et la gestion ;
  • pour la surveillance de l’évolution de contenus de sites Internet, archivage de contenus disparus, alerte sur nouvelles informations apparues ;
  • pour l’utilisation de moteur de recherche et d’indexation (lexical, sémantique, mathématique et statistique) ;
  • pour une veille qui interprète et reformule de manière pertinente les requêtes multilingues et qui apprend à connaître les besoins de l’utilisateur ;
  • pour l’extraction d’informations, la structuration de bases de données et l’indexation automatique ;
  • pour la collecte, le traitement et la diffusion de l’information à des fréquences et sous des formes variées – papier, courriels ;
  • pour l’acquisition d’informations, l’indexation, la classification, les résumés, la constitution de dossiers thématiques ;
  • pour la recherche et l’indexation de données sur Intranets, Extranets, Internet, base de données et forums ;
  • pour la recherche, analyse et indexation de contenus images et vidéos ;
  • pour la gestion globale de la sécurité informatique de la DGSE, sécurisation des réseaux internes de la DGSE, stockage sécurisé de données, collaboration sécurisée par courriels ;
  • pour les analystes afin d’accroître les capacités analytiques selon les objectifs et les problématiques : outils de simulation et d’aide à la décision, de modélisation et de simulation stratégique.
Ce texte contient un programme de recherche absolument fascinant (car l'introduction, "La DGSE utilise des solutions...", est vraiment optimiste : il y a dans tout cela bien plus de problèmes que de solutions !). Le XXIème siècle est manifestement le siècle de l'information -- et l'information est pour la plus grande partie langage. Les services du renseignement et de l'IE commencent à le réaliser pleinement. C'est un formidable moteur potentiel pour la recherche en traitement automatique des langues. Nombreux sont ceux qui, comme moi, auraient préféré que le moteur soit autre, dans un monde plus doux, mais saurons-nous néanmoins saisir cette opportunité ?

1 Commentaires:

Anonymous Anonyme a écrit...

DGSE.org="Dallas Gold & Silver Exchange" ?

Bizarre !!! Certains liens ont tendance a disparaitre , ou bien une erreur de frappe ?

25 mai, 2005 13:53  

Enregistrer un commentaire

mercredi, janvier 26, 2005

Web: Comptes bidons chez Google ?



[8 fév - Lire la suite : Le mystère des pages manquantes de Google résolu ?]


Il y a quelques jours, j'ai montré que les opérateurs booléens de Google retournaient des nombres totalement aberrants, qui empêchaient toute utilisation sérieuse (à moins que l'on soit prêt à accepter que A OR B renvoie moitié moins de résultats que A tout seul, bien évidemment).

Mais j'ai trouvé pire, et bien plus dérangeant. Les nombres de résultats eux-mêmes sont aberrants, même si l'on n'utilise pas de recherche "avancée" (ou suppposée telle...). Regardez attentivement les deux copies d'écrans suivantes, et cherchez l'erreur :





Le premier écran est une requête pour the dans la totalité des pages Web (celles que Google indexe, bien sûr). Le chiffre rond de 8 milliards exactement est un peu suspect, comme cela a été remarqué à maintes reprises, mais ce n'est pas cela qui me dérange le plus. La requête pour the restreinte aux pages en anglais ne retourne que 88 millions des résultats, soit juste un peu plus de 1% du total. J'ai du mal à accepter un tel résultat, qui signiferait qu'environ 99% des occurrences de the se situent dans des pages autres qu'en anglais !

Mais je peux me tromper. Vérifions donc avec Yahoo! :





Le paysage est totalement différent ici, puisque 91% des occurrences de the se situent dans des pages en anglais, ce qui est tout de même plus conforme à nos intuitions.

Je ne suis pas prêt à accepter la réponse standard de Google ("nos chiffres ne sont que des estimations, des approximations, etc."). Lorsqu'on atteint des différences de cette ampleur, il ne s'agit plus d'approximation, et quelque chose d'autre de plus profond doit se cacher derrière les chiffres. J'ai donc essayé de déterminer la proportion exacte des pages en anglais dans l'index Google. Pour cela, j'ai choisi 50 "mots" qui sont selon toute vraisemblance relativement indépendants des langues: nombres, extensions de fichiers, protocoles (http, etc.), marques informatiques, etc. Ces mots apparaissent certainement dans d'autres langues que l'anglais, et bien qu'il puisse y avoir des variations individuelles, je ne m'attendrais pas à observer une relation systématique entre leur fréquence et leur présence dans des pages anglaises. Ou alors, s'il y en a une, elle sera intéressante à expliquer.

Les résultats sont résumés (en millions) dans la table ci-dessous (ils ont été obtenus le 25 janvier sur Google.com, depuis la France, et ils peuvent évidemment varier quelque peu selon les "data centers" qui reçoivent la requête):

GoogleWebEn%
14780671,4
www441050,21,1
2005240063,92,7
0218080,73,7
10214066,13,1
html160058,93,7
http135034,22,5
web98842,34,3
php88360,76,9
htm84653,56,3
200074762,98,4
10053657,210,7
pdf41753,112,7
yahoo27728,210,2
linux22231,714,3
jpg22132,414,7
mp321343,520,4
amazon20834,616,6
url20236,217,9
microsoft18724,913,3
100015741,726,6
google1501812
xml11924,920,9
xp10124,724,5
ibm81,625,731,5
txt8026,733,4
ftp7731,641
href74,124,132,5
perl51,42242,8
https49,321,543,6
gnu43,319,845,7
mozilla34,413,940,4
mpeg28,712,844,6
macintosh28,115,555,2
firefox23,610,444,1
wma15,55,0732,7
wav13,57,3654,5
ppt137,3456,5
altavista11,84,1935,5
rtf11,46,0853,3
ldap6,983,5651
csv5,822,8949,7
sgml5,232,5849,3
gopher2,921,5252,1
vba2,571,662,3
0x002,210,4219,1
ie62,050,7335,6
vb61,10,436
ffff1,070,437,3
0xff1,070,3229,8

J'ai affiché la relation entre la fréquence des mots et le pourcentage de pages en anglais dans le diagramme ci-dessous :



Ce diagramme est tout à fait inattendu, puisqu'on observe une loi de puissance entre le pourcentage et la frequence, qui résulte en une décroissance extrêmement rapide de la proportion des pages en anglais contenant une forme donnée quand la fréquence de cette forme augmente. Je veux bien accepter un léger biais, mais je ne vois rien qui puisse expliquer un effet de cette ampleur.

Comme je ne veux pas me reposer sur des intuitions, j'ai vérifié ce que nous dit Yahoo! pour les même 50 mots. Yahoo! et Google reconnaissaissent à peu près le même ensemble de langues, et bien qu'ils puissent différer quelque peu dans leur stratégie de crawling (ce qui peut entraîner de petites différences dans le diagramme), la tendance générale devrait être la même.

Or, elle est totalement différente chez Yahoo! :



On n'observe absolument aucune corrélation, et les mots apparaissent de façon aléatoire dans le diagramme, comme je m'y attendais. La droite de régression est plate, indiquant une proportion moyenne de 61% de pages en anglais dans l'index Yahoo!. Il y a donc quelque chose d'étrange chez Google. Pour y voir plus clair, j'ai esayé de "zoomer" l'axe des abcisses à l'aide d'une échelle logarithmique, et, de fait, le nouveau diagramme nous donne une meilleure idée de la situation :




Le diagramme se divise en deux parties, quelquepart entre 107 et 108. La partie de gauche se comporte exactement comme Yahoo! : il n'y a aucune corrélation entre la fréquence globale et la proportion anglais/Web. La droite de régression est plate (elle peut apparaître un peu courbée à cause de l'échelle logarithmique sur l'axe des abcisses) et elle indique une proportion d'environ 43% de pages en anglais. Le comportement selon une loi de puissance n'apparaît que dans la partie de droite du diagamme. Maintenant que la partie de gauche en a été extraite, la corrélation est extrêmement forte, puisque coefficient de détermination R2 atteint 96%. Le changement soudain autour de 0.5 x 108 et le R2 très élevé dans la seconde partie sont tous deux très difficiles à concilier avec un effet naturel. Il semble hautement probable que quelque chose d'artificiel est à l'oeuvre derrière ces comportements.

Quoi exactement ? C'est évidement difficile à déterminer. La cassure soudaine autour de 0.5 x 108 est consistante avec les chiffres de Mark Liberman dans son commentaire à propos de mon billet sur la logique Googléenne. Mark a reporté la relation X vs (X OR X) sur un diagramme pour un certain nombre de mots (que je reproduis ci-dessous par commodité). Il remarque un changement autour de 105 (ligne pointillée). Cependant, le diagramme montre une autre cassure, bien plus prononcée, autour de 0.5 x 108, comme dans mes données (je l'ai marquée en rose dans le diagramme de Mark). Les mêmes raisons pourraient bien être cachées derrière les deux problèmes.



Certains ont dit que Google avait effectivement "crawlé" 8 milliards de pages (ou même plus, comme le prétend Nathan Weinberg dans son billet sur InsideGoogle), mais n'aurait pas réellement indexé toutes les pages pour des raisons pratiques. L'index véritable sur lequel travaillent les "data centers" serait en réalité beaucoup plus petit, et une extrapolation serait effectuée pour correspondre au total de 8 milliards -- sauf que Google pourrait bien avoir du "vieux code" dans ses programmes (voir les commentaires de Mark Liberman's et Geoff Nunberg's comments), qu'ils ont très bien pu oublier de mettre à jour lors de la mise en place passablement chaotique du nouvel index (voir, à nouveau, les commentaires de Nathan Weinberg pour plus de détails).

Je ne sais pas si c'est l'explication, ou même une partie de celle-ci, mais je suis convaincu que les lecteurs et commentateurs de ce blog vont faire preuve d'imagination (n'oubliez pas de m'envoyer un petit message à Jean.Veronis@up.univ-mrs.fr) si vous écrivez des commentaires sur un autre blog) !

En tous cas, je déconseillerais vivement l'utilisation des comptes fournis par Google dans une quelconque application professionnelle (comme par exemple la "linguistique Googléenne" qui semble émerger ces temps-ci). Yahoo! semble de comporter de façon plus fiable -- ou plus rusée !

Post-scriptum


28 jan - Danny Sullivan rebondit sur SearchEngineWatch blog, avec une liste utile d'autres articles sur les bizarreries arithmétiques de Google [en anglais]:
Search engine counts are never something you should depend on, a topic we've discussed many times before. Still, if you're going to get a count, it's nice if it doesn't seem to change much or simply seem absurd depending on the query you do.

Google's counting has been shaky for ages. But the Web: Google's counts faked? article does a lot of math to find the counts have even more weirdness to them.

Lire...


[8 fév - Lire la suite : Le mystère des pages manquantes de Google résolu ?]

34 Commentaires:

Anonymous Anonyme a écrit...

Biens sympathiques ces petites infos :)
J'ai découvert votre site grace à Zorgloob.com et ils sont tous deux forts intéressants :)

Merci pour vos "démonstrations".

Rano

26 janvier, 2005 16:33  
Anonymous Anonyme a écrit...

En fait une part non négligeable de l'index Google n'est pas véritablement indexée : Google juge alors le contenu non pas sur le contenu de la ressource, mais sur les liens qui pointent vers la ressource. J'imagine que ca influe sur les estimations des résultats...

26 janvier, 2005 16:44  
Anonymous Anonyme a écrit...

Je pense que ta 1e expérience (avec "the") est biaisée par le fait qu'il s'agit probablement d'un mot ignoré dans la plupart des requêtes. Les moteurs se comportent généralement de façon aberrante quand on leur envoie des requêtes ne contenant que des mots ignorés, et on ne peux pas vraiment leur en vouloir. Cela pourrait aussi expliquer ton second graphique (plus un mot est courant en anglais, plus il tend à être ignoré par le moteur) ce qui fausserait aussi tes résultats. Mais comme je ne comprends pas tout à ton explication, je ne voudrais pas trop m'avancer...

Manue
http://figoblog.ouvaton.org

26 janvier, 2005 19:39  
Blogger Carline a écrit...

Très intéressant ! Avez-vous testé le tout récent msn search ?

26 janvier, 2005 22:58  
Blogger Jean Véronis a écrit...

Pas encore! mais c'est dans mes projets... Pour l'instant j'ai juste regardé THE :

Web: 2,625,352,129
Anglais: 2,599,830,747

Cela fait 99%. A mon avis c'est un peu trop, d'autant que THE retourne 16% en allemand, 7% en français. On en est déjà à 122% et je n'ai pas testé les autres langues...

A voir. En tous cas, ça n'est pas complètement à côté de la plaque comme Google !

26 janvier, 2005 23:13  
Blogger bernhard a écrit...

il est parfois plus facile, de créer des regles speciales, pour une raison X (par exemple des resultats demontrant un information sur la technologie qui doit etre tenue secrete). Et donc d'adapter dans le sens que d'un coté cela ne choque pas l'utilisateur classique, et de l'autre certaines choses soient preservées. Si tout était linéaire dans les resultats de Google, il serait par la force des choses plus facile à maitriser. Et on pourrait en abuser.

28 janvier, 2005 12:14  
Anonymous Anonyme a écrit...

Informations très intéressantes ... merci pour cette étude

29 janvier, 2005 13:57  
Blogger Loran Bernardi a écrit...

Bonjour je viens de poster ici http://loran.blogspot.com

J'ai essayer de me demander ou les resultats divergent sur la recherche autour de "The".
Le resultat est marrant. (enfin moi au moins ca m'a amusé)

31 janvier, 2005 13:55  
Anonymous Anonyme a écrit...

Je suis assez convaincu par ta démo.
Pour la valider, il faut maintenant étudier les autres explications poissibles.
Par exemple, ne se pourrait il pas que 'the' soit un mot ignoré en anglais et pas en dans les autres languages, d'où un résultat abérrant pour cette requete.

01 février, 2005 10:33  
Blogger Jean Véronis a écrit...

C'est pour cela que j'ai pris ensuite des mots indépendants des langues (www, http, etc. -- voir mon tableau). On observe la même chose.

01 février, 2005 13:33  
Anonymous Anonyme a écrit...

Je suis comme Manue : une recherche avec le mot "the" me pose probléme, sans compter que ce mot existe aussi en langue française. Maintenant, moi non plus, je suis pas un expert, mais le fait que "the" en anglais donne moins de résultats qu'en français ne m'étonne pas plus que ça (sur la page d'aide à la recherche) : "Google ignore les chaînes de caractères dont le poids sémantique est trop faible (également désignés « mots vides » ou « bruit ») : le, la, les, du, avec, vous, etc., mais aussi des mots spécialisés tels que « http » et « .com » et les lettres/chiffres d'un seul caractère, qui jouent rarement un rôle intéressant dans les recherches et risquent de ralentir notablement le processus". De fait,, si la version française ignore "le", on peut imaginer que la version anglaise ignore "the" quand la version française prend en compte le "thé".
Cependant, la recherche donne bien l'impression de ne pas tant ignorer les "the" que ça : la deuxième réponse renvoie au site de la maison blanche, la première à un quotidien.

03 février, 2005 16:55  
Anonymous Anonyme a écrit...

En fait Google n'interroge qu'une partie de sa base dans un premier temps et n'interroge le reste que si les mots recherchés ne sont pas assez courants et n'ont rien donné de quantitavement suffisant (moins de 1.000 réponses). La première base est composée de pages avec PR (PageRank) élevé, et est répliquée un grand nombre de fois pour afin de tenir la charge. Le comptage est donc complètement approximatif au délà de 1.000 réponses (règle de 3 à partir du nombre de résultat sur la fraction de base interrogée).

03 février, 2005 17:30  
Anonymous Anonyme a écrit...

yahoo comme google !
une recherche sur THE en langue francophone offre 18 000 000 réponse.
Puis une recherche sur THE sur "en france" donne 23 400 000 réponse.

il y aurait pas un Bug ?

@plus

03 février, 2005 17:43  
Anonymous Anonyme a écrit...

Juste une remarque.
Tout le monde pense à "the" comme l'article définitif "le". N'oubliez pas qu'en langage "francophone" le mot "the" peut aussi signifier "thé" ("tea" en anglais).
Donc la somme des articles définitifs "the" et des mots désignant le breuvage bien connu peut effectivement dépasser le seul mot "the" en tant qu'article définitif.
Voilà, c'était ma contribution du jour...
Honolulu

03 février, 2005 22:03  
Anonymous Anonyme a écrit...

hello, bien sympa d'avoir autant de temps à perdre ! mais je me permets de souligner que si tu avais perdus autant de temps pour étudier un peu plus le web et les difference des critere de recherche des moteurs tu aurais pu comprendre tout seul ton erreur...
google ne lit plus les meta mais scan les pages, yahoo c'est le contraire, donc deja pour les recherche uniquement en langue anglaise il y a une sacrée difference de nombre de page ecris en anglais et les site de pays anglophone ! de plus comme l'a relever plus haut une personne the peu etre thé car google ne tiens pas compte des accents.... donc ca donne deja des difference énormes !
pour ma part le plus important est que google trouve bien plus de reponse interessante car les meta sont vraiment mal remplis par les programmeurs, mais c'est vrais que yahoo est devenu aussi pertinent, mais uniquement si les meta sont correctement rempli....

a plus
r.ik

04 février, 2005 00:27  
Anonymous Anonyme a écrit...

C'est vraiment du temps à perdre, et c'est dommage je me joins à toutes les explications fournies conçernant les mots ignorés.

As tu seulement vérifié l'info avec google ou voulais tu devenir célèbre le temps de quelques jours ?

Demain je posterai "MSN Messenger vous espionne" et Logitech vous prend en photo avec votre Webcam entre 8h00 et 10h00 quand vous sortez de la douche" ...

Je suis triste d'avoir été intrigué par le titre de cet article ne se basant que sur des tests en ne prennant pas compte des critères des moteurs.

L'autre solution est que tu travailles chez Yahoo ou MSN et que tu veux faire un formidable coup de pub pour ta boite ...

Bonne soirée..

CyruS.

04 février, 2005 01:10  
Blogger Jean Véronis a écrit...

Je vois que je ne suis pas le seul à avoir du temps à perdre ;-)

04 février, 2005 08:43  
Anonymous Anonyme a écrit...

Je ne trouve pas que ce soit du temps perdu et je prends toujours plaisir à lire ce genre d'article.

05 février, 2005 02:58  
Blogger Corsican a écrit...

Ton calcul est tout à fait correct, mais ton interprétation est fausse à cause du choix de ton échantillon de mots:
ils ne concernent que l'informatique, et cette "loi de puissance" s'explique par le fait que:

plus les termes sont très techniques utilisés dans les documentations informatiques (perl,..) ou commerciaux essentiellement américains (Macintosh) alors plus ils apparaissent sur des sites anglophones et on comprend pourquoi,

et plus ils sont courants comme l'informatique grand publique (www,...), plus ils apparaissent dans toutes les langues.

Je pense que au contraire, google donne plus de résultats que yahoo, et de ce fait on constate plus facilement cette "loi de puissance", mais qui ne s'applique pour moi qu'à ton échantillon.

Je pense que si tu utilisais un échantillon plus élargi et plus conséquent, en incluant des termes plus littéraires (non pas monopolisés par les américains), tu ne verrais pas alors cette "loi", tu devrais simplement obtenir une ligne sans pente.

05 février, 2005 15:35  
Blogger Jean Véronis a écrit...

Voilà de la bonne méthode scientifique : Corsican émet une hypothèse, et nous donne une méthode pour la tester. Merci, ça relève le niveau après les deux ou trois derniers commentaires... Effectivement, j'ai pensé à cette possibilité (d'ailleurs dans l'article je dis "Je veux bien accepter un léger biais", et c'est à cela que je fais référence), mais :

1. Les "mots" non informatiques (les nombres par exemple), se placent exactement sur la même loi de puissance que les mots informatiques (le mot "the" en est un exemple). J'ai fait d'autres essais qui confirment que le seul facteur est la fréquence des mots.

2. On devrait avoir un biais aussi, même s'il est plus léger pour une raison X, avec les autres moteurs. Or, on n'en observe strictement aucun sur Yahoo (et je viens de vérifier qu'il n'y en a aucun avec MSN non plus).

3. Rien n'explique que la cassure soit franche, et que l'on passe d'un mode sans corrélation à un mode fortement corrélé en loi de puissance. Il y a une rupture nette, alors qu'avec le biais en question la dégradation devrait être progressive.

05 février, 2005 17:56  
Anonymous Anonyme a écrit...

C'est quand même grave de poster des trucs comme cela alors que google est un moteur de recherche avec lequel on trouve toujours rapidement ce que l'on cherche.

De plus, je te rapelle que la tu es sur un blog hébergé par google car Blogger fait partie de google.

Demain tu vas te plaindre de ton blog ...

Alez a++

05 février, 2005 21:28  
Anonymous Anonyme a écrit...

Très fort, au moins on ne peut pas dire que c'est une etude baclée.
Je me doutais du peu de fiabilité du nombre de resultat car j'avais deja remarqué que google ne respectait pas la Loi de Benford sur les chiffres.
Bon boulot bravo !

07 février, 2005 12:13  
Anonymous Anonyme a écrit...

Mouais , beaucoup de bruit pour rien ...
"Mais j'ai trouvé pire, et bien plus dérangeant" oh mon dieu c'est horrible.

07 février, 2005 21:05  
Anonymous Anonyme a écrit...

Excellente étude ! Bravo ! La raison du biais reste obscure à mes yeux, mais je propose quelques remarques :

- le biais se produit au-delà d'un seuil critique, ce qui m'engage à penser que ça pourrait venir d'une limitation logicielle volontaire de la part de Google pour éviter la surcharge due aux requêtes engendrant de trop longues recherches : au delà d'un certain nombre de pages trouvées on arrête la recherche, et on applique une méthode heuristique (genre règle de 3 à partir du ratio pages pertinentes/pages testées et du nombre total de pages référencées) pour évaluer un pseudo nombre total de pages pertinentes.
- reste à expliquer l'apparition de la loi de puissance. Là, j'ai vraiment du mal à comprendre. Mais les résultats totalement abhérents en ce qui concerne les recherches restreintes aux pages anglophones, me donnent à penser que la méthode heuristique appliquée pourrait ne pas être la même dans le cas de recherches "On the Web" et de recherches anglophones. Voire, que les recherches sur les pages anglophones pourraient tout simplement être tronquées au-delà d'un certain nombre de résultats. C'est ce que suggère notamment la forte proportion de résultats entre 10 et 100 millions pour les seules pages anglophones.

Qu'en penses-tu ?

08 février, 2005 17:31  
Blogger Jean Véronis a écrit...

Il est fort improbable que les mots fréquents soient totalement indexés, pour des raisons évidentes de place. Pas question d'indexer tous les "the", mais on peut en indexer une partie, concernant les pages de relevance la plus élevée. Mon hypothèse est qu'au-delà de 0.5 x 10^8 la proportion mise dans l'index suit une loi de ce type. Ca paraît être une bonne solution technique. Et comme l'interrogation sur les pages en anglais a l'air de faire apparaître le vrai contenu de l'index [voir mon billet d'aujourd'hui], c'est peut-être l'explication...

08 février, 2005 18:13  
Anonymous Anonyme a écrit...

Ca n'a pas grand chose à voir mais, ce qui m'étonne dans google, c'est le nombre de page indexées. 8 Milliards de pages alors qu'il y a quelques mois seulement il n'y en avait que 4 milliards !

Sam

09 février, 2005 16:19  
Anonymous Gwendal a écrit...

Je suis impressioné par la qualité de cette analyse. J'avoue ne pas avoir compris tous les calculs mais qu'importe ! Je m'étais déja fait la remarque que les recherches de Google sur une langue précise ne fonctionnaient pas, mais pas de façon aussi formelle !

27 mars, 2005 23:54  
Anonymous Anonyme a écrit...

Tres belle etudes, et de haute qualite.
Mais il y a quand meme une demarche que je pense n'a pas encore ete faite: contacter directemment google et leur demander des eclaircissement.
Si cela a deja ete fait et qu'il n'ont pas repondu alors la oui je crois qu'il y a quelque chose d'artificielle dans les resultats de google (bien que c'est vrai qu'ils donnent des resultats assez pertinents).

Bonne continuation et encore felicitation from Kinshasa RDCongo

03 mai, 2005 19:30  
Blogger Jean Véronis a écrit...

contacter directemment google> eh oui, je l'ai fait, mais je n'ai eu qu'une réponse automatique en langue de bois, du genre "nous vous remercions et nous allons étudier le problème"...

03 mai, 2005 19:36  
Anonymous Anonyme a écrit...

interressante etudes mais qui ne fait que confirme la bonne marche de l'alogorythme original utilise par Google.

En effet l'analyse semantique d'un texte est un processus complexe et tres couteux en terme de resources et somme toute hazardeux, puisque finalement seule un humain peut comprendre (et encore!) l'ambiguite d'un texte. L'idee des algorythmes utilises par Google est d'avoir une approche statistique de l'analyse des textes. En fait les moteurs de recherche n'indexent pas sur le "sens" du texte mais plutot sur une loi statique pre-determinee liant un texte a un certain nombre de mots "statistiquement" pertinant.

Par exemple, Google utilise une loi tres simple; le texte est divise en mot, chaque mot est compare a l'index existant, si le nombre total d'occurence de ce mot depasse 50% du nombre totale d'occurence des autres mots, alors le mot est considere comme du bruit. Ce qui signifie qu'il n'est pas pertinent puisqu'il renvoie plus de 50% de l'index. Qui veut verifier une a une des milliard de pages! Une recherche qui donne des milliard de resultats est une mauvaise recherche puisqu'elle ne permet pas humainement de trouver une information. Cela signifie que les mots cles entres ne sont pas assez significatif pour trouver une information utile a l'utilisateur.

En clair ton etude confirme l'algorythme. Les mots que tu as choisis renvoient trop de reponses d'ou l'aberrance et la cassure dans tes graphs. Tu ne fait que detecte le seuil ou le moteur pense que le mot est pertinant ou non. Grosso modo l'algorythme de Google est correct lorsque le nombre de reponse est peu eleve, au dela il repond n'importe quoi. Ce "n'importe quoi" signifie d'entrer de nouveaux mot cles afin de limite le nombre de reponse afin de rendre un resultat qui veut dire quelques chose.

A noter aussi que la langue est importante dans l'algorythme d'indexation. Le decoupage en mot du texte est dependant de la langue. De plus la probabilite que ce mot soit du bruit est aussi dependant de la langue. "The" est un article en anglais mais "The" (tea) est un nom en francais. De plus le decoupage du texte n'indexe pas le mot tel quel mais une forme simplifier du mot. La raison est qu'un mot peut avoir plusieur derivation et terminaison, par exemple un verbe en francais ou un adjectif en japonais; le mot chant, chanter, je chantes... vont etre indexer sous le terme "chant", racine commune. Le terme "The" peut aussi referencer a bien plus qu'a "The" article dans differentes langues...

En depit des failles d'une telle approche, elle a fait ces preuves, ce n'est pas parfait mais jusqu'a maintenant c'est efficace et rapide.

23 juin, 2005 12:12  
Anonymous Anonyme a écrit...

-yo

18 août, 2005 22:00  
Anonymous Anonyme a écrit...

un an plus tard... mais il me semble que la première copie d'ecran indique 8 milliards de "resultats", et la deuxieme 88 millions de "pages", soit 880 millions de résultat.

cela dit ca ne fait toujours que 10%.....

11 avril, 2006 00:21  
Anonymous Pinkilla a écrit...

Quatre an plus tard ... :-)

Environ 14.740.000.000 résultats (0,29 secondes)

08 juillet, 2010 00:24  
Blogger ZEMBRAKO a écrit...

Cinq an plus tard ... :-)

About 25,270,000,000 results (0.23 seconds)

08 août, 2011 00:26  

Enregistrer un commentaire

Web: Google's counts faked?




[8 feb - Read followup : Google's missing pages: mystery solved?]



A few days ago, I showed that Google's boolean operators are flawed in a major way which makes their result counts totally unusable (unless you are ready to accept that A OR B returns half the number of results of A alone, of course).

However, I've found much more -- and much more disturbing. The counts themselves are flawed in a major way, even if you don't use any "advanced" (or not so advanced) search capabilites. Take a look at these two screen copies, and find the error:





The first screen is a query for the on the entire web (i.e. the part Google claims it's indexing), the second for the, restricted to English pages only. There is a small oddity that was already noticed by many people: the count for the on the entire Web is rounded at 8 billions exactly, which is a bit suspicious. But this is not my point. The query for the in English pages returns only 88 million pages, i.e. just above 1% of the Web total. I have some trouble accepting this result, which would mean that nearly 99% of occurrences of the string the occur in non-english pages.

But I may be wrong. Let's check what Yahoo! says:





The picture is entirely different here, since 91% of occurrences of the are located in English pages, which is much more in line with our intuitions.

I am not ready to accept the standard explanation from Google's people ("you know that our figures are estimates, approximations", etc.). Differences of that magnitude are likely to hide something more important. I therefore tried to assess the exact share of English pages indexed by Google. To do so, I chose 50 "words" that are likely to be language-independent: numbers, file extensions, protocols (http, etc.), computer brand names, etc. The words probably occur in other languages as well, and although there might be some individual variations among the words, I don't expect to see any kind of pattern relating their presence in English pages and their frequency. Or, if there is one, it will have to be explained.

The results are summarised (in millions) in the following table (they were computed on January 25th at Google.com from France, and results may vary a little of course depending on the data centers that are hit):

GoogleWebEn%
14780671,4
www441050,21,1
2005240063,92,7
0218080,73,7
10214066,13,1
html160058,93,7
http135034,22,5
web98842,34,3
php88360,76,9
htm84653,56,3
200074762,98,4
10053657,210,7
pdf41753,112,7
yahoo27728,210,2
linux22231,714,3
jpg22132,414,7
mp321343,520,4
amazon20834,616,6
url20236,217,9
microsoft18724,913,3
100015741,726,6
google1501812
xml11924,920,9
xp10124,724,5
ibm81,625,731,5
txt8026,733,4
ftp7731,641
href74,124,132,5
perl51,42242,8
https49,321,543,6
gnu43,319,845,7
mozilla34,413,940,4
mpeg28,712,844,6
macintosh28,115,555,2
firefox23,610,444,1
wma15,55,0732,7
wav13,57,3654,5
ppt137,3456,5
altavista11,84,1935,5
rtf11,46,0853,3
ldap6,983,5651
csv5,822,8949,7
sgml5,232,5849,3
gopher2,921,5252,1
vba2,571,662,3
0x002,210,4219,1
ie62,050,7335,6
vb61,10,436
ffff1,070,437,3
0xff1,070,3229,8

I plotted the percentage of English pages vs the frequency of words in the entire Web in the diagram below:



This is entirely unexpected, since we can observe a power law linking percentage and frequency, resulting in a very sharp decline in the proportion of English pages containing a given form when the global frequency of that form increases. I am ready to accept a small bias, but I can't see anything explaining an effect of that magnitude. Anyway, I don't want to rely on intuitions, and I checked what Yahoo! says about these same 50 words. Yahoo! and Google recognise about the same set of languages, and might differ a little in their crawling strategies, and therefore the plot can be slightly different, but the overall tendancy should be roughly the same.

However, the pattern is totally different at Yahoo! :



There is no correlation at all, and the words, as I expected, appear randomly in the plot. The regression line is flat, indicating an average proportion of 61% of English pages in their index. There is therefore something weird with Google. I tried to "zoom in" by using a logarithmic scale for the X axis in the Google diagram in order to see if we could have a clearer idea of what's going on, and indeed this new diagram sheds some light on the situation:



The plot clearly divides in two parts somewhere between 107 and 108. The left part behaves exactly like Yahoo! : there is no correlation at all between the word global frequency and the En/Web ratio. The linear regression line is flat (it may look slightly bent because the X axis scale is logarithmic) and its slope indicates a share of about 43% English pages. The power law behavior occurs only in the right part of the diagram, and now that the lower frequency words have been excluded the correlation is extremly strong, with a coefficient of determination R2 reaching 96%. Both the sudden change near 0.5 x 108 and the very high R2 in the second part are difficult to concile with a natural effect. It seems likely that something artificial is going on there.

But what exactly? This is of course difficult to determine. The sudden break around 0.5 x 108 is consistent with Mark Liberman's findings in his follow up to my Googlean logic post. Mark plotted X vs (X OR X) for a number of words (I reproduce his diagram below for the sake of convenience). He noticed a change in slope around 105 (dotted line). However, there is another, more drastic bent around 0.5 x 108, as in my data (I have marked it in pink in the diagram). The same reason(s) could very well be hidden behind the two problems.



Some people have said that Google may have crawled 8 billion pages (or even more, see Nathan Weinberg's post on InsideGoogle), but have not really indexed the entire set for pratical reasons. The real index on which the data center are operating could be much smaller, and in such a case an extrapolation would be done to match the 8 billion figure -- apart from the fact that Google may have old code (see Mark Liberman's and Geoff Nunberg's comments), and they may simply have forgotten to update it in the hesitations that seem to have taken place when they increased their index (again, see Nathan Weinberg's comments for a more complete story).

I don't know if this is the explanation, or even part of it, but I am sure that readers and commentators of this blog will have plenty of ideas (if you write a follow up somewhere else, plese drop me a note at Jean.Veronis@up.univ-mrs.fr).

In any case, I would not recommend professional uses of Google's counts (such as "Google linguistics"). Yahoo! seems more reliable -- or are they simply cleverer?



Post-scriptum


28 jan - Danny Sullivan writes a useful follow up on the SearchEngineWatch blog, with pointers to other Google's counts oddities:
Search engine counts are never something you should depend on, a topic we've discussed many times before. Still, if you're going to get a count, it's nice if it doesn't seem to change much or simply seem absurd depending on the query you do.

Google's counting has been shaky for ages. But the Web: Google's counts faked? article does a lot of math to find the counts have even more weirdness to them.

More...



[8 feb - Read followup : Google's missing pages: mystery solved?]

15 Commentaires:

Anonymous Anonyme a écrit...

Ce commentaire a été supprimé par un administrateur du blog.

26 janvier, 2005 14:09  
Anonymous Anonyme a écrit...

try this: http://www.google.com/search?hl=en&q=the&btnG=Hledat&lr=lang_cs

it says that ~4M of pages written in czech contain "the"-word and that's about 25times lower (at 4% of the number of english pages) and that makes it also interesting :)

-- spaze\/exploited\/cz

28 janvier, 2005 03:50  
Blogger Jean Véronis a écrit...

It's way too much! Yahoo gives a better estimate:

2520000 pages containing "the" in Czech for 1720000000 in English, i.e. 0,15%.

The situation is worse for French, since the number of pages containing "the" is 25% the number of English pages if we trust Google (it's only 1% in Yahoo).

Thanks for this observation!

28 janvier, 2005 08:44  
Blogger Hilton Santos a écrit...

I agree with your research.

Seems that they index and count sub folders of any given domain... Thus coming to 8 billion...


http://hilton-santos.blogspot.com

29 janvier, 2005 11:43  
Anonymous Anonyme a écrit...

Ce commentaire a été supprimé par un administrateur du blog.

09 février, 2005 06:08  
Anonymous John Daniels a écrit...

Hello,

I am glad this public Google sucks thread is here.

I have had my head so far up googles A$$ for so many years I feel like a fool. It is now 2005 and it seems for at least a year google's search results are crap. It is like I have to search longer and longer to find what I am looking for.

Like one of the other posters said, you should be able to type in a manufactures name and their website come up first.

This is just and example:

I own a small business in the US named Excalibur Gate Openers LLC. We manufacture gate openers to automatically open swing gates. The website name is www.excaliburgateopeners.com and the title of the web page is the same.

You would think you could type in Excalibur gate openers as a search string and the search engine would bring up www.excaliburgateopeners.com first.

This was my awaking call, MSN, Yahoo and Teoma all bring up www.excaliburgateopeners.com when searching for excalibur gate openers.

GOOD BY FOREVER GOOGLE, YOU SUCK!


Google is my homepage for all my computers......O, I guess the key word should be was:-)

09 avril, 2005 22:52  
Blogger darth-google a écrit...

One of the first Google searches I ever did was an exact-phrase "jill hennessy" search.

HA HA HA HA HA HA HA HA HA !!!

Big mistake. Left a rotten taste in my mouth, ya know? A "Jill Hennessy" search is a great example of when a few, good sites compete with thousands of keyword traps and other garbage; in other words, competition NOT with like sites.

18 avril, 2005 20:50  
Anonymous Anonyme a écrit...

I think Darth Google may have been hammered when he wrote that. I'm going to read up on the topic of your post and make him feel very stupid.

A Friend

18 mai, 2005 04:23  
Anonymous Anonyme a écrit...

Have you checked the google count index lately? I just did and it provided me with a search of "the" with a count of 3.46 billion of the entire web and 3.36 billion of the English pages. Seems they haved cleverly fixed this problem.

11 juillet, 2005 07:26  
Blogger David Burdon a écrit...

Highly stimulating.

David Burdon - Simply Clicks

26 juillet, 2005 22:45  
Anonymous Anonyme a écrit...

I found a new one, not big, but no ads either !

http://www.foook.com

they also index your site while you watch!, quite cool.

03 août, 2005 12:49  
Anonymous Anonyme a écrit...

-yo

18 août, 2005 21:49  
Anonymous Yevgeniy a écrit...

Well... It all just smells like people start to dislike google... However, I must admit that Google is not very good at countings.

22 septembre, 2005 12:07  
Anonymous Anonyme a écrit...

I like the fact that this blog is using blogger.com, owned by critised Google...

22 octobre, 2005 15:33  
Blogger mohnkhan a écrit...

Intresting research done.
well I am now doing my own part on it.

Have a look at this article too
http://www.google-watch.org/dying2.html

signed
mohnkhan


Mohiuddinkhan Inamdar
http://www.mohitech.com

26 janvier, 2007 01:29  

Enregistrer un commentaire

mardi, janvier 25, 2005

Lexique: Les nouveaux recrus sont déjà fatigués

Je me suis dit, après mon billet d'hier, qu'il serait juste que le sexiquement correct joue dans les deux sens. La(le) gent(e?) masculin(e) peut aussi s'offusquer de quelques termes féminins qu'on lui fait porter en certaines circonstances, en particulier militaires. Sentinelles, estaffettes, ordonnances... Brimades ? Je me suis demandé si on avait commencé à employer une sentinel(le), un estaffet(te), un(e) ordonnant, et j'ai évidemment cherché sur Google. Mais les mots sont vieux, les professions périmées, et la recherche est polluée par le jeu Sentinel (orthographe anglaise), le logiciel Estafet (idem -- tiens, les anglais ont "masculinisé" ces formes en les important), ou le participe présent ordonnant (je ne suis d'ailleurs pas sûr que cette forme soit la bonne pour un masculin d'ordonnance). L'examen de quelques écrans ne m'a rien donné, mais j'ai pu en louper.

J'ai néanmoins trouvé un cas assez intéressant : les nouveaux recrus. Google liste quelques centaines de nouveaux recrus et recru(e)s (jeunes recru(e), nouveaux et nouvelles recru(e), etc.). Il y a donc bien une tendance, même si elle est infime (recrues possède 143 000 occurrences), à faire fonctionner le sexiquement correct à l'envers. Ce qui est amusant c'est que le mot recru existe déjà en français, bien qu'il soit un peu vieilli. C'est le participe passé de l'ancien verbe recroire ("se décourager, s'avouer vaincu"), qui a pris le sens de "fatigué, épuisé". On l'entend encore dans les formes recru de fatigue, de douleur. Le mot recrue, lui, est le participe passé de recroître : il désignait les soldats qui venaient recroître (on dirait maintenant accroître) les corps de troupes au combat. Rien à voir entre les deux donc... Je ne puis dire comment la nouvelle orthographe recru(e) s'est formée, mais peut-être est-ce une contamination par le verbe recruter (qui aurait un participe passé un peu court, mais on est habitué aux bizarreries verbales du français). Ou alors, peut-être les nouveaux recrus sont-ils déjà fatigués ?

Pas d'ambiguïté : je suis totalement pour la parité (la vraie, celle des faits, non celle des mots) ! Mais on peut quand même s'amuser... Il n'y aura que les mauvais(e)s gens pour y voir du mal. Ca ne choque person ?

5 Commentaires:

Anonymous Anonyme a écrit...

Je ne peux parler pour person, mais en tout cas personne ici !

On pourrait s'amuser longtemps à ce petit jeu, autrement. Ainsi, s'il y a des femmes qui sont vaches, il se trouve des hommes qui soient des salauds. Les vachers ont toutefois leurs vachères, alors que l'égalité se trouve sur le plan adjectivé vachard/vacharde, rarement employés... Des femmes salaudes, ça n'existe pas, mais des salops et des salopes... un peu plus !

Mais tout ça ne fait pas avancer le schmilblick.

Cathy
http://spheroide.joueb.com (si ça fonctionne toujours, car je n'y ai point accès depuis hier... En maintenance, je suppose)

30 janvier, 2005 15:50  
Blogger Jean Véronis a écrit...

La schmilblicke ?

30 janvier, 2005 16:00  
Anonymous Anonyme a écrit...

Je dois avouer que là, pour un moment, je n'ai pas saisi... Puis, j'ai explosé de dire. J'en subis encore les SecOuSsEs ! Ovarb !

Cathy

30 janvier, 2005 23:03  
Anonymous Anonyme a écrit...

...explosé de rire, et non de dire...

La schmilblicke est confondue !

Cathy

30 janvier, 2005 23:06  
Anonymous L'AdmiRateur a écrit...

Dans google, on trouve aussi des dictionnaire éthymologiques.

J'ai regardé pour recrue
Le terme recruter n'existait pas. A la place, il fallait dire "faire des recrues", recrue étant utilisé comme un mot invariable apparamment. On a fini par inventé le verbe recruter, qui a comme participe passé recruté(e). (Et croître a comme participe passé crû).
Le terme de recrue était sûrement utilisé dans le cas d'une sur-augmentation (ex : "la recrue d'un régiment").
En bref, recru n'a jamais existé dans ce sens là !

Quant à recru (qui s'écrit aussi recrû), il vient de recrëut (= "qui se rend, qui s'avoue vaincu"), lequel vient du latin recredere (= se rendre à merci) lui même issu de credere (croire).
Il y a aussi l'ancien verbe recroire, qui ne veut pas dire "y croire encore", mais "se décourager".

C'est bien compliqué, tout ça ... :-S

13 août, 2006 05:57  

Enregistrer un commentaire

lundi, janvier 24, 2005

Lexique: Les contremaître(sse)s de grutier(ère)s et les sapeur(se)s pompier(ère)s

Depuis quelque temps, on observe une tendance à féminiser les noms de métiers ou de fonctions (une chercheure, etc.). C'est très bien, et loin de moi l'idée d'y trouver quelque chose à redire. Nos cousins Québécois sont d'ailleurs en avance sur nous pour ces choses.

Le problème vient du masculin (on s'en doutait diront certaines). Jusqu'ici il a deux rôles dans notre langue, comme chacun sait. Il marque le masculin, évidemment, mais aussi l'indétermination du sexe au singulier (chaque Français) ou au pluriel (les Français). Pendant des siècles on s'est contenté de ça, mais il a fallu trouver autre chose dans le cadre du sexiquement correct. On a donc eu les inévitables (et un peu démagogiques), Françaises et Français, travailleuses et travailleurs, etc. Il n'y a guère d'autre alternative à l'oral, mais à l'écrit, c'est tout de même un peu long, et on s'est mis à jouer avec des astuces graphiques. J'en trouve dans Google News d'aujourd'hui plusieurs centaines d'exemples, au singulier comme au pluriel :
Chargé(e) d’Etudes Marketing
Assumer son homosexualité lorsqu'on est adolescent(e)
Suivi du contrôle des prisons par les élu(e)s
Les Français sont plus frileux que les Anglais(e)s
etc.
Comme je le disais, les Québécois sont en avance sur nous, et leurs textes administratifs sont de vrais délices. Extrait :
Article 13: Les affaires de la Société sont administrées par un Comité exécutif composé d'un nombre fixe de membres, soit huit (8), prenant la charge des fonctions suivantes: président(e) élu(e), président(e), président(e) sortant(e), secrétaire/trésorier(ère), conseiller(ère), président(e) du congrès annuel, responsable du comité scientifique, et représentant(e) étudiant(e). Le(la) président(e) élu(e) est élu(e) par l'assemblée générale la première année et devient automatiquement président(e) et président(e) sortant(e), la seconde et troisième année, respectivement. Le(la) secrétaire/trésorier(ère), le(la) conseiller(ère), le(la) responsable du comité scientifique et le(la) représentant(e) étudiant(e) sont également élu(e)s par l'assemblée générale. Le (la) président(e) du comité organisateur du congrès annuel de la société est nommé(e) à cette fin par le comité exécutif et devient membre d’office de ce comité.
La chose se complique lorsque le féminin se forme autrement que par la simple adjonction du (e)... Parfois ça reste assez simple, comme pour les contremaître(sse)s, ou les chiropraticien(ne)s. Mais c'est plus délicat pour les grutiers et les grutières. J'ai buté moi-même sur la bonne orthographe dans mon billet sur Penelope, où je voulais faire référence à la pénurie d'infirmiers et d'infirmières. Pénurie d'infirmier(e)s me paraît incorrect, car en bonne logique il devrait suffire d'enlever les parenthèses pour trouver la forme féminine. Or, dans ce cas l'accent manque. Pénurie d'infirmier(ère)s ? Pas très logique non plus, puisqu'ici les parenthèses prendraient un autre rôle, de signal d'alternance et non plus de facultativité... Nous sommes donc coincés. C'est encore plus ennuyeux avec les sapeurs et sapeuses pompiers et pompières (respectivement). Ici, il ne s'agit pas d'un pauvre accent grave, que, de toutes façons, presque personne ne remarque. Dans sapeuses, il s'agit carrément du remplacement d'une lettre par une autre. Encore pire, les conducteurs et conductrices (routiers et routières), où plusieurs lettres doivent être remplacées.

La seule solution serait l'adoption d'expressions régulières permettant de noter la disjonction (|) et la facultativité (?) :
infirmi(er|ère)s
sapeu(r|se)s pompi(er|ère)s
conduct(eur|rice)s routi(er|ère)s
contremaître(sse)?s de gruti
(er|ère)s
etc.
Pauvres lect(eur|rice)s ! Quant à nos pauvres systèmes de traitement automatique, je n'y pense même pas. Il(elle) y a gros(se) à parier que tou(te)s les contremaître(sse)s de grutier(ère)s et les sapeur(se)s pompier(ère)s n'ont pas été indexé(e)s...

Post-scriptum


25 Jan - Une petite suite sur les nouveaux recrus...

4 Commentaires:

Anonymous Anonyme a écrit...

J'ai bien souri en lisant votre texte. En particulier au passage soulignant l'aspect démagogue lié au "Français, Françaises", car notre premier ministre fédéral Paul Martin le pratique allègrement avec les Canadiens et les Canadiennes, ce qui est d'ailleurs repris cocassement par l'un de nos guignols à la télévision.

Il y a une autre pratique, moins courante, de la féminisation des termes que l'on peut également observer au Québec, dans le domaine de l'écrit seulement, et vous comprendrez pourquoi. Un usage qui semble se restreindre à un certain milieu académique, et aussi à un milieu féministe militant, si je ne me trompe pas (en tout cas, je n'ai rien vu de tel ailleurs). Cela se décline ainsi, par ex : présidentE éluE, présidentE, présidentE sortantE, etc. Ça a le mérite d'être moins lourd, entre parenthèses ! Ça a presque un petit côté OuLiPisTe ! Évidemment, dans le cas d'un conseiller, ça se complique.

Pour ma part, je déplore un peu que certaines féminisations soient teintées péjorativement (poétesse, maîtresse ^_^) ou considérées comme des formes vieillies (doctoresse), car je leur trouve une joliesse dans la forme et une douceur dans le son.

Une question coquine pour terminer : Peut-on penser - ou doit-on craindre - que la langue contienne dans son moule la prédominance du masculin sur le féminin et que ledit moule soit coulé dans le béton ad vitam eternam ?

Cathy (du blog assoulinien)

30 janvier, 2005 15:31  
Blogger Jean Véronis a écrit...

Merci beaucoup pour cette graphie en dos de cheameau (presidentE) que je ne connaissais pas. Dommage que Google ne permette pas d'en chercher des exemples !

En ce qui concerne l'immobilité de la langue, j'ai bien peur qu'il soit difficile d'en décrêter les modifications par arrêté ministériel (et ça fait même un peu peur, ça rappelle la Novlangue d'Orwell...). Les langues sont des organismes vivants extrêmement complexes, et quand on touche à des choses aussi ancrées que le genre des mots, je doute qu'on arrive à de grands résultats. Songeons aux autres modifications : essayons de supprimer le futur, le passé, le pluriel... ajoutons un "dual" à côté du singulier et du pluriel, comme en arabe. Bien difficile. Il faut du temps. Mais peut-être que ces graphies, si elles n'arrivent pas à changer la face de la langue, auront un effet militant salutaire.

Car après tout, ne faut-il pas surtout changer nos attitudes ? Les mots suivront...

30 janvier, 2005 15:58  
Anonymous Anonyme a écrit...

« Car après tout, ne faut-il pas surtout changer nos attitudes ? Les mots suivront... »

C'est tout-à-fait ça, le vecteur de l'attitude vise en plein coeur, de là où peut émaner la vie "courante"...

Intéressant aussi d'adjoindre les idées contrastantes d'immobilité, d'ancrage et du "vivant complexe", avant que de soulever la question du temps. Le temps n'est-il pas le hors-la-loi incontrôlable qui parvient toujours à rétablir la justesse des choses, aussi nié ou ignoré puisse-t-il être ? Ses effets salutaires viennent toutefois à son heure, qui n'est pas toujours celle que l'on voudrait, ni la même pour tous à la fois. Il me semble tout de même que si l'on tente de distinguer tous ses temps, il permet alors la belle échappée de la liberté.

Cathy

30 janvier, 2005 22:57  
Anonymous L'AdmiRateur a écrit...

Il y a peut-être une autre solution : créer le genre neutre, comme dans les autres langues. Par exemple, au lieu de dire président(e) chargé(e) d'étude, on pourrait utiliser un voyelle qui indique le neutre (genre : présidentu chargéü d'étude. Et au lieu d'instituteur et institutrice : institutruce, etc ...
Ca a le mérite d'économiser quelques parenthèses.

Après, c'est finalement une question de mode (fashion).

Sinon, reste les accents : ajouter une brève ou un rond en chef au début des mots qui sont employés au neutre. Mais ici, les mots au masculins resteraient les mots de base, ce qui est sûrement moins intéressant.

Peut-être que si quelques personnes écrivent quelques blogs dans ce "nouveau français", ça se répandra ...

13 août, 2006 05:20  

Enregistrer un commentaire

dimanche, janvier 23, 2005

Web: Google a le compteur bloqué



Lire aussi :



Je l'annonçais en novembre, Google dépassait la barre des huit milliards de pages, et affichait fièrement sur la page d'accueil :
Nombre de pages Web recensées par Google : 8 058 044 651
Petit problème, cette information n'a pas varié depuis, bien que la taille de l'index augmente régulièrement. Voici la page d'accueil d'aujourd'hui :


Google indexe manifestement chaque jour de nouvelles pages. J'en veux pour preuve ce blog, dont je vois avec grande satisfaction les pages rejoindre très rapidement l'index, généralement en moins de 48 heures (voir requête). Même en supposant que Google ne rajoute que les blogs dans son index, et même s'il n'indexe qu'une fraction des six nouveaux blogs qui se créent chaque seconde (le site Technorati en liste plus de six millions) , le compteur devrait changer rapidement.

Pourtant, dans le même temps, Google change le compte des mots individuels. J'ai fait les mêmes requêtes sur 16 mots le 22 novembre 2004 et le 22 janvier 2005 :

Mot22 nov 200422 jan 2005
Aznar16900001600000
Bernadette19200002250000
Blair1410000015800000
Chirac31200003280000
Claude1560000017900000
Coluche161000193000
Corona67500007430000
Jacques1900000021400000
Jospin669000768000
Poutine272000316000
Raffarin752000893000
Saddam1110000012400000
Sarkozy838000695000
Thatcher21400002770000
Veronis6260060100
Zidane10900001280000

Il y a une quasi-parfaite corrélation entre les résultats obtenus à ces deux dates (coefficient de détermination > 0,999 !) :



La pente de la droite de régression (1,13) nous donne la progression entre le 22 novembre (très peu de temps après la publication du nouveau compteur par Google) et le 22 janvier, ce qui nous permet d'estimer la nouvelle taille de l'index (8 058 044 651 x 1,13). Je suis donc heureux de vous l'annoncer : l'index a dépassé neuf milliards de pages. Google devrait donc afficher :
Nombre de pages Web recensées par Google : 9 105 590 456
La taille de l'index a donc progressé approximativement de un milliard de pages en deux mois. Je ne sais pas du tout si la progression est linéaire, mais on peut sans doute prédire le dépassement des 10 milliards de pages indexées avant la fin mars.

Pourquoi Google ne met-il pas à jour son compteur ? Si c'est pour cacher sa progression aux yeux de ses concurrents, c'est assez ridicule, puisque comme ce billet le montre, on peut l'estimer de façon très simple.

Cette petite nuisance sans doute moins grave que le bug sur les recherches avancées que j'ai rapporté l'autre jour, mais tous ces petits détails accumulés finissent par jeter la suspicion sur le contrôle qualité chez la maison Google. D'accord, pour l'instant seuls les professionnels se préoccupent de ces choses. Cela ne fait pas grande différence pour les requêtes sur les pages jaunes ou Britney Spears (voir ce billet)...

6 Commentaires:

Blogger Jean Véronis a écrit...

A lire : un développement intéressant de Nathan Weinberg sur InsideGoogle:

http://google.blognewschannel.com/index.php/archives/2005/01/23/google-at-how-many-billion-9-11/

23 janvier, 2005 20:18  
Anonymous Anonyme a écrit...

http://www.zorgloob.com/2004/11/google-approche-les-10-milliards-de.asp...
http://www.zorgloob.com/2004/11/10-milliards-de-pages-pour-google.asp...
http://www.zorgloob.com/2004/11/8-058-044-651-pages-indexes-par-google.asp...

24 janvier, 2005 09:32  
Anonymous Pierrot25 a écrit...

Vos articles sont toujours aussi clairs et intéressants… Merci.
Pierrot25

01 avril, 2005 10:20  
Anonymous Anonyme a écrit...

peut etre faudrait il les avertir du probleme?

21 juin, 2005 19:14  
Anonymous Anonyme a écrit...

Nous sommes maintenant en aout 2006 et le compteur a disparu. Curieux, non ?

11 août, 2006 02:20  
Blogger Jean Véronis a écrit...

Anonymous> Le compteur a été supprimé en septembre 2005 (voir ici).

11 août, 2006 09:51  

Enregistrer un commentaire

Web: Google searching 9,105,590,456 pages [en]



Read also :



As I announced in November, Google doubled its index to eight billion pages, and posted proudly on the home page:
Searching 8,058,044,651 pages
Small problem, this information has not varied since, although the size of the index increases regularly. Here is a screen copy of today's page (Google.fr):


Google obviously indexes new pages everyday. For example, this blog's pages join the index very quickly, usually in less than 48 hours (see request). Even if we suppose that Google adds only the blogs in its index, and even if it indexes only a fraction of the six new blogs which are created each second (the Technorati site lists more than six million blogs at the moment), the index size should change rapidly.

However, at the same time, Google changes the count of individual words. I applied the same requests on 16 words on November 22, 2004 and on January 22, 2005:

WordNov. 22, 200422 jan 2005
Aznar16900001600000
Bernadette19200002250000
Blair1410000015800000
Chirac31200003280000
Claude1560000017900000
Coluche161000193000
Corona67500007430000
Jacques1900000021400000
Jospin669000768000
Poutine272000316000
Raffarin752000893000
Saddam1110000012400000
Sarkozy838000695000
Thatcher21400002770000
Veronis6260060100
Zidane10900001280000

There is a quasi-perfect correlation between the results obtained at these two dates (determination coefficient> 0,999!):



The slope of the regression line (1.13) gives us the progression between November 22 (very little time after the publication of the index size by Google) and January 22. This enables us to estimate the new size of the index (8,058,044,651 x 1.13). I am thus happy to announce it: Google's index exceeds nine billion pages . Google should thus post:
Searching 9,105,590,456 pages
The size of the index thus increased roughly by a billion pages in two months. I have no means to know whether the progression is linear, but one can safely predict that the index will reach 10 billion pages before the end March .

Why Google doesn't update its home page? If they intend to hide the progression from their competitors, it is rather ridiculous since as this post shows, it can be estimated in a very simple way.

This small annoyance is less serious than the bug on advanced research that I reported the other day, but all these sloppy details end up throwing suspicion on the quality control at the Google house. Of course, for the moment only professionals are concerned with these things. They do not make the smallest difference for requests about yellow pages or Britney Spears (see this post).

8 Commentaires:

Blogger Nathan Weinberg a écrit...

Actually Jean, when Google updated the numbers on its front page in November, eagle-eyed watchers (including myself) noticed that for the briefest time, a Google saerch for "the yielded over 10 billion results, before Google smacked it back down to the exact same number it says on its front page (which is of course, statistically impossible). It stands to reason that Google has anywhere from 10-13 billion pages already in its index, but is hiding the number from its competitors.

23 janvier, 2005 18:34  
Blogger Jean Véronis a écrit...

I just saw your follow up on this topic on InsideGoogle, which I recommend to readers of this post:

http://google.blognewschannel.com/index.php/archives/2005/01/23/google-at-how-many-billion-9-11/

Fascinating, indeed! Many thanks for the additional info.

23 janvier, 2005 20:16  
Blogger Dirson a écrit...

Hi Jean.

Your study's got a little problem on its approach.

When you search any word on Google, the figure you get is the number of indexed *DOCUMENTS*. This includes HTML documents, but also PDF/DOC/.. files.

The number shown by Google on their main page is the number of indexed *WEBPAGES* (or HTML documents).

So you din't get the slope ('m' constant of 'y=m*x') of the relation 'webpagesjan2005=m*webpagesnov2004', but of the relation 'docsjan2005=n*docsnov2004'.

The relation between 'webpages' and 'docs' is 'docs=webpages+otherdocs', where 'otherdocs' anre PDF/DOC.. files.

Supposing that the evolution of 'otherdocs' follows the same slope than 'webpages', we can estimate that your calculation is very similar to the reality at Google servers.

23 janvier, 2005 21:17  
Blogger Jean Véronis a écrit...

In a comment on the InsideGoogle's follow up to this story, Philip Lenssen cites a press release from Google which seem to indicate that they consider pdf etc. as Web pages (which is their interest, anyway, if they want to impress the word with large figures):

http://google.blognewschannel.com/index.php/archives/2005/01/23/google-at-how-many-billion-9-11/

In any case, that doesn't change my point. There has been a 13% progression, i.e. ca. one billion pages, which is not reflected in the main count.

23 janvier, 2005 22:50  
Blogger Dirson a écrit...

I don't think that on the PR Philipp mentions, Google assures that non-HTML files are webpages.


Anyway, I consider that the increase of the number of non-HTML docs follows the same progress than HTML ones.


So your calculations are pretty exact.

23 janvier, 2005 23:12  
Anonymous Anonyme a écrit...

More than 50% of the URLs shown in Google results are:

1. URLs without titles, descriptions or content. These are URLs that are restricted via the robots.txt or pages that have never been or will never be fully indexed because of bugs within their indexing system. Example:

http://www.google.com/search?num=10&hl=en&lr=&safe=off&c2coff=1&q=site%3Ausatoday.com+olympics+saltlake&btnG=Search

Almost 50% of these results are empty. Shame on you Google!

2. Supplemental Result - Because of Google's limitation on the total number of URLs they can store in an index, Google now has at least two separate indexes. This is so they can say they are bigger. But the Supplemental index is rarely used. It's just there so they can say they have more URLs than Yahoo!.

In reality Google does not have over 8 billion "indexed" URLs. Yes they possibly have over 8 billion URLs in their index(s), but only a percentage are actually fully indexed pages or pages you can search out and find.

Google will update their logo for all special events (new year, their anniversary, Olympics and so), but the only time they update the "Searching 8,058,044,651 web pages" statement is when they feel threatend like they did when Yahoo! announced the purchase of Overture, AltaVista, Inktomi and bla, bla, bla.

Google's technologies are great in the classroom, but terrible in the real world. PageRank is the easiest algorithm to manipulate. It's also easy to steel another site's PageRank slamming your competition to the bottom of the search results.

24 janvier, 2005 16:36  
Blogger Komail Noori a écrit...

Thanks for sharing such a usefull information with us. I definately appreciate this.

Regards,
Komail Noori
Web Site Design - SEO Expert

20 août, 2007 20:31  
Anonymous ben a écrit...

Fascinating. Of course the maths is beyond mine, so I'll take your word for it.

I also suspect that indexed does not mean the same as displayed in their results. Apparently Google spider and index large numbers of a site's pages without necessarily displaying them in their results - depending on how particular websites perform. Low bounce rates and more pages suddenly appear... Can't quite work out the rational for it yet.

17 avril, 2009 16:59  

Enregistrer un commentaire

Parole: Scalpel, bistouri... merci, Penelope !

Lu dans le New York Times : un chirurgien de Columbia University Michael R. Treat est en train de mettre au point une infirmière robotisée, Penelope, capable de tendre les instruments au chirurgien à l'aide de commandes vocales -- "scalpel, bistouri, clé de 12, etc." Il y a plus d'information sur le site de Columbia.

Voilà une application intéressante dans le contexte actuel de la catastrophique pénurie d'infirmier(e)s, et qui me paraît tout à fait faisable dans l'état de l'art en robotique et en reconnaissance de la parole. Le système va d'ailleurs être testé au NewYork-Presbyterian Hospital à partir de mars.

C'est un peu plus gênant pour les séries télé du futur. La 21ème saison de la série Urgences, en 2015, risque d'être bien terne. Il n'y avait déjà plus Doug Ross (Georges Clooney) et la splendide Carole Hathaway (Juliana Margulies), mais je n'ose imaginer la série avec de petites histoires de fesses minables entre chirurgiens de série B et infirmières robotisées...

Vous pourriez m'éponger un peu le front, Penelope ?

2 Commentaires:

Blogger Jean Véronis a écrit...

Technomaniac rebondit sur ce billet, et cite d'autres robots intéressants (bien que non liés directement au langage) :
Robot agent de sécuritéRobot soldatAmusant!

26 janvier, 2005 13:03  
Anonymous Anonyme a écrit...

Évidemment, on met au point unE infirmiière, pas un infirmier. Toujours ce besoin de chosification et de domination de la femme, rontudju !

Et puis, vous ne croyez pas qu'il soit à craindre que la petite infirmière attrape un virus ? Eh mais, c'est qu'il s'en trouve de mortels... Je ne voudrais pas voir Noah Wyle ou Goran Visnjic atteints létalement, même s'ils sont déjà voués à la disparition par définition des modes télévisuelles.

Vos sueurs ne seraient pas froides, là ??

Cathy
(c'est pas ma faute si je n'ai découvert votre blogue qu'aujourd'hui et si vos sujets suscitent mon intérêt, c'est que j'aime bien que l'on fasse preuve d'esprit...)

30 janvier, 2005 23:30  

Enregistrer un commentaire

samedi, janvier 22, 2005

Lexique: Des Nèg' marron aux yeux bleu ?

Langage sauce piquante rebondit sur le titre du film de Jean-Claude Flamand Barny, Nèg marron, et nous rappelle l'étymologie de marron selon le Larousse Etymologique :
[...] altération de l'espagnol américain cimarrón, "réfugié dans un fourré". Le fourré, c'était l'ancien espagnol cimarra. D'ailleurs, en espagnol moderne, hacer la cimarra, c'est faire l'école buissonnière, et le cimarrón n'est plus qu'un animal domestique enfui.
Je me permets de continuer en écho. Rien à voir donc avec le fruit du chataîgner, et la couleur qui en découle. C'est un piège classique de l'orthographe : les Noirs marrons ont les yeux marron. Attention à la règle qui en cache une autre, ou plutôt, à l'exception derrière l'exception !

Que dit Google (pages francophones, ne pas oublier les guillemets pour chercher l'expression exacte) ?

ExpressionGoogle
Noirs marron111
Noirs marrons921

Pas trop mal. Mais un internaute sur 10 a voulu trop bien faire.

Qu'en est-il de marron, nom de couleur ?

ExpressionGoogle
yeux marron56500
yeux marrons30100
chaussures marron454
chaussures marrons558

Marron est donc train de devenir adjectif, et de s'accorder. Pourquoi pas ? Après tout, il faut bien que les langues évoluent, sinon nous parlerions et écririons le français de Chrétien de Troyes. Le TLFI nous prévient :
Rem. Certains aut. considèrent que marron est devenu un véritable adj. et l'accordent avc le subst. qu'il qualifie. Si les acteurs sont bien à gauche et au bord vous verrez leurs pourpoints marrons (JACOB, Cornet dés, 1923, p.213). Ma pauvre abeille, tu crois que tous les yeux sont gris. Il y en a des bleus, des marrons, des verts et des noirs (SARTRE, Mains sales, 1948, 3e tabl., 1, p.60).
Mais voilà une chose qui m'étonne : l'accord se fait en nombre, mais pas en genre. Pas de chaussures marronnes dans Google ! Une explication ?

Et pour la bonne bouche... y a-t-il des yeux "bleu" ? La recherche sur Google est délicate, car l'expression "yeux bleu" est légitime. Elle apparaît dans "yeux bleu clair", " des yeux bleu-vert", etc. C'est la règle. Comment faire ? On ne peut pas exclure tous les termes susceptibles d'appraître après bleu, car la liste est ouverte. On peut s'en sortir en imposant un contexte droit comme "que" ou "qui". On n'aura pas tous les contextes, mais suffisamment pour un sondage (on comprendra en lisant ce billet pourquoi je n'utilise pas l'opérateur OR).

ExpressionGoogle
yeux bleu que 95
yeux bleu qui212
Total307
yeux bleus que 425
yeux bleus qui3780
Total4205

C'est tout à fait étonnant : près de 7% d'yeux bleu ! Non seulement on a une tendance à la régularisation des exceptions comme marron, mais on a apparemment une contamination inverse par analogie : les réguliers tendent aussi à devenir invariables. Tensions, contre-tensions... Qui gagnera dans cette lutte entre mots ? L'avenir le dira, mais en tous cas, Google (et les autres) nous fournissent un formidable outil d'observation de cette véritable écologie du langage qui se déroule sous nos yeux (marron ou bleus).

1 Commentaires:

Anonymous mama a écrit...

very funny indeed! long life to English, adjectives are not variable, in gender or masc/fem Lucky we are!!

14 juin, 2005 14:36  

Enregistrer un commentaire

vendredi, janvier 21, 2005

Web: Raffarin contient du benzène

Quelle n'a pas été ma surprise en cherchant formaldéhyde sur l'encyclopédie M$N Encarta, de trouver :
Raffarin contient du benzène, des nitrosamines, du formaldéhyde et du cyanure d'hydrogène
parmi les liens additionnels proposés. J'avais un peu l'impression qu'il était surtout rempli d'air chaud, comme les montgolfières, mais on dirait qu'il y a aussi des traces de composants toxiques. Apparemment, il s'agit d'autocollants subversifs réalisés par un collectif d'intermittents du spectacle en colère. Comme quoi, Internet autorise les rencontres lexicales les plus déroutantes (mais elles ont le plus souvent une bonne explication !).

Sur la lancée du billet d'hier, où je montrais qu'on peut utiliser les moteurs de recherche à des fins linguistico-récréatives, je me suis demandé si on ne pouvait pas trouver d'autres détournements amusants des avertissements sanitaires qui défigurent les boîtes de cigarillos que j'achète pourtant à prix d'or.

Facile... Une petite combinaison de deux fonctions "avancées" de Google, la recherche d'expressions exactes (entourées de guillemets) et de l'exclusion (signe moins devant le mot à exclure). Un petit essai :
-fumer "peut entraîner une mort lente et douloureuse"

Et hop :
  • La pub peut entraîner une mort lente et douloureuse de l'espace public
  • Le journal de 13h sur TF1 peut entraîner une mort lente et douloureuse
  • La TVA peut entraîner une mort lente et douloureuse
  • Le nationalisme peut entraîner une mort lente et douloureuse
Et j'ai pu ramener d'autres choses assez amusantes en envoyant les aphorismes tabagiques un par un dans Google (je filtre un peu, car il y a aussi des détournements pas très présentables) :
  • Aimer crée une forte dépendance, ne commencez pas
  • Travailler bouche les artères et provoque des crises cardiaques et des attaques cérébrales
  • Protégez les enfants : ne leur faites pas regarder la télé
  • Vivre provoque un vieillissement de la peau
  • etc.
Délicieux, non ? Je vais me faire des autocollants pour restituer, sinon un aspect esthétiquement correct à mes Cohiba, mais du moins une apparence qui me fera sourire en attendant le cancer (hmm, cancer, cancre... mais je ne veux pas recommencer avec la métastase métathèse).

Ah oui, au fait blogguer créé une forte dépendance, ne commencez pas !

0 Commentaires:

Enregistrer un commentaire

mercredi, janvier 19, 2005

Lexique: Omnubilés par l'infractus

Tout est parti d'un billet sur Langue sauce piquante (un excellent blog tenu par les correcteurs du journal Le Monde), qui nous apprend que le mot infarctus a la même étymologie que farce. Le mot vient de farcire, "remplir", "bourrer" en latin. Pourquoi le c ? se demandent alors les auteurs. Infartus aurait suffit.

Déformation professionnelle, je cherche illico sur Google (pages francophones) et bingo... 354 pages nous proposent infartus sans c (à mon avis sans revendication étymologique particulière, mais plutôt par erreur !). Et je n'ai pas pu m'empêcher de continuer avec l'inévitable métathèse : infractus apparaît sur 1390 pages. Beaucoup ? Non, au contraire, car la forme correcte infarctus apparaît, elle, 210 000 fois. Cela fait donc à peine 0,7 % du total. Pourtant, il me semblait entendre cette erreur à longueur de journée (ou presque). Je n'ai pas d'explication. Peut-être la subjectivité de la perception ? Ou bien les internautes sont-ils plus scolarisés/cultivés que la moyenne de la population (c'est bien possible !).

J'ai testé quelques autres "classiques" de la métathèse, et le gagnant est... carapaçon, suivi de près par omnubilé ! Quant au génycologue, il est purement gényal !

CorrectNFautifN%
caparaçon1050carapaçon23218,1
obnubilé21400omnibulé16007,0
gynécologue137000génycologue65604,6
aréopage19900aéropage7583,7
obnubilé21400obnibulé8143,7
rémunération1090000rénumération171001,5
infarctus210000infractus13900,7
aéroport1320000aréoport36100,3
perception1390000preception1950,0

Un commentaire sur Langue sauce piquante m'a fait remarquer qu'une proportion non négligeable des occurrences était peut-être due simplement à des fautes de frappe. Evidemment, je fais moi-même baeucoup de fautes d'interversion lorsque je tape vite. Ah oui, vous n'avez pas noté le baeucoup dans la phrase précédente ? Pleins de gens la font, celle-là : il y en a 1580 exemples dans les pages francophones d'après Google. Mais ça ne fait que 0,02 % du total ! Dnoc pas de qoui fouetter un caht...

J'ai d'ailleurs vérifié que les autres interversions possibles sur infarctus sont très peu fréquentes. Si la métathèse n'était pas la cause principale dans infractus, on devrait en avoir un peu partout, non ? Voilà le résultat :


VarianteN
nifarctus0
ifnarctus0
inafrctus0
infractus1390
infacrtus19
infartcus3
infarcuts1
infarctsu0

Ca parle tout seul.

Peut-être que dans quelques décennies on aura des carapaçons (si on s'intéresse encore aux chevaux autres que vapeur). C'est ainsi que se sont formés des mots comme fromage (< formage) ou brebis (< berbis). Bon, la berbis ça n'est pas trop gras comme formage, pas de quoi attraper un infractus.

8 Commentaires:

Anonymous Anonyme a écrit...

Ce qui est amusant, c'est qu'il est bien probable que caparaçon soit lui même apparu d'une métathèse du préroman *karapp (qui est évidemment à l'origine de carapace, dont l'influence provoque la métathèse moderne), par influence de capa... C'est du moins une des étymologies proposées par le TLF. Un pas en avant, un pas en arrière...

Intéressant également de noter qu'à l'écrit, ces métathèses (ou fautes de frappes) ne sont pratiquement pas perçues si l'on ne pointe pas le doigt dessus. Je n'avais pas vu votre « beaeaucoup » ou votre « Dnoc » (par contre, le « caht » en position finale est beaucoup plus repérable).

Serge Bibauw

21 janvier, 2005 18:13  
Blogger Jean Véronis a écrit...

Merci pour cette remarque que caparaçon, qui démontre magnifiquement le caractère darwinien des langues ! Quelqu'un a-t-il d'autres exemples de métathèses en zig-zags ?

22 janvier, 2005 16:19  
Blogger chris a écrit...

Il reste toujours « fromage », du lat. formaticus [caseus] « [fromage] moulé dans une forme », dér. de forma « moule, forme à fromage », voir aussi ital. « formaggio ». J'ai surement lu la forme erronnée « formage », difficile à trouver sur Google, car c'est aussi un terme technique dans les techniques des matériaux.

Ravie d'avoir trouvé votre blogue !

24 janvier, 2005 03:56  
Blogger Jean Véronis a écrit...

Google : "formage de chèvre" => 106 réponses...

01 février, 2005 12:29  
Anonymous Herode a écrit...

Et comme métathèse étendue, ne derait-on pas finir par trouver mention des infractus du myocrade ?

:o)

22 avril, 2005 16:12  
Anonymous Lokin a écrit...

J'ai découvert votre blog il y a deux mois à peine et j'arrive un peu après la bataille via votre billet d'anniversaire...

Je souhaitais juste faire remarquer que les métathèses doivent être plus fréquentes à l'oral qu'à l'écrit car, comme le souligne l'article de wikipedia, elles s'expliquent souvent par la paresse articulatoire (votre impression "d'entendre cette erreur à longueur de journée (ou presque)" n'est peut-être pas si fausse finalement...)

D'autre part, pour reprendre ce que disait Anonymous, les métathèses ne sont presque pas perçues à l'écrit, comme le prouve ce petit texte devenu célèbre :
"Sleon une édtue de l'Uvinertisé de Cmabrigde, l'odrre des ltreets dans les mtos n'a pas d'ipmrotncae, la suele coshe ipmrotnate est que la pmeirère et la drenèire soit à la bnnoe pclae. Le rsete peut êrte dnas un dsérorde ttoal et vuos puoevz tujoruos lrie snas porlblème. C'est prace que le creaveu hmauin ne lit pas chuaqe ltetre elle-mmêe, mias le mot cmome un tuot. La peruve..."

11 novembre, 2005 11:08  
Anonymous Khan a écrit...

Bonjour !
C'est avec un intérêt certain que j'ai lu ce billet et les commentaires associés ; et c'est pourquoi je me permets d'intervenir sur le commentaire de Lokin : l'Université de Cambridge n'a jamais fait ce genre d'études, et ça ne fonctionne pas à tous les coups. J'ai développé un petit script qui permet justement de mélanger les lettres, et voyez ce que ça donne avec le même texte que celui que vous citez :

"Sleon une éudte de l'Utrvneisié de Criagmdbe, l'ordre des ltteers dans les mtos n'a pas d'ioarpmctne, la sleue coshe imnoraptte est que la pèerrmie et la drèinree siot à la bnnoe palce. Le rtese peut êrte dans un ddsorére toatl et vous poevuz tuoojurs lire snas prlèombe. C'est pacre que le creveau haiumn ne lit pas cauhqe lrette el-êmleme, mais le mot comme un tuot. La prveue..."

D'un coup c'est beaucoup moins simple, surtout si vous le faites lire à quelqu'un qui ne connait pas le contexte ni le texte original, évidemment...

Plus d'infos sur ce commentaire : http://philippebedard.net/archive/2005/05/14/311.aspx#3790

Il reste néanmoins indéniable que pour des mots dont les lettres sont "peu" mélangées, le résultat impressionne et en dit long sur la perception de notre cher cerveau !

18 août, 2006 10:52  
Blogger Jean Véronis a écrit...

Khan> Merci du commentaire! Oui, c'est vrai, le degré de désordre a son importance, ou peut-etre le type de désordre. Les interversions de lettres adjacentes semblent moins pénalisantes que les autres permutations. Il me semble aussi que si l'on respecte la structure consonne-voyelle habituelle, c'est moins gênant que lorsqu'on trouve des suites inconnues ou peu fréquentes en français comme "ptte", "rrm", "uoo", etc.

18 août, 2006 14:26  

Enregistrer un commentaire

Web: Google perd la boole


J'ai suffisamment été admiratif sur les développeurs de Google dans mes messages précédents (voir ici et ici) pour me permettre de les épingler sur leur recherche avancée, en l'occurrence les opérateurs "booléens" :
  • Chirac OR Sarkozy retourne les pages contenant l'un ou l'autre mot-clé ou les deux,
  • Chirac AND Sarkozy retourne les pages qui contiennent les deux (le AND est facultatif),
  • Chirac -Sarkozy retourne les pages qui contiennent Chirac mais pas Sarkozy.
Premier gag :


RequêteRésultats
Chirac3 260 000
Chirac OR Sarkozy1 570 000
Le nombre de pages qui contiennent Chirac ou Sarkozy, ou les deux, devrait être au moins égal au nombre de pages contenant Chirac, or il est inférieur à la moitié !

Deuxième gag :

RequêteRésultats
Chirac3 260 000
Chirac OR Chirac1 950 000
Chirac AND Chirac1 950 000
Chirac Chirac2 010 000

On devrait avoir le même résultat dans tous les cas.

Troisième gag :

RequêteRésultats
Chirac AND Sarkozy154 000
Chirac -Sarkozy1 950 000
-Chirac Sarkozy320 000
Total2 424 000

Or, en fonction du bon vieux diagramme de Venn ci-dessous, le total des différentes requêtes devrait être le même que Chirac OR Sarkozy, soit 1 570 000 (mais c'est sans doute déjà faux...!).




Je n'ai pas la moindre idée de l'origine du problème. Bien sûr, je sais que les nombres retournés par Google sont des approximations (d'ailleurs le moteur précise bien environ x résultats), que les valeurs peuvent légèrement varier en fonction des "centres de données" qui traitent la requête et qui peuvent varier d'un moment à l'autre. Ces raisons pourraient expliquer de petites différences, mais pas des différences du simple au double. J'ai cherché sur les différents forums. Personne ne semble avoir la solution (si certains parmi vous l'ont, je serais très curieux de la connaître !).

En tous cas c'est bien embêtant pour nos démonstrations pédagogiques (l'autre jour j'ai eu l'air d'un idiot en plein cours -- ok, je survivrai ;-).

Conseil : il vaut mieux utiliser Yahoo! Recherche pour ce genre de calculs :

Test 1 :


RequêteRésultats
Chirac2 219 000
Chirac OR Sarkozy2 450 000
Test 2 :

RequêteRésultats
Chirac2 210 000
Chirac OR Chirac2 220 000
Chirac AND Chirac2 220 000
Chirac Chirac2 200 000

Test 3 :

RequêteRésultats
Chirac AND Sarkozy205 000
Chirac -Sarkozy1 990 000
-Chirac Sarkozy256 000
Total2 451 000

Il y a bien encore de petites fluctuations, mais là je veux bien les mettre sur le compte des approximations de calcul !

Allons, soyons fair-play, Google a droit à quelques bugs. On ne va pas prendre les booles parce qu'il la perd un peu...


Post-Scriptum


24 Jan - Mark Liberman vient d'écrire une suite très intéressante à ce billet sur Language Log.

28 Jan - Nouveaux développements : Comptes bidons chez Google ?

11 Commentaires:

Anonymous Anonyme a écrit...

Biearre, Bizarre ... d'autant plus que le bug est corrigé si la requête est saisie sur Google.fr en limitant les résultats aux pages frances. Google retrouve alors la boole ...
Olivier Ertzscheid. www.urfist.info

19 janvier, 2005 09:49  
Blogger Martin Lessard a écrit...

Bizarre.

J'ai trouvé un 'gags' de plus : des sites apparraissent sur la liste avec Chirac OU sarkozy mais pas avec Sarkozy seulement.

Martin Lessard

http://zeroseconde.blogspot.com/2005/01/google-et-la-recherche-pas-si-avance.html

23 janvier, 2005 13:49  
Anonymous Anonyme a écrit...

(Sorry, my french is terrible, but I understand most of the writing)

The number of results google claims to return is not the actual number of results, just an estimation. So that is another variable which it doesn't seem you have considered in your research which may affect your conclusions.

23 janvier, 2005 22:14  
Blogger Jean Véronis a écrit...

I do agree, and I acutally ackknowledge the fact that the numbers are estimates, and I would accept small variations. However, the figures are way off: results for A OR B are less than 50% of A alone. Sounds more like a bug than an estimate to me.

23 janvier, 2005 22:26  
Blogger Jean Véronis a écrit...

La réponse officielle de Google :
--
Bonjour M. Véronis,

Merci de votre message. Bien que nous prenions en charge l'opérateur OR,
nous nous efforçons d'améliorer l'estimation du nombre de résultats
obtenus avec cette fonction. Comme vous avez l'avez remarqué, nous
fournissons parfois des estimations erronées sur le nombre de résultats
obtenus lors d'une recherche à l'aide de cet opérateur.

Nous vous remercions de nous avoir transmis ces informations.

Cordialement,
L'équipe Google
--
Un peu de la langue de bois, quand même. On verra bien !

26 janvier, 2005 22:31  
Blogger Turulillo a écrit...

Très très beau blog,excellente qualité des posts, bravo.
La Cigogne Déchaînée

28 janvier, 2005 12:41  
Anonymous Anonyme a écrit...

-yo

18 août, 2005 22:08  
Blogger Guillaume a écrit...

Ce commentaire a été supprimé par un administrateur du blog.

06 avril, 2006 14:50  
Blogger Guillaume a écrit...

Quelle différence entre 2 millions ou 200 000 pages? En faisant une recherche simple sur "chirac" sur google.com on peut aller jusqu'au resultat no. 792 (80ème page) et pas au dela.
Donc si google disait qu'il n'y a que 792 entrées pour "chirac" le résultat serait le même.
Pour "the" on arrive à 945 résultats maxi.

06 avril, 2006 14:54  
Anonymous chels a écrit...

à la limite le nombre de pages n'est pas important (peut être du aux approximations de claculs) c'est plutôt la pertinence, surtout pour les premières pages ;-)

28 août, 2007 09:51  
Blogger Rémi a écrit...

Pour un utilisateur lambda, le nombre de pages est secondaire effectivement, par contre, pour certains outils liés à l'intelligence artificielle, il est très intéressant. Grâce à ça on arrive à calculer par exemple une distance sémantique entre 2 mots, afin de savoir s'ils sont proches ou non selon le sens commun. Cf articles "Learning by googling" et sur la "Normalized Google Distance" dispos sur internet.

12 septembre, 2007 11:33  

Enregistrer un commentaire