Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

jeudi, mars 31, 2005

Référencement: Articles pas gratuits dans Google

La requête langage dans Google arrive souvent sur mon site. Il faut dire que "Technologies du langage" est désormais dans le premier écran de résultats. Il n'y a pas si longtemps il était à la 15è place (voir ici), ce qui, sur près de 5 milliards de pages n'était pas si mal. Maintenant il est à la dixième, ce qui change tout, car on sait que l'internaute moyen ne clique pas souvent pour aller voir la deuxième page de résultats... Au passage, notons qu'il n'y a plus que 3 330 000 résultats ; j'ai fait remarquer ce dégraissage récent des comptes chez Google (ici et ici). Comme c'est sur l'adresse IP 216.239.59.104, qui appartient au groupe de serveurs qui semblent être dans leur configuration finale (voir ici), c'est sans doute le nouveau résultat que va désormais afficher Google.

Ce matin j'ai vu arriver la requête le langage (sans guillemets, c'est important). Curieusement, "Technologies du langage" remonte à la quatrième place, ce qui est vraiment mieux, puisqu'on sait que l'internaute moyen (toujours lui !) clique de préférence sur les premiers résultats. C'est bizzare, car Google nous dit expressement : "le" étant un mot très courant, il a été ignoré lors de cette recherche.

 requête=

C'est d'ailleurs confirmé dans la documentation de Google. Donc, ce n'est pas vrai. Google prend bien en compte les articles et autres mots de l'antidictionnaire (ou stoplist, pour parler franglais) dans le classement des résultats.

Encore plus étrange, si l'on utilise le signe plus (+le langage) pour forcer l'inclusion de le dans la requête, comme le suggère la documentation de Google, on obtient un résultat tout autre ! "Technologies du langage" n'est plus qu'à la 34è position... c'est-à-dire perdu pour l'internaute moyen. Cette requête est d'ailleurs (et c'est normal) différente de la requête "le langage" (avec les guillemets), qui place ce blog 43ème (snif).

Bref, comprenne qui pourra. Une fois de plus, Google ne fait pas ce qu'il dit, et, pire, ne dit pas ce qu'il fait. Je plains les référenceurs, qui ont décidément un bien dur métier (je l'avais déjà remarqué ici ou ).

3 Commentaires:

Anonymous Anonyme a écrit...

Je vais me risquer à une explication...

Quand tu cherches "+le langage" (sans les guillemets), Google est censé chercher les documents qui contiennent les mots "le" et "langage". En ajoutant le + devant "le", tu obliges Google à ne pas ignorer l'article "le", comme il dit le faire quand tu cherches seulement "le langage" (sans les guillemets).

Par contre quand tu cherches "le langage" (sans les guillemets), Google n'ignore pas tout à fait le mot "le" comme il le dit. Je pense qu'il cherche les documents contenant un mot à gauche du mot "langage". C'est subtil... et avec un autre exemple c'est peut-être plus clair. Si tu cherches "technologies du langage" (sans les guillemets), Google dit qu'il ignore le mot "du". Mais en fait les pages qui contiennent une expression de trois mots commençant par "technologies" et finissant par "langage" seront avantagées.

En tout cas je suis d'accord avec toi, une fois de plus Google ne fait pas ce qu'il dit et ne dit pas ce qu'il fait...

31 mars, 2005 11:35  
Blogger Jean Véronis a écrit...

Pas sûr que ton hypothèse soit tout à fait la bonne, car on devrait obtenir la même chose, à ce moment-là, avec le langage (sans guillemets) et "* langage" (avec guillemets), du moins sur les DC où le "*" marche encore... Il n'y aurait pas de raison particulière non plus pour que langage le donne la même chose que le langage (toujours sans guillemets). Or, ça semble être le cas !

Bref, un mystère de plus, mais le problème est bien qu'on ne sait pas exactement ce qui se passe et que ça ne correspond pas à la doc. Si ça fait cogiter les experts, ça doit être la purée de pois totale pour l' "internaute moyen" ! Google (et les autres) seraient gagnants à mon avis à avoir plus de lisibilité et plus de transparence, mais ça ne semble pas être la direction qu'ils ont choisie.

31 mars, 2005 17:41  
Anonymous Anonyme a écrit...

Bonjour,

Je comprends facilement les raisons commerciales de la tendance au secret de Google (vis-à-vis des concurrents, des acheteurs, des usagers). Il s'agit clairement là d'entraves à la concurrence qui s'expliquent facilement, même si on ne les approuve pas.

Mais je me demande s'il n'y a pas une autre raison, inhérente à l'activité de recherche d'informations dans un espace ouvert : donner ses recettes de recherche, c'est donner les moyens à ceux qui peuvent investir de se positionner de façon favorable dans les requêtes, et donc le marché de la publicité s'écroulerait pour le moteur. Il y aurait alors là une limite théorique au système : pour être le plus performant il lui faut la transparence, mais celle-ci le conduit à sa perte par brouillage. Ou alors peut-on penser qu'un équilibre différent pourrait se construire ?

01 avril, 2005 10:17  

Enregistrer un commentaire

mercredi, mars 30, 2005

Langues: Clin d'oeil Klingon

J'avais promis de revenir sur les Klingons il y a quelques jours. En effet, j'ai constaté que ce peuple belliqueux lit régulièrement "Technologies du langage" ! Mon billet "Sans frontières" est même cité sur un blog Klingon -- vraiment sans frontière, pour le compte (si un tel lien intergalactique ne me donne pas du PageRank, je n'y comprend rien !).

Blog Klingon

Je ne lis hélas pas le Klingon couramment. L'Universal Translator m'a permis de déchiffrer quelques mots, par exemple :
  • QonoS = blog
  • Hol = langage
  • Hol cham = Technologies du langage
  • DaHjaj = aujourd'hui
  • etc.
Mais le sens général restait un peu opaque et j'ai préféré contacter directement les Klingons, qui m'ont gentiment répondu dans le Standard de la Fédération (c'est-à-dire l'anglais). Le billet comporte quelques compliments sur "Technologies du langage", et l'auteur (qui est pilote) remarque à propos de mon billet "Glissance et pénétrance", qu'on parle en français de "coefficient de glissance" des pistes d'atterissage, alors que dans le Standard de la Fédération, c'est l'inverse, on parle de "coefficient de friction"...

Klingons

La langue Klingon est tout à fait intéressante. Elle fait partie des langues artificielles, ou langues construites, crées de toutes pièces par l'Homme... On connaît bien sûr l'espéranto, créé à la fin du XIXème siècle par le docteur Zamenhof, médecin ophtalmologue né dans ce qui est l'actuelle Pologne. Faire communiquer les peuples : un remède contre les guerres et les souffrances... L'espéranto est remarquable car il est devenu une vraie langue parlée par un nombre important de locuteurs (bien difficile à estimer -- on parle de deux millions), mais il fait partie d'une longue liste : on a recensé plusieurs centaines de projets de construction de langues depuis le Moyen-Age. Je recommande à ce sujet le superbe livre d'Umberto Eco, "La recherche de la langue parfaite dans la culture européenne", qui montre comment s'entremèlent différents courants, pour se rejoindre tous, finalement, dans le mythe de Babel.

Tour de Babel de Brueghel

La langue était unique et parfaite, elle devrait être à nouveau unique et parfaite. Comme l'explique la Genèse, "toute la terre avait une seule langue et les mêmes mots", mais Dieu a puni les hommes, a confondu leur langage et les a dispersé "sur la face de toute la Terre". Les plus grands philosophes, comme Descartes et Leibnitz ont essayé de rebâtir Babel, d'effacer la confusio linguarum en créant des langues logiques, à la mécanique impeccable -- mais bien naïves ! Comme le dit Eco, l'histoire des constructions de langues est celle d'une longue série de faillites (les développeurs d'UNL ou du "Web semantique" devraient peut-être y réfléchir...).

Eco laisse de côté les langues "récréatives" comme le Klingon, mais en l'occurrence, elles me semblent parfois être des réussites. Il faut dire que leur but est inverse des langues dont parle Eco. Il ne s'agit pas ici de la recherche d'une langue parfaite et universelle, mais bien plutôt de langues bizarres, exotiques et les plus différentes possibles des langues connues. Les exemples littéraires sont nombreux, depuis Rabelais (les langues de Panurge) ou Cyrano de Bergerac, jusqu'à Tolkien (la langue de Elfes), George Orwell (la Novlangue de 1984) ou Antony Burgess (le Nadsat d'Orange Mécanique) -- sans oublier la bande dessinée (le Syldave de Tintin) ou les groupes de rock (le Kobaïen de Magma). Mais la plupart du temps, ces langues sont seulement suggérées par les auteurs, quelques mots, quelques phrases, un poème... Le Klingon a été créé par un vrai linguiste, Marc Okrand, à la demande de Paramount Pictures pour Star Trek II. Au début de la série, les acteurs improvisaient les répliques en Klingon, mais c'est difficile d'improviser de façon crédible dans les langues inconnues, à moins d'être atteint de glossolalie ou d'avoir été touché par l'Esprit Saint... Mark Okrand avait étudié les langues amérindiennes (sur lesquelles il a fait sa thèse), et il a inventé de toutes pièces les différents aspects du Klingon : système phonologique, morphologie, syntaxe, lexique (voir détails sur Wikipedia, en anglais, malheureusement). Le Klingon est viable : on compte à l'heure actuelle 20 à 30 locuteurs qui parlent le Klingon couramment à travers le monde (et de très nombreux sympathisants qui le déchiffrent). Il y a même une interface Google en Klingon (hélas, Google n'a pas implémenté la détection de la langue Klingon, mais ce serait assez facile, étant donnée la graphie particulière qui alterne minuscules et capitales à l'intérieur des mots).

Google en Klingon

Ce qui montre sans doute que le Klingon est une "vraie" langue, c'est sa capacité à évoluer, à permettre d'exprimer des concepts nouveaux. Le blog auquel je faisais référence en est un excellent exemple : je ne pense pas que Mark Okrand ait prévu des termes comme "glissance" ou "friction"... Les Klingons utilisent spontanément les mécanismes habituels des langues humaines (métaphore, métonymie, etc.) pour exprimer de nouvelles idées. Il s'est déjà, d'ailleurs, créé des différences dans les différents usages du Klingon ! Et il y a même, semble-t-il, des divergences politico-linguistiques dans les cercles Klingon, avec des "tolérants" et des "puristes"... Il n'y a rien à faire : c'est la malédiction de Babel !

2 Commentaires:

Anonymous Anonyme a écrit...

Vous parlez des « langues logiques », en voici deux récentes:
http://en.wikipedia.org/wiki/Loglan

http://en.wikipedia.org/wiki/Lojban_language

Cf.:
http://www.wired.com/wired/archive/4.08/es.languages_pr.html

30 mars, 2005 12:16  
Anonymous Anonyme a écrit...

Il me semble que le language elfique est enseigné dans une école américaine, pour apprendre aux élèves à s'intéresser à différents mécanismes liguistiques tout en s'amusant.

30 mars, 2005 14:44  

Enregistrer un commentaire

samedi, mars 26, 2005

Texte: Le nom du Père

En ce temps de Pâques chétiennes, j'aimerais vous offrir quelques computations lexico-théologiques. Je me suis demandé quel était le mot le plus fréquent dans les Evangiles -- les mots courants étant exclus (articles, etc.). J'ai utilisé mon petit programme Dico, qui permet de calculer la fréquence des mots dans un texte (vous pouvez le télécharger gratuitement ici). Sans grande surprise, c'est le mot Jésus qui est apparu en tête de liste dans chacun des quatre évangiles, Matthieu, Marc, Luc, Jean. C'est plutôt rassurant...

Voici les fréquences que j'ai observées :


Matt.MarcLucJean
Jésus200186221275

Ces fréquences varient d'un Evangile à l'autre, mais le mot Jésus est-il réellement plus fréquent dans un évangile que dans un autre ? Il ne faut pas sauter aux conclusions sur la base du tableau ci-dessus, car les quatre Evangiles ont des tailles différentes :


Matt.MarcLucJean
Nb Mots23723148682557019641

En tout, cela fait 83802 mots. Il y a 882 Jésus dans les quatre Evangiles combinés... Ce n'est pas très difficile de faire une règle de trois et de calculer combien on devrait avoir de Jésus dans chacun des Evangiles si la répartition était équitable. Même les plus cloches d'entre nous devraient y arriver. Par exemple, pour Matthieu, on devrait avoir 882 / 83802 * 23723, soit 249,7. Vous me suivez ?

On peut alors calculer l'écart entre ce qu'on a observé et ce qu'on attendrait si les proportions étaient strictement identiques. Dans Matthieu, j'ai ainsi compté 200 occurrences de Jésus, ce qui fait un déficit de 249,7 - 200 = 49,7 occurrences (evidemment c'est qu'il doit y avoir un excédent dans d'autres Evangiles...).

Il reste encore une petite chose à faire (j'essaie d'y aller mollo, car je ne voudrais pas perdre les trois quarts de mes lecteurs : jusqu'ici nous n'avons pas dépassé le niveau de maths du CM2, mais j'ai un peu l'impression de marcher sur des oeufs...). L'écart que nous avons calculé entre les fréquences réelles et les fréquences attendues ne veut rien dire en soi, car les textes ont des tailles différentes. Il faut donc le transformer en écart relatif, en le divisant simplement par la fréquence attendue dans chaque évangile (ouf -- j'espère que vous êtes toujours là !). Pour Matthieu, par exemple, cela donne 49,7 / 249,7 = 0,17, soit un déficit d'environ 17%.

Je résume tout ça :


Matt.MarcLucJean
observé200186221275
attendu249,7156,5269,1206,7
écart-49,729,5-48,168,3
écart relatif-17%+19%-18%+33%

On peut aussi faire un joli diagramme en bâtons, qui ressemble à ceux que m'avait envoyés Damon Mayaffre à propos de Chirac (Damon utilise un calcul un peu différent, mais tous les chemins mènent à Rome...). Les bâtons dirigés vers le bas indiquent un déficit, ceux dirigés vers le haut un excédent.

Diagramme Jésus
On voit que le mot Jésus est en déficit dans deux des Evangiles, Matthieu et Luc, et en excédent dans les deux autres, Marc et Jean. Je ne veux pas devenir trop technique, mais on peut s'assurer avec un test approprié, le test du khi-deux, que ces différences sont statistiquement significatives, et qu'elles ne résultent pas simplement des petites fluctuations aléatoires que l'on observe dans tout ensemble de textes. Et ici, ce test nous dit même qu'on n'aurait qu'une chance sur 100 millions de se tromper en affirmant qu'il y a une différence de fréquence significative entre les Evangiles pour ce mot Jésus !

Ce résultat tout mathématique prend un certain relief quand on sait que Matthieu et Luc ont été écrits à partir de Marc (sans doute à Rome), qui leur a servi de source. On retrouve d'ailleurs des fragments quasi-identiques entre les trois, qui peuvent être lus côté à côte comme des textes parallèles (c'est pour cela qu'on les appelle Evangiles Synoptiques, du grec συν οψις : voir ensemble. Jean, a quant à lui été écrit dans un autre contexte, sans doute dans une communauté chrétienne héllénistique (Ephèse ?). Les deux Evangiles "directs" parlent plus de Jésus que les deux Evangiles écrits de façon indirecte (je mets des guillemets, car il ne s'agissait quand même pas de témoins oculaires)... Intéressant, non ?

Diagramme Jésus

Jean et les synoptiques se distinguent par bien des aspects de leur vocabulaire. Dans Jean, par exemple, le deuxième mot le plus fréquent après Jésus est Père (avec la majuscule). Il y apparaît 121 fois, alors qu'il apparaît seulement 67 fois dans les trois synoptiques combinés. Je vous épargne les calculs, mais cela fait un excédent de 175% ! A l'inverse, le mot Fils a bien quelques fluctuations entre les différents évangiles, mais le test du khi-deux nous dit que ces différences ne sont pas significatives. Dans l'Evangile de Jean, Jésus réfère constamment à son Père, mais son rôle de Fils ne diffère pas vraiment d'un écrit à l'autre.

Diagramme Jésus
A méditer... En tous cas, je trouve absolument fascinant que des calculs mathématiques aussi simples arrivent à révéler les traces d'une généalogie textuelle vieille de deux millénaires !

Joyeuses Pâques !

7 Commentaires:

Anonymous Anonyme a écrit...

Très intéressant... Quelle traduction avez-vous utilisée ? Il faudrait refaire ce genre d'analyse avec la tradition des Septante, mais il est probable que cela ne change pas grand chose.
Ceci dit, avez-vous déjà essayé d'adapter ces méthodes à l'étude des variantes des différents témoins d'un même texte ? En d'autres termes, peut-on utiliser ces méthodes dans des études stemmatiques ?

26 mars, 2005 23:31  
Blogger Jean Véronis a écrit...

J'ai utilisé la traduction Louis Segond, qui est considérée comme collant d'assez près au texte original. Quoi qu'il en soit, sur ces mots-là, noms propres et mots sacrés, je doute que les traducteurs aient beaucoup improvisé. On aurait bien sûr des divergences de traduction sur d'autres termes, mais peu sur ceux-là. De toutes façon les ordres de grandeur sont si différents que quelques fluctuations ne changeraient pas grand-chose, comme vous le dites. Ceci n'est qu'un amusement pédagogique... Pour des études sérieuses il faudrait travailler sur le texte grec.

Je n'ai pas moi-même travaillé sur le problème des variantes, mais je ne sais pas si des méthodes statistiques aussi brutes seraient appropriées. Les variantes se distinguent souvent les unes des autres par de touts petits changements (et souvent des changements d'ordre), hors de portée de tels calculs. Je crois que les méthodes appropriées sont plutôt à aller chercher du côté de la biologie. Cela ressemble étrangement aux problèmes d'alignement et de repérage dans le génôme...

27 mars, 2005 10:36  
Anonymous Anonyme a écrit...

Absolument d'accord pour le lien avec la génétique: http://www.gena.ucl.ac.be/louvain2004/

Je posais la question malgré tout, dans la mesure où il faut faire flêche de tout bois: peut-être pour "dégrossir" certaines recherches sur plusieurs dizaines voire centaines de manuscrits, en se basant sur des variantes de taille ?

27 mars, 2005 23:24  
Anonymous Anonyme a écrit...

Merci Jean de cette étude très intéressante ! Non seulement j'apprécie l'aspect intellectuel de ce travail, mais en plus cela me touche, en temps que catholique, de lire un billet en rapport avec le temps pascal. Cela devient bien rare...

29 mars, 2005 11:38  
Anonymous Anonyme a écrit...

Effectivement, c'est très intéressant. Je me permets néanmoins une petite remarque : il me semble qu'il y a une erreur dans la règle de trois au début. Le calcul à poser est 882/83802*23723, et non pas 200/83802*23723. Mais le résultat, 249.7, est bien correct. Voilà, c'était juste pour chipoter.

29 mars, 2005 17:40  
Blogger Jean Véronis a écrit...

Merci de ce chipotage ! J'ai corrigé, mais heureusement ça n'était qu'une bourde à la rédaction. les calculs sont bons par ailleurs...

29 mars, 2005 18:14  
Anonymous Anonyme a écrit...

Intéressant en effet, mais bizarre que personne ne se soit posé ces deux questions (absurdes?):
-la place du pronom "il", très présent dans la traduction de Segond. Plus compliqué, pour un affinement peut-être nul?
-la place du discours direct de Jésus (la version en ligne l'affiche en rouge), au moins pour calculer la taille respective des textes...

08 avril, 2005 19:28  

Enregistrer un commentaire

vendredi, mars 25, 2005

Google: Quel est le Data Center qui me répond ?

A la suite de mon billet de ce matin (Google: Un instantané sur la mise à jour), des lecteurs m'ont demandé comment on pouvait savoir quel est le serveur qui nous répond sur une requête donnée. Les experts savent (et peuvent sauter ce billet ;-). Il suffit de promener le pointeur sur le lien "Cache" pour n'importe lequel des résultats et le numéro IP du serveur apparaît dans la barre d'état :

IP data center

Inversement, pour interroger un serveur précis, on peut directement taper son numéro IP derrière http://. Exemple :

Libellés :


1 Commentaires:

Blogger TOMHTML a écrit...

Merci pour l'article, je ne savais pas comment trouver l'ip du DC utilisé :)
excellent blog par ailleurs

31 mars, 2005 21:37  

Enregistrer un commentaire

Google: Un instantané sur la mise à jour



Comme je l'indiquais dans mon billet d'hier, Google est en train d'opérer des modifications extrêmement importantes, où il ne s'agit plus seulement de mettre à jour l'index, mais de corriger toutes les routines d'extrapolation et de logique booléenne, de façon à faire disparaître les abérrations que j'avais mises en évidence début février.

La manoeuvre doit être très difficile, et semble durer depuis près d'un mois. Google n'a toujours pas réussi à mettre la totalité de ses "Data centers" à jour. Il semble y avoir trois groupes distincts de Data Centers à l'heure actuelle :
  1. certains n'ont pas été corrigés et fonctionnent sous l'ancien modèle (the = 8 milliards de résultats, logique booléenne fausse)
  2. d'autres ont été partiellement corrigés (the ~ 3 milliards, mais logique booléenne toujours fausse)
  3. d'autres enfin semblent être dans la configuration finale (the ~ 3 milliards, logique booléenne corrigée).
Exemple :

GroupeData Centerthechiracchirac OR chirac
164.233.161.99800000000032700001750000
264.233.189.104380000000021500001970000
366.102.7.99380000000019700001970000

Voir totalité des résultats.

Diverses hypothèses peuvent être formulées. Par exemple, les algorithmes sont toujours en cours de test et pour des raisons de commodité, les Googlers testent seulement sur un sous-ensemble de machines. Une autre raison, plus fondamentale, pourrait être que la correction implique non seulement la modification de quelques formules mathématiques, mais aussi l'accroissement de la part du véritable index par rapport à l'index supplémentaire (voir ce billet). Dans ce cas, la limite pourrait être aussi celle du hardware, qui pourrait ne pas être à la hauteur dans certains Data Centers... Bref, nul n'en sait rien exactement, mais ça gigote drôlement dans le Googleplex.

A suivre !

Libellés :


2 Commentaires:

Anonymous Anonyme a écrit...

Incroyable ce que çà peut bouger vite! J'ai aussi fait quelques tests et il semble que les résultats pour "chirac" recommencent à s'envoler par rapport à la requête "chirac OR chirac" (même sur les index supposés mis à jour). Mais cela est probablement dû au GoogleUpdate (car on ne peut plus parler de dance;) On peut aussi constater ce genre de phénomène avec la requête "chirac chirac" qui contient bien évidemment moins de pages que "chirac" selon la logique Googléenne. Il est temps que je remette mes cours à jour!

25 mars, 2005 10:56  
Anonymous Anonyme a écrit...

Juste pour préciser que Yahoo n'est pas très clair non plus dans sa logique booléenne même si les résultats restent relativement proches (comparés à Google). Finalement il semble que les minuscules moteurs (vous vous rappeler de Voila avec au moins 1% de parts de marché;) soient plus respectueux de la logique boolénne. Quelques exemples sur ce dernier me donne exactement le même nombre de résultats pour "chirac chirac", "chirac" ou "chirac OR chirac".

25 mars, 2005 11:21  

Enregistrer un commentaire

Google: A snapshot of the update



As I said in yesterday's post, Google is currently undergoing major modifications, in which the problem is no more a simple index update, but an in-depth correction of extrapolation routines and boolean logic, in order to fix the count aberrations that I have shown in early February.

The operation must be very difficult, since it seems to have lasted for a month or so. Google has not yet managed to update all its "Data Centers". There seems to be three different groups of Data Centers at this point in time:
  1. some have not been corrected and still have the previous behaviour (the = 8 billion results, wrong boolean logic)
  2. some have been partially corrected (the ~ 3 billions, but boolean logic still flawed)
  3. some seem to have reached the final configuration (the ~ 3 billions, booloean logic fixed).
Example:

GroupData Centerthechiracchirac OR chirac
164.233.161.99800000000032700001750000
264.233.189.104380000000021500001970000
366.102.7.99380000000019700001970000

See complete list of results.

Various hypothesis can be made. For example, the new algorithms are still under test and for some convenience reasons, the Googles test them only on a subset of machines. Another, deeper reason could be that the update implies not only some mathematical modification in the formulaes, but also a major increase of the main index with respect to the "supplemental" index (see this post). In the latter caser, the limit could very well be a hardware one, and some Data Centers might be awaiting more powerful machines. Nobody can know exactly, but the new kind of Google dance seems quite frantic.

Stay tuned!

Libellés :


1 Commentaires:

Anonymous Anonyme a écrit...

Thank you very much for your pursuit of 'googlean logic' - especially if it has indeed been responsible for improving google's behaiour!

I've picked up two current problems with googlean logic. I'd be interested in your comments.

(1) repeated ANDs: commutativity of AND a bit dodgy

Here are some results I obtained today:

58,800,000 for cat
48,400,000 for cat cat
48,600,000 for cat cat cat
59,600,000 for cat cat cat cat
59,500,000 for cat cat cat cat cat

176,000,000 for car
157,000,000 for car car
226,000,000 for car car car
272,000,000 for car car car car
272,000,000 for car car car car car

52,300,000 for dog
47,000,000 for dog dog
46,900,000 for dog dog dog
62,500,000 for dog dog dog dog
62,200,000 for dog dog dog dog dog

And two days ago:

157,000,000 for car
157,000,000 for car car
224,000,000 for car car car
271,000,000 for car car car car
272,000,000 for car car car car car

47,100,000 for dog
47,200,000 for dog dog
53,100,000 for dog dog dog
62,500,000 for dog dog dog dog
62,600,000 for dog dog dog dog dog

(2) Distributivity massively violated (I haven't seen this remarked anywhere else).

11,800,000 for cat AND (dog OR elf)
659,000 for (cat AND dog) OR (cat AND elf)

The first seems plausible, and the second much too low - a bad bug. Here are some relevant counts:

11,400,000 for (cat AND dog)
660,000 for (cat AND elf)

24 juin, 2005 16:11  

Enregistrer un commentaire

jeudi, mars 24, 2005

Google: Blogues ou bogues dans les News ?

J'ai eu la surprise de constater que les blogs du Monde sont désormais indexés dans les News de Google... Une requête sur le mot "transfuge" ramène ce matin le dernier billet du blog de Pierre Assouline, La république des livres :

requete news transfuge
Voici le billet en question :

requete news transfuge
J'ai vérifié, et cela marche aussi pour Langage Sauce Piquante, Big Picture, Transnets, des gadgets aux réseaux, etc.

Je ne sais pas si c'est un bug (peut-être dû à la récente restructuration du site du Monde), ou si c'est une volonté délibérée de Google. Dans le deuxième cas, je crois que ce serait une erreur. On ne peut pas assimiler les blogs à des actualités, sinon la lisibilité de Google News (un magnifique outil, par ailleurs) sera rapidement compromise !

Libellés :


5 Commentaires:

Anonymous Anonyme a écrit...

google news indexe le monde
les blogs en question ont une adresse xxx.lemonde.fr
de là a dire que google indexe les blogs...

24 mars, 2005 09:40  
Anonymous Anonyme a écrit...

google news indexe le monde
les blogs en question ont une adresse xxx.lemonde.fr
de là a dire que google indexe les blogs...

24 mars, 2005 09:41  
Blogger Loran a écrit...

Bonjour,

c'est un probleme qui n'est malheureusement pas nouveau. Dans un domaine technique et tres dynamiques (Linux), c'est un probleme qui se pose souvent, surtout pour les requetes en Francais.

Un exemple aujourd'hui Jeudi 24 Mars a 11heure): http://news.google.fr/news?hl=fr&ned=fr&q=linux&btnG=Recherche+Actualit%C3%A9s

avec comme premiere reponse un post populaire dans un Forum.
Ce qui est troublant, c'est que ce probleme recurrent n'est pas corrigé, puisque ce sont souvent les memes Forums qui sortent en premier.

Cordialement,

24 mars, 2005 11:01  
Blogger tehu a écrit...

Si vous regardez sur Google News US, vous constaterez qu'il y a beaucoup de blogs répertoriés sur des sujets mineurs. Le problème, c'est l'opacité de la sélection. Des blogueurs ont vu leur demande d'intégration rejetée, d'autres ont été pris en compte sans avoir rien demandé. Ce qui entraine jalousies et commentaires acerbes. Google News amène un quota substanciel de trafic, et donc de revenus.

24 mars, 2005 13:04  
Anonymous Anonyme a écrit...

Sur Omidyar Network, le but du réseau est clairement défini : on est là pour travailler à l'élaboration d'un monde meilleur.
Tom Munnecke ( http://www.munnecke.com/blog/ ) a 'customizé' la nouvelle mouture du news aggregator de Google en ajoutant une rubrique Better World.
http://news.google.com/news?ned=:ePkh8BM9ExLQ4klKLSlJLVIozy_KSTFghVtYDrcQbHUG2EKYXQBQnwrX
Si cet exemple consiste tout simplement à rechercher les nouvelles contenant 'Better World', Tom travaille maintenant à permettre à cette section de profiter d'un système de tags plus élaboré ; bénéficiant de l'attention du staff de google et tout particulièrement du soutient de Peter Norvig ( http://www.norvig.com/ ), 'director of search quality' chez google, avec qui il voisine.

Je crois qu'on peut espérer beaucoup de cette nouvelle fonction qui représentera un outil ultra efficace pour tous ceux qui 'travaillent' dans l'humanitaire ou qui, plus généralement, œuvrent pour un monde meilleur.

24 mars, 2005 22:49  

Enregistrer un commentaire

mercredi, mars 23, 2005

Google: 5 milliards de "the" sont partis en fumée




Lire la suite

25 mar - Google: Un instantané sur la mise à jour




Beaucoup de gens avaient remarqué que, quand on cherchait "the" dans Google avec l'option "tout le web", le résultat était depuis un certain temps exactement de 8,000,000,000. Aujourd'hui, si vous tapez à nouveau "the", il y a de bonnes chances pour que vous constatiez que quelque 5 milliards d'occurrences de "the" ont disparu :

The sur Google (Web)

Il est possible, toutefois, que vous obteniez encore l'ancien résultat si vous essayez aujourd'hui. Google "danse" comme un malade depuis une quinzaine de jours. Il ne s'agit pas de la petite "Google dance" à laquelle nous étions habitués de temps à autre, qui durait deux ou trois jours pendant que Google mettait à jour ses bases de données. Cette nouvelle danse est une véritable danse de Saint-Guy : les résultats vont et viennent, apparaissent ou disparaissent comme par enchantement, bref, changent presque tous les jours.

Ce qui se passe, c'est que les Googlers ont été probablement très embarassés par mes calculs début février (voir résumé ici), calculs qui ont fait le tour de la planète et pas mal de bruit dans le Googleplex. Depuis lors, ils s'activent visiblement à essayer de corriger la situation et rendre les chiffres plus crédibles. Cependant, cette fois, il ne s'agit pas simplement de mettre les index à jour. Il faut aussi apporter des corrections majeures aux routines d'extrapolation, à la logique Googléenne, etc. Probablement difficile -- et sujet à erreurs. D'où les nombreux essais et modifications que nous observons ces jours-ci.

Je vais attendre que Google soit stable à nouveau (si jamais ça arrive ;-) pour me livrer à une analyse détaillée, mais on peut déjà se donner une idée de la direction dans laquelle le moteur se dirige. J'avais fait remarquer que lorsqu'on cherchait "the" dans les pages anglaises seulement, on obtenait environ 80 millions de résultats, c'est-à-dire 1% du total, ce qui n'avait pas de sens. Aujourd'hui, j'obtiens environ 2,9 milliards, c'est-à-dire un rapport de 90% au total, ce qui maintenant a du sens.


The sur Google (English)


C'est presque exactement ce que dit Yahoo (respectivement 3,87 et 3,52 milliards). Il est intéressant de remarquer que le fait que Yahoo indexe plus de pages que Google (voir ici et ici) apparaît maintenant dans toute sa lumière.


Lire la suite

25 mar - Google: Un instantané sur la mise à jour


Libellés :


10 Commentaires:

Anonymous Anonyme a écrit...

Salut, il n'y a plus de Google dance de nos jours, elle est constante, la mise à jour se fait presque en temps réel, et ce, tout le temps.

23 mars, 2005 11:02  
Blogger Jean Véronis a écrit...

Oui, absolument. C'est pourquoi celle-ci correspond à autre chose, en l'occurrence les changments majeurs que Google apporte à ses routines et à la structure de son index... Et ça gigote drôlement !

23 mars, 2005 11:06  
Blogger Jean Véronis a écrit...

> On peut trouver une explication aux écarts entre certains moteurs de recherches par l'utilisation du "robots.txt"

Ponctuellement, sans doute, pour certains sites, mais pas d'une façon aussi massive. Cela n'expliquerait pas d'ailleurs que Google perde 5 milliards de pages du jour au lendemain (sauf si une bonne partie de la planète avait décidé désormais de l'interdire !)

23 mars, 2005 15:30  
Anonymous Anonyme a écrit...

Cela est très intéressant...
Mais je ne sais pas si on peut vraiment donner une signification à des valeurs "invérifiables" (je parle du nombre de pages en réponse à une requête). En effet Google pourrait mettre 1000 résultats trouvés ou 1000 000000 résultats trouvés que cela ne choquerait personne (enfin presque;). En effet Google limite l'accès aux 1000 premiers résultats. Pour aller plus loin, il ne vous reste plus qu'à multiplier les requêtes. D'ailleurs, une question serait de savoir si un système de requêtage spécifique permet de vérifier ce nombre...
De toutes les façons 81,7% des utilisateurs ne dépassent pas la 3ème page de résultats (white paper iProspect - April 2004) alors de là à se soucier du nombre de résultats...
Il me semble donc qu'on peut mettre en évidence les abérrations de Google (merci à ce blog;) sans pour autant vérifier l'exactitude des valeurs annoncées par Google.
Nico

24 mars, 2005 10:43  
Anonymous Anonyme a écrit...

"par mes calculs début février (voir résumé ici), calculs qui ont fait le tour de la planète et pas mal de bruit dans le Googleplex."

On peut avoir des liens éventuellement ? Ce n'est pas pour te mettre mal à l'aise mais pour avoir des infos.

25 mars, 2005 10:43  
Blogger Jean Véronis a écrit...

C'était en fait une série d'études -- résumé et pointeurs dans "Le mystère des pages manquantes de Google". Ca a été repris sur des tas de forums et sites de SEO, comme SearchEngineWatch, etc.

25 mars, 2005 13:34  
Anonymous Anonyme a écrit...

Bon on est en juillet, et j'arrive quatre mois après la bataille. Il me semble pourtant important d'insister sur quelques points :
- la question est intéressante et les données obtenues donnent effectivement à penser.
- mais qu'étudie-t-on ? Les "moteurs de recherche" au sens où vous l'entendez sont des sociétés commerciales. Pas des outils, pas des groupes, pas des dispositifs de laboratoire : des sociétés commerciales.
- le travail de reverse engineering auquel vous vous livrez n'a aucun sens sachant que :
a) les chiffres qu'avancent les moteurs pourraient tout aussi bien être tirés au sort. Vous n'avez aucun moyen de conclure, à partir des tests booléens que vous effectuez, du fonctionnement de tel ou tel moteur.
b) ce fait est accentué par un biais expérimental : les sociétés concernées seraient au courant de vos recherches.
Il est clair pour tout le monde que yahoo peut doubler son index du jour au lendemain, ou que google peut modifier son algorithme de recherche sans faire de conférence de presse. Vous en êtes donc réduit à analyser quelque chose qui n'a rien à voir ni avec le langage ni avec la programmation : le comportement d'un département marketing.

Pour conclure, il me semble (comme suggéré ci-dessus) nécessaire et urgent de disposer d'un moteur de recherche libre, en open source, détaché de toute contrainte commerciale. Alors, je pense qu'il sera temps de parler statistiques.

Bien à vous,

demi@m-net.arbornet.org

18 juillet, 2005 03:14  
Anonymous Anonyme a écrit...

Bon on est en juillet, et j'arrive quatre mois après la bataille. Il me semble pourtant important d'insister sur quelques points :
- la question est intéressante et les données obtenues donnent effectivement à penser.
- mais qu'étudie-t-on ? Les "moteurs de recherche" au sens où vous l'entendez sont des sociétés commerciales. Pas des outils, pas des groupes, pas des dispositifs de laboratoire : des sociétés commerciales.
- le travail de reverse engineering auquel vous vous livrez n'a aucun sens sachant que :
a) les chiffres qu'avancent les moteurs pourraient tout aussi bien être tirés au sort. Vous n'avez aucun moyen de conclure, à partir des tests booléens que vous effectuez, du fonctionnement de tel ou tel moteur.
b) ce fait est accentué par un biais expérimental : les sociétés concernées seraient au courant de vos recherches.
Il est clair pour tout le monde que yahoo peut doubler son index du jour au lendemain, ou que google peut modifier son algorithme de recherche sans faire de conférence de presse. Vous en êtes donc réduit à analyser quelque chose qui n'a rien à voir ni avec le langage ni avec la programmation : le comportement d'un département marketing.

Pour conclure, il me semble (comme suggéré ci-dessus) nécessaire et urgent de disposer d'un moteur de recherche libre, en open source, détaché de toute contrainte commerciale. Alors, je pense qu'il sera temps de parler statistiques.

Bien à vous,

demi@m-net.arbornet.org

18 juillet, 2005 03:15  
Anonymous Anonyme a écrit...

Bon on est en juillet, et j'arrive quatre mois après la bataille. Il me semble pourtant important d'insister sur quelques points :
- la question est intéressante et les données obtenues donnent effectivement à penser.
- mais qu'étudie-t-on ? Les "moteurs de recherche" au sens où vous l'entendez sont des sociétés commerciales. Pas des outils, pas des groupes, pas des dispositifs de laboratoire : des sociétés commerciales.
- le travail de reverse engineering auquel vous vous livrez n'a aucun sens sachant que :
a) les chiffres qu'avancent les moteurs pourraient tout aussi bien être tirés au sort. Vous n'avez aucun moyen de conclure, à partir des tests booléens que vous effectuez, du fonctionnement de tel ou tel moteur.
b) ce fait est accentué par un biais expérimental : les sociétés concernées seraient au courant de vos recherches.
Il est clair pour tout le monde que yahoo peut doubler son index du jour au lendemain, ou que google peut modifier son algorithme de recherche sans faire de conférence de presse. Vous en êtes donc réduit à analyser quelque chose qui n'a rien à voir ni avec le langage ni avec la programmation : le comportement d'un département marketing.

Pour conclure, il me semble (comme suggéré ci-dessus) nécessaire et urgent de disposer d'un moteur de recherche libre, en open source, détaché de toute contrainte commerciale. Alors, je pense qu'il sera temps de parler statistiques.

Bien à vous,

demi@m-net.arbornet.org

18 juillet, 2005 03:59  
Anonymous Anonyme a écrit...

ayant lu aujourd'hui vos analyses que je trouve très intéressantes, j'ai moi aussi tapé "the" sur google et j'ai obtenu une approximation de... 14'210'000'000 résultats...

15 octobre, 2006 23:47  

Enregistrer un commentaire

Google: 5 billion "the" have disappeared overnight




Read follow up

25 mar - Google: A snapshot of the update




When you used to search for "the" in Google with the "any language" option, the result had been exactly 8,000,000,000 for quite a while. Today, if you type "the" again, you are likely to find that 5 billion occurrences of "the" are gone :

The on Google (Web)

It is possible, however, that you will still get the old count if you try. Google has been "dancing" a lot over the last two weeks. Not the usual "Google dance" that we were used to see from time to time, which lasted two or three days while Google was updading their databases. This new dance is a real Saint-Vitus dance: results go back and forth, appear, disappear, and change almost everyday.

What happens is that the Googlers have been pretty embarrassed by my computations in early February (see summary here), which seem to have spread around the planet, and made a lot of noise in the Googleplex. Since then, they seem to have been busy to try to fix the situation and make the numbers look credible. However, this time it involves not only updating indexes, but also major changes in extrapolation routines, Googlean logic, etc. Probably difficult -- and error-prone. Hence the numerous trial and errors that we seem to observe these days.

I'll wait until Google is stable again (if it is someday ;-) to perform a detailed analysis, but we can already get a sense of the direction in which Google is going. I pointed out that when you search for "the " in English pages only, you used to get only around 80 million pages, i.e. 1% of the whole, which did not make sense. Today, I get ca. 2.9 billions, i.e. a ratio of 90% of the whole, which does make sense.

The on Google (English)


It is almost exactly what Yahoo says (respectively 3.87 and 3.52 billions). Interestingly enough, the new results reveal very clearly that Yahoo indexes more pages than Google (see here and here).


Read follow up

25 mar - Google: A snapshot of the update


Libellés :


0 Commentaires:

Enregistrer un commentaire

mardi, mars 22, 2005

Handicap: Naviguer sans vue

Imaginez-vous un bandeau sur les yeux, sans souris... et naviguez maintenant sur Internet ! Ce joli petit film de l'Université de Nice aide à comprendre ce qu'est le quotidien d'une personne aveugle utilisant un ordinateur.


On prend conscience en voyant ce film que toute notre civilisation est complètement basée sur un accès macintoshien à l'information, à travers le couple souris-écran. Je me souviens d'ailleurs que lors de mes premiers cours sur Macintosh (20 ans déjà...), ça n'était pas si évident pour les étudiants. Où cliquer ? Cliquer sec ? Cliquer appuyé ? Double-cliquer ? Glisser-déplacer ? etc. Le plus beau souvenir que j'en garde est le cri d'effroi d'une étudiante qui a cru avoir cassé l'ordinateur (mais elle n'avait fait que sortir la souris de la table, et évidemment le curseur s'était soudain figé !). Authentique.

Cette période est totalement oubliée, et le pointage d'objet divers et variés est maintenant devenu une seconde nature pour les voyants. On ne pense même plus à toutes les opérations, complexes du point de vue cognitif, que nous accomplissons à chaque instant -- et la quantité incroyable de savoir non-dit qui environne ces environnements !

Toute cette navigation à vue est impossible pour les aveugles, et les logiciels de substitution sont bien lourds... Il faut que nous fassions au moins un effort d'accessibilité sur nos sites. Ce n'est pas forcément la bonne volonté qui manque, mais où commencer ? Une première façon de se sensibiliser est peut-être de regarder son propre site en mode texte pur et simple...


Post-scriptum

23 mar - Plusieurs lecteurs ont commencé à déposer des liens vers des sites parlant d'accessibilité, et notamment une introduction et le blog de Matthieu Faure sur l'accessibilité. Bravo, je les en remercie, et si d'autres parmi vous ont des propositions de lecture, n'hésitez pas à laisser des "gentimentaires". Je crois que c'est oeuvre utile.


Libellés :


9 Commentaires:

Blogger J2J2 a écrit...

Nostalgie, nostalgie... je me souviens de l'époque durant laquelle j'ai développé Spirit-W3 (l'interface W3 du moteur Spirit), époque proche de l'an 0 sur l'échelle-temps Internet... A cette époque, nos contraintes de compatibilité de l'interface incluaient Lynx!!!
Qui encore se souvient de Lynx aujourd'hui? Et qui se soucie de la compatibilité avec Lynx?

En dehors de Lynx et de cette petite page de nostalgie, il faut avouer qu'il est rare de rencontrer lors de nos cyber-balades l'un des logos du W3C spécifiant le niveau d'accessibilité d'un site.

Pour les curieux souhaitant en savoir plus sur l'accessibilité, il y a l'inévitable Web Accessibility Initiative (WAI) du W3C...

22 mars, 2005 22:19  
Anonymous Anonyme a écrit...

Bonjour Jean,

Je tiens d'abord à vous remercier pour la qualité des billets que vous proposez dans ce blog.

Je me réjouis de votre intérêt citoyen pour l'accessibilité du Web. Si la bonne volonté est là, par où commencer ? Je pense comme vous que la sensibilisation est un premier pas nécessaire. Et les vidéos sont à ce titre souvent très éloquentes. Pour information, Matthieu Faure propose depuis la semaine dernière une catégorie "Vidéo" sur son blog.

Pour ensuite s'informer et/ou se former, il y a de nombreuses ressources disponibles sur le Web. Une brève introduction à l'accessibilité vient d'être traduite en français. Plongez dans l'accessibilité fournit 25 astuces à appliquer immédiatement sur un site web pour le rendre plus accessible. La catégorie Accessibilité de l'ODP (Dmoz) recense d'autres sites de référence.

J'espère que ces quelques liens seront utiles.

23 mars, 2005 13:18  
Blogger Jean Véronis a écrit...

Merci infiniment pour ces commentaires et ces liens ! J'espère qu'il y en aura d'autres. Je vais aller visiter tout ça, et j'espère que d'autres lecteurs feront ce même voyage.

23 mars, 2005 13:28  
Anonymous Anonyme a écrit...

Alors pour les webmaster, dans la série des liens, un petit logiciel développé par IBM et qui mériterait d'être plus connu : aGesigner.

C'est un peu le debugger de l'accéssibilité... Faite comme moi : utilisation quotidienne!

23 mars, 2005 14:44  
Anonymous Anonyme a écrit...

Un autre blog qui s'intéresse entre autres à l'accessibilité (mais aussi à l'ergonomie et tout ce qui a trait à 'l'expérience utilisateur'), c'est celui de Fred Cavazza.

24 mars, 2005 11:45  
Anonymous Anonyme a écrit...

Bonjour,

Pour pousuivre, signalons qu’il existe une loi française depuis le 12 février 2005 [http://www.legifrance.gouv.fr/WAspad/UnTexteDeJorf?numjo=SANX0300217L]. Celle-ci concerne les exigences en terme d’« accessibilité », faites à l’ensemble des sites publics dont la mise en conformité devra se faire dans les trois ans à venir. Le référentiel associé à ce texte de loi (http://www.adae.gouv.fr/article.php3?id_article=246) s’est très fortement inspiré des recommandations internationales du Web Accessibility Initiative (WAI).
Pour tout savoir, rendez-vous sur le site de l’ADAE : http://www.adae.gouv.fr/article.php3?id_article=715&var_recherche=accessibilite)

On peut également citer l’excellent site de BrailleNet l’association à la source et promotrice de ces recommandations (www.braillenet.org). Des recommandations (concrètes) pour que votre site soit le plus accessible aux aveugles et mal-voyants (et avec l’âge les mal voyants surfant sur le net vont être nombreux – vous et moi ;-)).

Enfin, pour revenir au Mac, celui-ci a toujours fait aussi la "promotion" des raccourcis clavier, qui doivent être choisis avec discernement car très utilisés par les (systèmes de) aveugles/mal voyants.
Du pain sur la planche pour nous tous. SD

24 mars, 2005 14:51  
Anonymous Anonyme a écrit...

Bonjour,
Un site et un blog parlant (entre autres choses) d'accessibilité :
http://standblog.org/blog/
http://openweb.eu.org/

25 mars, 2005 11:09  
Blogger Jean Véronis a écrit...

Merci Sylvie et "Anonymous" ! Je mets vos liens en format cliquable :

loi française
http://www.legifrance.gouv.fr/WAspad/UnTexteDeJorf?numjo=SANX0300217L

Le référentiel associé à ce texte de loi
http://www.adae.gouv.fr/article.php3?id_article=246

site de l’ADAE
http://www.adae.gouv.fr/article.php3?id_article=715&var_recherche=accessibilite

BrailleNet
http://www.braillenet.org


Un site et un blog parlant (entre autres choses) d'accessibilité :
http://standblog.org/blog/
http://openweb.eu.org/

25 mars, 2005 23:09  
Blogger J2J2 a écrit...

Pour illustrer tout ceci, un témoignage sur standblog (déjà mentionné plus haut) concernant l'accessibilté.

29 avril, 2005 11:43  

Enregistrer un commentaire

Traduction: Phraselator pour Rambo

L'armée américaine manque cruellement d'interprètes. Il semblerait qu'il y ait à peine un peu plus d'un millier d'arabophones dans ses rangs, et même en les envoyant tous en Irak et en Afghanistan, cela risque de faire juste pour des opérations de l'envergure de celles qui s'y déroulent (voir par exemple Campus Watch). Faire appel à des interprètes locaux s'est avéré problématique, car ceux-ci ont tendance à trop "interpréter" (justement !) les questions et les réponses, voire à dissimuler des informations ou carrément en passer au camp adverse...

Alors l'armée américaine a décidé de faire appel à la technologie, et un PDA traducteur, le Phraselator, est en cours de test depuis quelque temps sur le terrain. D'après Wired, 2000 de ces petits engins sont actuellement déployés en Irak et en Afghanistan.

Le Phraselator P2 fonctionne dans un seuls sens, à partir de l'anglais vers l'un des 53 langages possibles (dont, évidemment, l'arabe, mais aussi le pashtoune, et quelques autres langues d'intérêt stratégique). L'engin est censé comprendre à l'aide d'un système de reconnaissance de la parole, un certain nombre de phrases ou d'expressions pré-répertoriées prononcées par le combattant américain, et peut les traduire sous forme de messages pré-enregistrés prononcés par un humain dans la langue cible. Différents modules permettent de "communiquer" dans des domaines variés (pas seulement guerriers d'ailleurs). Cela paraît possible dans l'état actuel de la technologie... à condition que le rambo moyen se souvienne des quelques milliers de phrases que connaît la machine, sinon, ça risque de patiner. Mais il est vrai que l'on peut aussi simplement cliquer sur l'écran au moyen d'un stylet pour choisir l'expression à traduire (au fait à quoi sert réellement la reconnaissance vocale en fin de compte ?).


Encore une erreur de module

Ce qui serait évidemment intéressant, ce serait que la machine puisse traduire les réponses, car pour l'instant la "conversation" ne peut s'établir guère que sur la base de questions qui amènent des réponses par oui ou par non. Vous imaginez un peu le jeu des 20 questions sur le champ de bataille ? Mais la traduction de la parole libre, multi-locuteurs, est bien loin d'être posssible ou même imaginable. D'ailleurs, l'Universal Translator de Star Trek n'a été inventé qu'en 2151... Mais le problème risque alors de ne plus être les irakiens, mais les Klingons, qui sont autrement plus féroces. J'y reviendrai d'ailleurs très bientôt. A suivre !

1 Commentaires:

Anonymous Anonyme a écrit...

Trop bon les guignols !

02 juin, 2007 20:07  

Enregistrer un commentaire

lundi, mars 21, 2005

Texte: Jacques a dit

Privé de majorité politique durant la majeure partie de son septennat,
Jacques Chirac fut avant tout le président de la parole,
condamné à gouverner par le seul pouvoir des mots.


Damon Mayaffre, Paroles de président (Editions Champion)

J'ai déjà cité il y a quelque temps, les travaux de mon collègue niçois Damon Mayaffre, qui a analysé tous les discours de Chirac entre 1995 et 2003 à l'aide d'outils de lexicométrie perfectionnés. 816 discours analysés, un million et demi de mots passés au crible informatique, et comparés aux discours de de Gaulle, Pompidou, Giscard, Mitterrand et Jospin. Je recommande vivement le livre qui résume ces analyses, paru chez Champion, et qui a reçu récemment les honneurs du Canard Enchaîné. Un bel exemple d'utilisation de la statistique textuelle.



Damon m'a fait parvenir deux diagrammes intéressants (je reprends les explications de Damon). Le premier montre un changement rhétorique majeur dans les discours présidentiels au cours de la Vème République : "le discours des trois premiers présidents, de Gaulle, Pompidou, Giscard, dans les années 1960-70 est nominal et conceptuel, tandis que le discours des trois suivants (Mitterrand1, Mitterrand2 et Chirac) à partir des années 1980 est verbal et énonciatif". Le discours se vide de sa substance...



Le deuxième diagramme montre l'évolution du mot insécurité dans les discours de Chirac :



Ce diagramme utilise ce qu'on appelle en statistiques "écarts réduits". Le terme est un peu technique, mais l'idée générale est simple à comprendre : la ligne horizontale du zéro correspond à la moyenne de l'emploi du mot insécurité chez Chirac. Les "bâtons" correspondent à un emploi inférieur à cette moyenne pour un semestre donné s'il sont dirigés vers le bas, et un emploi supérieur à la moyenne s'ils sont dirigés vers le haut. En 1997 par exemple, Chirac n'emploie jamais ce mot... Par contre, pendant le seul premier semestre 2002, juste avant l'élection présidentielle, il l'utilise 156 fois. Damon a peut-être raison de dire que "le thème de l'insécurité ressort dans le discours de Chirac comme un thème conjoncturel et fabriqué à des fins électorales" ! On connaît le résultat...



Il y a bien d'autres analyses fascinantes dans ce livre. Celle de la cohabitation vue sous l'angle des vocabulaires du président et de son premier ministre mériterait un autre billet à elle seule ! Peut-être un jour...

0 Commentaires:

Enregistrer un commentaire

samedi, mars 19, 2005

Texte: Une montagne de mails

Une montagne de mails... voilà ce qui caractérise bien la plupart de nos boîtes aux lettres par les temps qui courent ! Fernanda Viegas, dont j'ai parlé l'autre jour à propos de History Flow, a développé aussi un prototype au joli nom de Mountain, qui visualise les archives de mails d'une personne en fonction de tous les correspondants avec qui elle a été en contact au cours des années.


Chaque couche géologique de la montagne représente un correspondant différent, avec les premiers contacts au fond à gauche et les derniers en haut à droite. Les couches sont d'autant plus épaisses que les derniers mails avec le correspondant concerné sont récents.

Joli travail ! Fernanda me dit que sa priorité est de terminer son Ph.D., mais qu'après, elle travaillera peut-être à une version Open Source. Je l'espère. J'ai hâte de tester sur mon Himalaya personnel. En attendant, la montagne a accouché au moins déjà d'un sourire.

0 Commentaires:

Enregistrer un commentaire

jeudi, mars 17, 2005

Lexique: Sans frontières

A la Une de Libé aujourd'hui :


Voir la Une en pdf. Lire l'article.

Que dire, que penser d'une civilisation qui se permet ça et qui prétend exporter la démocratie ? Pardonnez-moi de partir d'un sujet aussi grave, tragique, inadmissible, écoeurant, pour atterrir, atterré, sur mes petites préoccupations de lexicographe, d'amoureux de la langue, qui paraissent soudain bien dérisoires... Mais je me dis que la meilleure façon de lutter contre la barbarie de tous bords est de continuer à faire vivre la culture, la science, les lettres... et l'humour, si on peut.

Bref... cet usage de "sans frontières" m'a paru un peu lourd. Tous est "sans frontières" de nos jours, le meilleur et le pire. Le meilleur, c'est bien sûr Médecins sans frontières, créé en 1971, par Kouchner et les autres, en réponse au drame terrible du Biafra. Les moins jeunes parmi nous se souviennent de ces images atroces d'enfants au ventre gonflé, inadmissibles, intolérables, elles aussi -- et que l'on a admises, tolérées bien des fois depuis...



D'autres ONG ont suivi. Je ne sais pas dans quel ordre, reporters, pharmaciens, avocats... Extrêmement louables. Et puis d'autres activités, moins louables --mais pas honteuses non plus : voyages, treks... Finalement, l'expression est tombée dans le patrimoine commun. Bonne pour le dictionnaire.

Comment savoir tout ce qui est sans frontières, ces jours-ci ? Evidemment, vous vous doutez que je vais utiliser Yahoo (qui paraît relativement fiable, voir ici et ) -- pas Google, qui fait un peu n'importe quoi, hélas (je ne suis pas payé par Yahoo, enfin, pas encore ;-).

Allons-y : "Sans frontières", pages francophones, donne 1 510 000 résultats (ne pas oublier les guillemets !). Intéressant : Reporters sans frontières est premier, pas Médecins. Enlevons les pages qui contiennent reporters. Vous connaissez l'opérateur d'exclusion "-", je pense... "Sans frontières" -reporters donne 958 000 résultats. Le premier est Médecins sans frontières. Enlevons médecins. "Sans frontières" -reporters -médecins donne 503 000 résultats. Et ainsi de suite.

J'ai eu la bonne surprise de constater que Yahoo admet jusqu'à 50 mots-clés dans la même requête ! Vous allez dire que je suis remonté contre Google, mais je rappelle simplement que la planète entière s'extasiait du fait que Google était passé d'une limite de 10 mots-clés à 32 il y a quelques semaines...

J'ai donc continué avec mes requêtes, jusqu'à celle-ci, qui a buté contre la limite de Yahoo.
"sans frontières" -reporters -médecins -pharmaciens -vétérinaires -films -aviation -épargne -ingénieurs -marins -manuels -acupuncture -patrimoine -homéopathes -juristes -fanfares -avocats -jeux -handicap -image -psychologique -ophtalmo -union -accueil -clowns -trek -vignes -enfants -sécurité -empoisonneurs -échanges -populaire -naturopathes -cheval -chrétiens -cerveaux -architectes -europe -restaurateurs -pirates -douleurs -policiers -comptables -ambulanciers -biologie -management -ministre -autistes -haïku
Et il y avait encore de la marge, puisque cette requête retourne 46 700 résultats. J'ai simplement regardé les 200 premiers, et j'ai rajouté "4x4 sans frontières", "musique sans frontières", etc.

Il n'y a plus alors qu'à interroger le moteur avec les diverses expressions recombinées : "reporters sans frontières", "médecins sans frontières", etc. Voici le résultat :

FréquenceExpression
372000reporters sans frontières
113000médecins sans frontières
5850télévision sans frontières
2070ingénieurs sans frontières
2060pharmaciens sans frontières
1830avocats sans frontières
1700jeunes sans frontières
1540monde sans frontières
1290vétérinaires sans frontières
1230films sans frontières
1130amour sans frontières
843aviation sans frontières
724enfants sans frontières
692éducation sans frontières
680jeux sans frontières
677europe sans frontières
634pompiers sans frontières
586patrimoine sans frontières
549clowns sans frontières
546traducteurs sans frontières
534trek sans frontières
441terre sans frontières
384imaginaires sans frontières
354douleurs sans frontières
315sport sans frontières
289homéopathes sans frontières
284amis sans frontières
273musique sans frontières
255femmes sans frontières
219juristes sans frontières
217nouveau sans frontières
212fraternité sans frontières
206amitiés sans frontières
198tréteaux sans frontières
196sécurité sans frontières
187amitié sans frontières
172pyrénées sans frontières
170éducateurs sans frontières
169artistes sans frontières
169marins sans frontières
168espoir sans frontières
139haïku sans frontières
132dentistes sans frontières
128handicap sans frontières
124business sans frontières
111noël sans frontières
104alpes sans frontières
102cheval sans frontières
99ateliers sans frontières
94vivre sans frontières
92chrétiens sans frontières
91experts comptables sans frontières
88accueil sans frontières
78regards sans frontières
76lunettes sans frontières
75autistes sans frontières
72ESC sans frontières
71architectes sans frontières
69maths sans frontières
68numérique sans frontières
66fanfares sans frontières
66terres sans frontières
61vignes sans frontières
58cabaret sans frontières
54informatique sans frontières
53manuels sans frontières
53poètes sans frontières
52imaginaire sans frontières
51partage sans frontières
50union sans frontières
48électriciens sans frontières
48psychologique sans frontières
45connexion sans frontières
45crédits sans frontières
45gynécologie sans frontières
43temps sans frontières
41jardins sans frontières
40guerres sans frontières
39acupuncture sans frontières
39alliances sans frontières
39architecture sans frontières
37échanges sans frontières
37épargne sans frontières
33multimédia sans frontières
32voyages sans frontières
31orphelins sans frontières
30afrique sans frontières
29biologie sans frontières
29fête sans frontières
28management sans frontières
28restaurateurs sans frontières
26femme sans frontières
25informaticiens sans frontières
25sciences sans frontières
24cuisines sans frontières
24gastronomie sans frontières
22cavaliers sans frontières
21ambulanciers sans frontières
21ophtalmos sans frontières
20gospel sans frontières
19amérique sans frontières
18rebelles sans frontières
17études sans frontières
17radiologie sans frontières
16cerveaux sans frontières
16normands sans frontières
16secours sans frontières
15danseurs sans frontières
15traduction sans frontières
13drouant sans frontières
13empoisonneurs sans frontières
13kayak sans frontières
13randonnées sans frontières
12pensée sans frontières
11explorateurs sans frontières
11opéra sans frontières
104x4 sans frontières
10flammes sans frontières
10génie urbain sans frontières
10ministre sans frontières
10policiers sans frontières
9choeur sans frontières
9université populaire sans frontières
8vélo sans frontières
7matériel médical sans frontières
7naturopathes sans frontières
6gagueurs sans frontières
6image sans frontières
6pirates sans frontières
6siad sans frontières
5ordinateurs sans frontières
5skittles sans frontières
4scouts sans frontières
32CV sans frontières
3alliance sans frontières
3aperopunk sans frontières
3argenteuil sans frontières
3météorologie sans frontières
2dictateurs sans frontières
2évangélisation sans frontières
2femmes libres et sans frontières
1femmes égalités sans frontières
1surveillance sans frontières

Finalement, seuls les ratons laveurs ne sont pas sans frontières... Personnellement, j'aime bien "Amour sans frontières". C'est ce qui manque, je crois !

9 Commentaires:

Anonymous Anonyme a écrit...

"Pardonnez-moi de partir d'un sujet aussi grave"

Au contraire, j'ai trouvé ce post très poétique...
Je regrette juste le bas du tableau qui contient peu de femmes sans frontières, mais l'essentiel est bien qu'on les aime, souvent malgrès les frontières!

18 mars, 2005 11:42  
Blogger Jean Véronis a écrit...

Il y a quand même "Femmes sans frontières" tout court en haut (255 fois, ce qui n'est pas beaucoup quand même). Allez je mets un petit lien vers leur assoc. Elles le méritent !

18 mars, 2005 12:00  
Anonymous Anonyme a écrit...

Que dire, en effet? Et je suis d'accord avec Jérôme K: il n'y a pas de pardon à demander ou à accorder...

Sur le même sujet (de façon quelque peu connexe, certes) il y avait cette semaine un article dans "Le Canard Enchaîné" qui vilipendait l'attitude négligée de nos autorités (civiles et judiciaires) quant aux Français libérés de Guantanamo, et se retrouvant libres à leur retour au pays.

La France pourrait porter plainte, mais bien évidemment elle ne le fera pas. L'un deux est resté trois ans et demi prisonnier, sans accusation, sans défense, sans procès... et notre "patrie des droits de l'homme" s'en croise les bras...

18 mars, 2005 12:15  
Anonymous Anonyme a écrit...

"droit de l'homme sans frontière"?

18 mars, 2005 14:59  
Anonymous Anonyme a écrit...

attention à l'usage de l'expression "Avocats sans frontières" sujette à polémique. Il existe en effet une association "Avocats sans frontières" en France qui n'a aucun lien avec l'ONG dont je suppose que c'est elle qui jugée extrêmement louable dans l'article.
L'ONG prend la peine de bien préciser la différence sur sa page d'accueil.

19 mars, 2005 12:35  
Blogger Jean Véronis a écrit...

Pas sympa, effectivement. Il y a décidément de la "récup" dans l'air autour de cette expression ! J'ai ajouté un lien vers l'ONG.

20 mars, 2005 08:41  
Blogger Loran a écrit...

Bonjour,
encore bravo.
Juste pour le cas ou vous ne l'auriez pas deja vu un lien tres interessant http://rtp-doc.enssib.fr/rubrique.php3?id_rubrique=20
qui parle du modele economique de google (et des autres) vu avec un oeil de documentaliste. Les moteurs de recherche sont vraiment a la convergence de plusieurs domaines.

21 mars, 2005 16:31  
Blogger Jean Véronis a écrit...

Merci pour le compliment ! Je suis effectivement le site rtp-doc, mais je ne vois rien de spécial à l'adresse que vous indiquez. Ne faites-vous pas plutôt référence au document "L’exploitation marchande du modèle bibliothéconomique" à l'adresse http://rtp-doc.enssib.fr/article.php3?id_article=203 ? Ca parle de la distribution des requêtes, de la "longue queue" de Google, et c'est effectivement intéressant.

21 mars, 2005 16:47  
Blogger Loran a écrit...

Bonjour,
Oupss désolé....
oui c'etait bien de ce lien dont je parlais.

Cordialement,

22 mars, 2005 17:27  

Enregistrer un commentaire

Services: Lettré !

Amaztype... comme quoi les vieux bouquins mènent aux Belles Lettres :



A voir en mouvement, et avec votre auteur favori !

[merci à What do I know]

0 Commentaires:

Enregistrer un commentaire

mercredi, mars 16, 2005

Lexique: Glissance et pénétrance

Il y a quelques jours, les correcteurs du Monde épinglaient un usage malheureux du mot glissance sous la plume (?) d'un journaliste :
Selon Aéroports de Paris, "seuls les petits porteurs pouvaient décoller d'Orly en début de matinée, le coefficient de glissance étant insuffisant pour les gros porteurs."
Extravagance, déviance ? "Parler moche" ou subtile figure d' "écrivance" ? Après tout Roland Barthes n'a pas eu peur de "parler moche" lui aussi en inventant ce dernier mot ! Et il a eu un bon coefficient de lecturance...


En fait, le mot glissance existe bien, c'est le contraire, en quelque sorte, de l'adhérance adhérence (quel cauchemar l'orthographe française !). C'est tout à fait sérieux, il ne faut pas que les avions dérapent sur les pistes, que les véhicules partent en tête à queue sur les autoroutes, que les piétons se cassent la figure sur les sols mouillés, etc. Il y a même un Instrument de Mesure Automatique de la Glissance (IMAG) digne de Gaston Lagaffe :

D'ailleurs le mot est cité par le TLFI, le Petit Larousse, et on peut vérifier, à l'aide du moteur de recherche du Monde.fr, qu'il a été utilisé six fois dans ce journal depuis 1987. Evidemment, Yahoo confirme : 830 occurrences dans les pages francophones. Quant à Google, eh bien j'abandonne : une recherche sur tout le Web donne 537 résultats, et une recherche restreinte aux pages francophones en donne 1290. Il y a plus de pages francophones que de pages au total, bravo Google ! Mais ce n'est pas la première invraisemblance que je relève sur ce moteur et sans doute pas la dernière (voir ici par exemple), et je me demande combien de temps il arrivera à garder sa prédominance...



Ce qui est étrange, c'est seulement l'irruption d'un terme de physique très spécialisé dans une nouvelle pour le grand public. Le journaliste a sans doute repris telle quelle la dépêche d'ADP, apparemment sans vraiment la comprendre complètement, car si on lit bien, elle dit exactement le contraire de ce qu'elle voudrait dire (et que nous comprenons à la lecture !) : il ne faut pas que ça glisse trop pour les gros porteurs, donc il ne faut donc certainement pas que le coefficient de glissance soit élevé.

Mais cette explication ne me suffit pas. Jargon et termes techniques émaillent la prose que nous lisons quotidiennement sans que nous ressentions ce curieux décalage que provoque ce mot glissance, et qui nous donne ce sentiment (à tort ici), de "parler moche".

A mon avis, si nous ressentons un malaise par rapport à ce terme, c'est parce qu'il crée une... dissonance. Il se trouve qu'il existe pour glissance un concurrent bien plus fréquent, glissement, et en quelque sorte, il y a compétition entre ces deux mots dans nos petites têtes. Notre cerveau est très sensible aux fréquences dans la langue (voir ce billet). On attend glissement, on a glissance. Nos neurones protestent.

Dans le cas de glissance, il faut bien les deux mots. Le glissement, c'est l'action de la chose qui glisse, la glissance, c'est l'état de la surface où l'on glisse. Dans d'autres cas, c'est simplement du parler moche, ou de la charlatance. Cela fait très intellectuel. On change la finale et on a inventé une nouvelle notion...


Je me suis livré à une petite expériance expérience à la recherche d'autres mots moches en -ance. Je suis parti d'un lexique de 5000 verbes français, abaisser, abandonner, abasourdir, abattre, etc., et j'en ai listé les participes présents : abaissant, abandonnant, abasourdissant, abattant, etc. A partir de cette liste, j'ai généré les formes en -ance correspondantes : abaissance, abandonnance, abasourdissance, abattance, etc. (je sens déjà une certaine dissonance qui vous assaille, cher lecteur, à la lecture de ces mots...). C'est facile : enlever -ant, ajouter -ance. Parmi ces mots, il n'y avait plus qu'à vérifier dans mon lexique s'il existe un nom concurrent en -ment (c'est un tout petit peu plus compliqué, car il faut gérer les alternances, du type agaçance/agacement, etc.). Il y a justement un tel concurrent pour abaissance (abaissement), abandonnance (abandonnement), abasourdissance (abasourdissement), abattance (abattement), etc. mais pas pour d'autres comme abondance, accoutumance, alliance, alternance, etc.

C'est la première liste qui m'intéresse ! De cette liste, j'ai retiré tous les mots donnés comme entrée principale dans le TLFI, comme accroissance (concurrent d'accroissement) [note : glissance n'est pas une entrée, mais une sous-entrée de glisser].

Il me reste une liste de 475 mots en -ance qui ont un concurrent en -ment. De bons candidats si vous voulez parler moche ! J'aime bien personnellement aboyance (qualité de certains hommes politiques hargneux ?), affalance (le stade suivant de la nonchanlance...), l'amusance (propriété de ce blog, j'espère !), etc.

Reste à voir ce qui est réellement attesté dans la pratique. J'ai utilisé pour cela Yahoo! pages francophones (comme dans ce précédent billet)...

141 mots parmi ces 475 ont déjà été utilisés sur le web. Voici les 40 premiers (voir la liste complète) :

MotFréquenceMotFréquence
gouvernance661000confinance54
traitance565000roulance50
boisance3940déferlance47
armance2300rassemblance41
flamboyance2070désistance37
raisonnance1750foisonnance36
glissance830apaisance35
pétillance672repliance34
battance654éloignance34
croisance621acquittance32
chatoyance527ondoyance31
encombrance389larmoyance30
rayonnance292éblouissance29
pliance279débordance28
parlance231payance27
environnance227crissance23
déchirance157commandance23
verdoyance79craquance22
scintillance59rendance21
accompagnance59amusance21


J'ai mis en brun les mots qui apparaissent comme sous-entrée dans le TLFI.

Il faut trier un peu : Boisance est un nom propre (une société), Armance un prénom. Croisance semble être plutôt une faute d'orthographe sur croissance. Pour raisonnance, on peut se demander si c'est un jeu de mot sur raisonner ou une faute d'orthographe sur résonance (probablement un peu des deux). Les cas tordus sont en italiques.

Mais à part ça, les résultats sont assez intéressants. J'ai été surpris, car parmi ces nouveaux (?) mots, il y en a que je ne trouve pas moches du tout (mais bien sûr on peut contester, tout est affaire de goût et de jugement). Certains me semblent même tout à faits banals et déjà entendus mille fois, comme flamboyance, rayonnance, chatoyance. C'est curieux que ces mots ne soient pas dans le TLFI. Il y a aussi du moche, et même du très moche selon moi. Mon "préféré" dans le style, c'est l'enseignance. Du vrai, du beau jargon des sciences de l'éducation !


Et la pénétrance ? En physique, on peut certainement dire que glissance et pénétrance sont corrélées... mais je sens qu'on glisse sur l'axe du X. Restons dans la bienséance. Il faudrait cependant regarder aussi les concurrents en -tion (et aussi sans doute en -age, -ure, etc.). Voilà de bons projets pour nos étudiants ! Et je crois que cette petite étude nous montre une fois de plus les richesses que l'on peut tirer du Web. Une vrai mine pour les linguistes et les lexicographes...

En tous cas, j'espère que je ne vous ai pas ennuyés avec cette longue jactance !

11 Commentaires:

Blogger Fabrice a écrit...

Passionnant, si, si, j'ai tout lu.

17 mars, 2005 01:45  
Anonymous Anonyme a écrit...

Merci pour ce traité ébouriffant, et pour la découverte du blog des correcteurs du monde.

17 mars, 2005 08:01  
Blogger J2J2 a écrit...

"Et en tous cas, cette petite étude nous montre une fois de plus les richesses qu'il y à tirer du Web. Une vrai mine pour les linguistes et les lexicographes..."En effet, je m'incline.
Pardon, je voulais écrire que vos arguments me mettent en inclinance.
;-)

17 mars, 2005 10:01  
Anonymous Anonyme a écrit...

J'adore, définitivement j'adore !

Cependant, 2 petites choses (qui n'enlevent rien à la qualité de l'article) :

1/ Roland Barthes n'a pas eu peur de "parler moche" -> erreur dans le lien (pointe vers "http://www.blogger.com/%20http://www.dicomoche.net/" au lieu de "http://www.dicomoche.net/")

2/ "une recherche sur tout le Web donne 537 résultats, et une recherche restreinte aux pages francophones en donne 1290. Il y a moins de pages francophones que de pages au total, bravo Google !" -> C'est le contraire non ? "Il y a plus de pages francophones que de pages au total"

A+ et continuez comme cela

17 mars, 2005 12:38  
Anonymous Anonyme a écrit...

Toujours aussi instructif et étonnant

Tant qu'à parler du web, qu'en est il de la téléchargeance ?
A quoi est ce que l'on pourrait voir que la téléchargeance d'un site est bonne ou mauvaise ? Est ce que ce ne serait pas la meme chose que la bande passante ?

Ou devrais je dire la passance de la bande ??? ça ne fait pas tres interactif tout ça :-)

17 mars, 2005 14:16  
Blogger Jean Véronis a écrit...

Merci pour tous ces commentaires, j'ai de la chance ! (et j'ai corrigé les bugs, merci Gnocchi).

Téléchargeance : excellent ! Je n'avais pas le verbe télécharger dans mes 5000... Quant à la bande passante, ça reste en rapport avec la pénétrance, si vous êtes familiers avec l'antistrophe ;-)

17 mars, 2005 21:04  
Anonymous Anonyme a écrit...

Je demande présentement et solemnellement la permission d'utiliser les mots flamboyance, rayonnance, chatoyance et pétillance qui m'ont instantanément ravie. La parlance pourrait être notre capacité d'expression. L'éloignance, celle de prendre nos distances. Et la foudroyance celle de tomber amoureux, bien sûr... Parmi tous ces mots-moches, il y a suffisamment de mots-beaux !

PS : Aix est-il dans un autre fuseau horaire que Paris ? Il est 14 h 26 et la fenêtre commentaires indique "5.26 AM "...

19 mars, 2005 14:28  
Blogger Jean Véronis a écrit...

> Je demande présentement et solemnellement

Allez, accordé ! Je vous faire.. confance pour les utiliser avec pertinence, car vous savez qu'écrire c'est vivre, et donc... qu'écrire bien, c'est vivre bien ;-)

19 mars, 2005 19:32  
Anonymous Anonyme a écrit...

> Quant à Google, eh bien j'abandonne : une recherche sur tout le Web donne 537
> résultats, et une recherche restreinte aux pages francophones en donne 1290.

Peut-être que Google s'impose de répondre au bout d'un temps fixe donné et non pas après avoir parcouru tout son index ? Peut-être aussi que selon le mot demandé Google n'a peut-être pas encore fabriqué d'index global sur toutes les pages ? Peut-être donc que les premières fois qu'une recherche est lancée sur certains mots, elle coûte simplement plus en temps lorsque l'on demande d'analyser toutes les pages du Web que juste sur les pages francophones ? Sept mois plus tard, en tout cas pour "glissance", les résultats ne sont plus du tout les mêmes et paraissent cohérent... comme si la création d'un index global pour ce mot avait été terminé ?

09 novembre, 2005 21:03  
Blogger Jean Véronis a écrit...

Christian> Non, c'était plus compliqué. J'ai tout expliqué . Effectivement, à la suite de mon étude (qui a fait pas mal de bruit) ils ont (au moins partiellement) corrigé!

09 novembre, 2005 21:06  
Blogger MISS L.F. a écrit...

Votre article sur l'ahurissante "glissance" semble être passé à côté de l'effondrante "consultance", désignant l'activité du "consultant" - du conseiller, en français - selon le CSTB et même selon quelques universités françaises qui délivrent des diplômes de "consultance".

Cordialement,

Miss LF

16 mai, 2008 11:19  

Enregistrer un commentaire

lundi, mars 14, 2005

Texte: Le flot de l'histoire

History Flow, le "flot de l'histoire", voilà un bien joli nom pour cet outil créé par Fernanda Viégas et Martin Wattenberg du groupe de recherche "Collaborative User Experience" d'IBM. History Flow permet de visualiser l'enchevêtrement complexe des révisions que subissent les textes électroniques, tels que les wikis :


Entrée Islam dans Wikipedia (cliquez pour agrandir)

L'image ci-dessus montre l'évolution de l'entrée Islam dans Wikipedia (anglophone). Chaque couleur correspond à un auteur. Le diagramme dans la partie gauche montre la contribution de chaque auteur au cours des révisions, tandis que la partie droite affiche le texte, avec les mêmes couleurs indiquant les parties dues aux différents auteurs. On voit l'évolution, l'accroissement de l'entrée, l'apparition et la disparition de rédacteurs, les accidents (les bandes noires verticales indiquent des actes de vandalisme, pendant lesquels l'entrée a été totalement détruite -- et heureusement restaurée aussitôt).

C'est un outil superbe. Sur son site original, vous pourrez voir une galerie de très belles images pour quelques entrées choisies de Wikipedia. Chaque entrée a sa "physionomie". Il y a des entrées calmes, qui progressent tout doucement (comme love), d'autres qui sont très agitées (comme abortion...). Est-ce que ça ne serait pas fantastique d'avoir cet outil de visualisation disponible en permanence sur les pages de Wikipedia -- et pourquoi pas de notre propre traitement de texte ? On pourrait lire les textes avec une troisième dimension, celle du temps...

L'outil date de 2003, et je l'avais un peu mis aux oubliettes des prototypes regrettés, mais Fernanda m'a dit il y a quelques jours qu'IBM travaille à une version Open Source, qui devrait voir le jour bientôt ! Je l'attends avec impatience.

J'avais mentionné il y a quelque temps, dans un billet intitulé La mort des brouillons, la parenté entre les wikis et les brouillons d'écrivains. Bien sûr, History Flow n'a peut-être pas encore la magie de ces vieilles pages raturées à la plume, mais ça n'est qu'un début...


Voir l'exposition Brouillons d'Ecrivains à la BnF

Peut-être que certains de nos auteurs illustres n'auraient pas dédaigné l'outil wiki. Après tout, l'impression de l'oeuvre, n'est-ce pas cela la première mort du brouillon ? Jusque là, l'oeuvre vit, se modifie, se détruit, se restaure, au rythme du rêve de l'écrivain, de ses doutes, de ses regrets. La presse écrase le rêve sans pitié. Voilà l'oeuvre figée à jamais, et les éditions futures n'y peuvent grand-chose.

Je pense à Jules Verne, par exemple, dont on parle beaucoup ces temps-ci. Quand il s'est mis à lier après coup plusieurs de ses romans (20 000 Lieues sous le Mers, Les Enfants du Capitaine Grant, L'Ile Mystérieuse), n'aurait-il pas rêvé de pouvoir revenir en arrière, adapter les lieux, les faits, les dates, les personnages, l'ambiance ? Il est vrai qu'il a utilisé l'hypertexte de l'époque, les notes de bas de page, pour essayer de contourner les incohérences et les difficultés, mais, franchement, le résultat n'est pas extraordinaire, contrairement à ses Voyages... Peut-être qu'un jour (quelques décennies? quelques siècles ?) l'oeuvre littéraire ne sera plus figée dans son impression, mais dynamique, mouvante et changeante ?

Le wiki... tiens voilà une invention qu'il n'avait pas imaginée, notre grand Jules !

Voir aussi

19 mar - Une montagne de mails



8 Commentaires:

Blogger J2J2 a écrit...

J'avais déjà vu il y a une dizaine d'années un système de ce style (le snapshot était très ressemblant) dans un numéro de "Recherche". Ce système permettait entre autre d'avoir une vision synthétique des changements du code source. Ces systèmes sont très utiles en développement lorsqu'ils sont couplés à un système CVS. En effet, ils permettent de mettre en relief les lignes "chaudes" dans des sources: les lignes souvent modifiées sont celles qui posent des problèmes, celles qui ont été souvent corrigées.
Il est certain que dans quelques années, il en sera de même pour l'édition des documents, et les Wikis en sont une bonne première illustration.
Bref... vive les CVS-like qui apportent la dimension temporelle aux documents.
Mais ce n'est qu'un premier pas. Dans un avenir proche, le contrôle de version sera nativement intégré au filesystem des systèmes d'exploitation. Il suffit d'aller voir les fonctionalités promises par le projet Storage de Gnome (projet qui se veut un "concurrent" au futur système de fichier de Microsoft Longhorn) pour se rendre compte de l'importance des mutations qui nous attendent dans ce domaine.

14 mars, 2005 23:18  
Anonymous Anonyme a écrit...

Bonjour Jean,
Ne conviendrait-il pas ici de traduire flow par flux plutôt que par flot ? Flot évoque un mouvement d'eau aléatoire, erratique, et flux davantage un écoulement qui va dans un sens donné (le sens de l'histoire en l'occurrence !)

15 mars, 2005 18:09  
Blogger Jean Véronis a écrit...

Fuligineuse> Voilà encore un domaine où le français et l'anglais ne découpent pas vraiment le monde de la même façon... C'est vrai que "flow" a une connotation plus fluide que "flot", mais on le traduit quand même souvent par "flot" ("the flow of thought" - "le flot des pensées", etc.). Ca sonne quand même mieux que "flux"... On pourrait dire "courant", aussi. Le "courant de l"histoire"... Mais en fait, j'aime bien "flot", parce que justement "flot évoque un mouvement d'eau aléatoire, erratique" comme vous dites, et c'est bien ça que je vois dans ces entrées de la Wikipedia. C'est bien plus mouvementé qu'un doux fleuve tranquille, et c'est d'ailleurs assez fascinant !

15 mars, 2005 21:03  
Blogger Jean Véronis a écrit...

Lignite> Tiens, nos messages se sont entremélés (avec ma réponse à Fuligineuse). Ce serait amusant de visualiser ces entrelacs avec History Flow ;-)

Merci pour cete citation d'Eco ! "Les récits déjà faits nous apprennent aussi à mourir". Terrible, mais sans doute un peu vrai. L'oeuvre "ouverte", modifiable, hypertextuelle, est peut-être un moyen bien dérisoire d'essayer de contourner la mort -- et pas seulement celle "des brouillons"...

15 mars, 2005 21:08  
Anonymous Anonyme a écrit...

"Les récits déjà faits nous apprennent aussi à mourir"

On peut inverser l'argument (ce qui était en partie le constat du premier billet sur la disparition des brouillons) : le récit tout fait, et son support imprimé, nous font croire à l'immortalité de l'oeuvre par delà la mortalité de l'auteur, tandis que le récit en constant remaniement, rend l'oeuvre tout aussi éphémère, voire plus, que l'auteur.

Combien reste-t-il après 30 remaniements de la contribution du premier auteur dans une encyclopédie wiki ? :/

16 mars, 2005 18:53  
Blogger J2J2 a écrit...

"A l'heure du SMS et des messageries instantanées, y-a-t-il encore de la place pour l'écrit littéraire ? Petits îlots de résistance, les ateliers d'écriture sont des loisirs créatifs qui s'adressent à tous et connaissent un succès croissant."A lire sur l'Internaute

17 mars, 2005 09:51  
Blogger Jean Véronis a écrit...

>y-a-t-il encore de la place pour l'écrit littéraire ?

Je suis optimiste! Non seulement la planète n'a jamais autant écrit (millions de blogs, chats, forums, etc.), mais elle n'a jamais autant lu (c'est ce qui ressort du Salon du Livre, qui se tient en ce moment même).

18 mars, 2005 12:28  
Anonymous Anonyme a écrit...

Étrangement, ce qui m'a frappé en premier dans la capture d'écran, c'est l'aspect d'art - ou plus précisément, de tableau - du résultat.

Á quand la première rétrospective History Flow à Pompidou...?

18 mars, 2005 12:49  

Enregistrer un commentaire

dimanche, mars 13, 2005

Web: Google ajuste ses comptes




Lire la suite

23 mar - Google: 5 milliards de "the" sont partis en fumée



Dans une précédente étude, j'ai montré que les comptes de Google étaient probablement augmentés artificiellement et d'une façon substantielle :
Les Googlers ont dû se sentir légèrement embarrassés, et depuis que l'étude a été publiée (8 fév.), les comptes de Google ont été ajustés de façon importante pour corriger la situation. J'ai testé les mêmes listes de mots en anglais et en français un mois plus tard, le 8 mars, et les chiffres ont radicalement changé.

Les comptes pour les mots anglais (option "tout le Web") ont légèrement diminué (d'un facteur de 0.8), tandis que les comptes pour les mots français sont stables.



Mots anglais (Web)

Mots français (Web)

Cependant, au même moment, les comptes pour des recherches restreintes respectivement aux pages en anglais et en français ont augmenté, de 1.2 pour l'anglais et 1.4 pour le français.


Mots anglais (pages en anglais)

Mots français (pages en français)

Ceci signifie que les rapports Web/anglais et Web/français ont changé d'une façon radicale. Ils atteignent maintenant 84% pour l'anglais et 78% pour le français. Si nous supposons que les proportions données par Yahoo sont correctes, cela nous donne une estimation de 90% pour la taille de l'index principal pour l'anglais et 80% pour le français. Ceci constitue un changement majeur par rapport aux 60% dont je faisais état début février, et amène Google plus près de chiffres crédibles, tels que ceux de Yahoo. La figure ci-dessous résume la situation.



Anglais

Français

Il est intéressant de noter que rien n'a vraiment changé chez MSN, et que leurs résultats semblent toujours augmentés artificiellement de la même façon qu'avant [voir étude sur MSN]. Les proportions chez Yahoo sont identiques, bien que leurs comptes absolus aient récemment doublé [voir étude sur Yahoo] -- ils sont donc consistants, comme précédemment.

Il y a évidemment deux hypothèses pour expliquer les changements :
  • Un certain nombre de pages qui étaient simplement listées comme URL dans l'index supplémentaire sont maintenant pleinement indexées, et la taille de l'index principal s'est donc considérablement accrue.
  • La proportion des deux index est toujours la même, mais des formules d'extrapolation plus astucieuses sont en train d'être développées, qui pourraient à terme cacher l'organisation en deux index.
J'espère bien entendu que c'est la première hypothèse qui est la bonne, mais c'est impossible à déterminer dans tests additionnels.

Si l'on décide de croire les nouveaux comptes de Google et Yahoo, Yahoo indexe toujours plus de pages que Google, par un facteur de
  • 1.6 pour l'anglais ;
  • 1.8 pour le français.


Anglais


Français



Lire la suite

23 mar - Google: 5 milliards de "the" sont partis en fumée


Libellés :


4 Commentaires:

Anonymous Anonyme a écrit...

Malheureusement, j'ai tendance à croire à la deuxième solution ces derniers jours!
Il y a beaucoup de mouvement depuis la fin de l'année dernière dans l'index Google, et ce week-end n'a pas manqué à la règle des resultats jouant au "yoyo"...

Deux choses sont devenues très probables selon moi à la vue des dernières évolutions:
1) l'existance d'un index secondaire qui n'apparaissait pas dans les résultats et qui est en train d'être intégré petit à petit dans les résultats visibles. Cela penche donc pour l'augmentation de l'index, et est finalement logique. On se souvient du l'annonce du passage aux 8 milliards de pages. On ne pouvait pas croire que Google avait doublé sont index en 15 jours...
2) cette réintégration se fait de manière chaotique, étrange, incompréhensible... les data-centers bougent dans des directions qui ne semblent pas liées entre elles... ce qui penche pour, non pas forcément des formules d'extrapolation, mais en tout cas des méthodes cachant totalement l'organisation de l'index à toute étude mathématique.

Je pense donc que petit à petit les chiffres annoncés se rapprocheront de la "réalité" sans jamais l'atteindre du fait des évolutions et mises à jour desormais permanantes des index. Mais j'ai l'impression ces dernière semaines que la pertinance des résultats Google s'éloigne de ce que nous aimerions être une certaine "logique sémantique"... J'aimerais beaucoup avoir votre vision de cela: n'avez vous pas l'étrange impression que Google parle de moins en moins la même langue que les êtres humains?

14 mars, 2005 12:11  
Anonymous Anonyme a écrit...

Bon, ce n'est pas spécialement le sujét d'origine... mais je reviens sur ma question du moment: les moteurs parlent-ils le même language que nous?
Tout juste posté mon premier commentaire qu'un post proche de ce thème dans les questions qu'ils pose me viens de... microsoft!
http://blogs.msdn.com/michkap/archive/2005/03/13/394979.aspx
J'avais oublié les premiers post de ce blog qui nous donnent peut-être, à défaut d'une solution technique, une des approches de microsoft en la matière...
http://blogs.msdn.com/michkap/archive/2005/03/08/389360.aspx
http://blogs.msdn.com/michkap/archive/2005/03/08/389675.aspx
http://blogs.msdn.com/michkap/archive/2005/03/13/394822.aspx

C'est incroyable comme, enfermé dans mes problèmes techniques, je ne regarde pas assez souvent les choses non pas simples mais du moins logiques et naturelles venues du language! Merci... c'est un régale d'avoir votre point de vue régulier et "hors du temps" sur nos outils quotidiens!

14 mars, 2005 12:33  
Blogger J2J2 a écrit...

Encore un billet qui va dans le sens de mes propos: Mettre en place un moteur de recherche communautaire, basé sur une technologie open source (donc transparente), financé par des dons (pour préserver toute indépendance) et offrant une transparence totale sur le contenu de ses index. Voir mon dernier billet à ce sujet.
Un telle approche éviterais de devoir faire constamment du "reverse engineering" sur le fonctionnement des majors de la recherche sur Internet...

pour info, je viens de tomber sur une page de Greg R. Notes qui laisserait croire que les URLs non indexées par Google sont tout de même dans la liste des résultats:
http://www.searchengineshowdown.com/features/google/unindexed.shtml

15 mars, 2005 10:01  
Blogger Jean Véronis a écrit...

>Mettre en place un moteur de recherche communautaire, basé sur une technologie open source

Oui! Je viens de voir cette proposition sur votre billet très intéressant. Cela me paraît également être une priorité, à la fois scientifique (comment utiliser des moteurs qui retournent des résultats incontrôlable pour les études linguistiques ?) et politique (comment accepter que l'accès à l'information planétaire soit filtré par deux ou trois compagnies multinationales qui pourraient jouer tous les rôles de filtre et de manipulation qu'elles souhaiteraient ?).

Il y a eu une petite discussion sur ça hier sur la liste Corpora, et mon collègue lexicographe Adam Kilgarriff a exprimé aussi ce voeu d'un moteur ouvert. Adam cite un papier à lui et le projet WaCky.

A suivre !

15 mars, 2005 10:17  

Enregistrer un commentaire