Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

dimanche, décembre 26, 2004

Parole: Opera parlant

Opera vient d'annoncer la nouvelle version (en cours de test, téléchargeable ici) de son navigateur libre (voir communiqué de presse). Cette version intègre reconnaissance et synthèse de la parole : l'utilisateur peut naviguer à l'aide de commandes vocales ("lien suivant", "retour", etc.), et le navigateur peut lire les pages Web à la demande. La technologie intéressera malvoyants et handicapés moteurs, mais il y a gros à parier qu'on la retrouvera aussi dans les navigateurs pour téléphones portables, sur lesquels l'ergonomie des claviers et la taille des écrans laissent quelque peu à désirer ! Opera offre justement une version "mobile" de son navigateur. Tout cela préfigure aussi peut-être les sites web du futur qui permettront une interaction parlée, à travers des standards tels que VoiceXML ou XHTML+Voice.

0 Commentaires:

Enregistrer un commentaire

Web: Les mots-clés 2004

Comme chaque année, Google publie la liste des requêtes les plus fréquentes par pays (sans doute quelque peu filtrées, car même si les requêtes liées au sexe diminuent --voir ce blog-- elles doivent néanmoins figurer en bonne place !). Pour la France, la requête gagnante est pages jaunes, suivie par SNCF, France (surprenant, non ?), ANPE, Mappy, FNAC, eBay, etc. Désespérément ennuyeux : métro, boulot, conso. Heureusement, humour arrive en neuvième position. Ca nous sauve.

Et chez nos voisins ? Si on en juge par la requête numéro un, les allemands sont préoccupés par les itinéraires routiers, les italiens par la météo, les hollandais par le football, les espagnols et les anglais par les nouvelles, et les russes... par les papiers-peints !

6 Commentaires:

Blogger Martin Lessard a écrit...

"France (surprenant, non ?)"

En fait, les usagers utilisent des noms comme 'métadata', c'est à dire pour qualifier leur requête :

"Horaire train France" (permet de ne pas trouver d'horaire du Canadian Pacific) ou "Portable France" permet de restreindre la recherche au marché français.

France serait un métadata très utilisé, apparamment. J'ai recensé un comportement analogue dernièrement...

14 janvier, 2005 17:35  
Blogger Jean Véronis a écrit...

Ce commentaire a été supprimé par un administrateur du blog.

19 janvier, 2005 21:18  
Blogger Jean Véronis a écrit...

Ce commentaire a été supprimé par un administrateur du blog.

19 janvier, 2005 21:18  
Blogger Jean Véronis a écrit...

Ce commentaire a été supprimé par un administrateur du blog.

19 janvier, 2005 21:19  
Blogger Jean Véronis a écrit...

Sur le moment j'ai pensé que c'était sans doute la solution, mais à la réflexion j'ai un doute. Si l'on a "pages jaunes", c'est que Google nous donne bien les requêtes les plus fréquentes, et non les mots à l'intérieur de ces requêtes (on a aussi en 10ème position "Britney Spears"). Par contre, en regardant ce que propose Google Suggest après "France", je vois qu'on a "France 2" comme requête très fréquente. C'est peut-être simplement un filtrage bête qui supprime tout ce qui n'est pas un mot alphabétique...

19 janvier, 2005 21:23  
Blogger Martin Lessard a écrit...

Très plausible, en effet. Peut-être aussi que ce sont des étrangers (des américains?) qui tapent le mot pour faire des 'recherches touristiques'? France Travel, France Hotel. Alors qu'un Français aurait taper Paris Hotel. Hum...

29 janvier, 2005 06:05  

Enregistrer un commentaire

mercredi, décembre 15, 2004

Web: Ils marchent à quoi chez Google?

Il faudrait peut-être un contrôle anti-dopage, cette fois-ci... Il ne se passe presque plus un jour sans que Google nous annonce une nouveauté. Après la sortie de Google Scholar (voir sur ce blog) et Google Suggest (voir aussi sur ce blog) la firme a annoncé (voir dépêche Reuters) qu'elle va numériser quelques-unes des bibliothèques les plus importantes au monde (Harvard University, Stanford University, Oxford University, University of Michigan, New York Public Library) et permettre leur accès sur le Web à partir de son moteur de recherche. On pourra accéder gratuitement au texte intégral des oeuvres dans le domaine public et à des extraits des oeuvres sous copyright. Le site Google donne des explications sur ce programme, Google Print, ainsi que des exemples de requêtes. L'objectif annoncé est de 15 millions d'ouvrages en six ans. Les éditeurs sont également invités à intégrer leurs parutions dans le système (évidemment seuls des extraits seront accessibles). Il y aura bien sûr quelques liens publicitaires pour financer le tout, mais Google semble fidèle à sa politique de pub pas trop envahissante (pourvu que ça dure). Tout cela est assez fascinant. C'était peut-être la dernière chose qui manquait sur le Web pour la recherche : le contenu des bonnes vieilles bibliothèques papier. Si ce dernier bastion est en train de tomber, on peut parier que le travail de l'universitaire va se transformer de façon radicale.

Et notre chère BnF, elle ne prendrait pas un petit coup de vieux par hasard ? Le fonds numérisé Gallica était une bonne idée, mais il va falloir mettre le turbo... Peut-être en prenant du Google au petit déjeuner ?



0 Commentaires:

Enregistrer un commentaire

Handicap: Par la force de la pensée...

Quatre handicapés profonds ont été capable de contrôler des mouvements simples d'un curseur sur un écran à l'aide de leur seule pensée. L'information est déjà partout sur le Web, mais j'ai préféré prendre le temps de lire le compte-rendu de l'expérience qui paraît cette semaine dans les Proceedings of the National Academy of Sciences (déjà consultable en ligne ici). Je trouve inquiétante la propagation virale de nouvelles de blog en blog, sans que personne, finalement, ne retourne jamais aux sources... Mais ce serait l'objet d'un autre billet !

Si j'ai pris le temps de lire le détail, c'est qu'il y a déjà eu de nombreux travaux de ce type, et je me demandais donc quel était l'apport de cette nouvelle expérience. Les travaux antérieurs nécessitaient l'implantation d'électrodes dans le cerveau pour obtenir un contrôle correct. Les méthodes non-invasives (dans lesquelles les sujets ont seulement à porter une sorte de bonnet pourvu de capteurs) donnaient jusqu'ici des résultats médiocres, car les capteurs étaient perturbés par tout un tas d'ondes parasites. Jonathan Wolpaw et Dennis McFarland (New York State Department of Health et State University of New York in Albany) ont réussi a rendre ce type de méthode efficace à l'aide d'un algorithme adaptatif, c'est-à-dire qui s'améliore au fur et à mesure des essais.

Bien sûr, pour l'instant, les mouvements contrôlés sont rudimentaires, mais la technique ouvre un grand espoir aux paralysés complets ("locked-in syndrome" ou syndrome d'enfermement). On se souvient du livre Le Scaphandre et le papillon, écrit à la force des paupières. Que ce billet soit un petit clin d'oeil à son auteur, Jean-Dominique Bauby, qui nous a quitté en mars 1997...

Libellés :


0 Commentaires:

Enregistrer un commentaire

samedi, décembre 11, 2004

Blogs: A la Une de Libé

Libé consacre sa Une au phénomène des blogs sous le titre La Blog génération, et nous livre tout un dossier :


Cinq millions de blogs seraient actifs dont un million en français... Une véritable frénésie d'écriture s'est emparée de la planète en quelques mois. Cela ne devrait pas laisser le linguiste indifférent.

Libellés :


0 Commentaires:

Enregistrer un commentaire

vendredi, décembre 10, 2004

Web: Google devine la suite

Google est décidément dans une phase de productivité étonnante. Quelques jours après la sortie de l'époustouflant Google Scholar (voir ce blog), voici que les "Google Labs" lancent Google Suggest. Ce n'est pas une application à part entière comme Google Scholar, mais plutôt une fonctionnalité en cours de test, qui, si elle donne satisfaction, sera peut-être intégrée au bon vieux Google. La technologie est simple, mais étonnante. Dès que l'utilisateur a tapé la première lettre de sa requête, Google propose les requêtes les plus fréquentes qui commencent par cette initiale. Au fur et à mesure que l'on rentre de nouvelles lettres, Google affine ses propositions. Je ne sais pas si la fonctionnalité sera utile (justement, le rôle de ce site "bêta" est sans doute d'en tester la pertinence auprès du public), mais c'est assez amusant. Par exemple, on peut voir que la requête la plus fréquente commençant par br n'est pas Britney Spears, mais broadband, suivie par Brazil. Britney n'arrive qu'en troisième position.

Notre grand jeu de la semaine : votre nom est-il dans la base des requêtes fréquentes chez Google ? si oui, combien de lettres faut-il taper pour le déclencher ? Britney Spears apparaît au bout de 2 lettres, mais il faut 7 lettres pour déclencher Jean Véronis... Snif. Je dois être moins sexy (ou alors mon prénom est trop commun !).

2 Commentaires:

Blogger Estelle Campione a écrit...

Ben moi je suis pas connue du tout :(

10 décembre, 2004 22:06  
Blogger Jean Véronis a écrit...

Chris Justus fait une analyse du fonctionnement sur ce blog.

09 janvier, 2005 18:38  

Enregistrer un commentaire

jeudi, décembre 09, 2004

Blogs: Censure façon Microsoft

Microsoft a lancé le 1er décembre sa plate-forme de blogs MSN Spaces, en 15 langues et 26 pays. Aussitôt les critiques fusent de toutes parts. Big brother is watching you... Microsoft censure ses blogs. Si l'on peut sans doute souscrire à l'idée de bannir pornographie, pédophilie, néo-nazisme et autres déviances de toutes sortes, on peut être en même temps très fortement inquiet sur le pouvoir exorbitant d'une telle firme internationale sur la liberté d'expression : la firme peut censurer ce qu'elle veut, sans en rendre compte à personne... Ce qui peut faire rire c'est la façon dont Microsoft s'y prend pour interdire les blogs douteux, apparemment basée sur la détection de mots-clés dans les titres. Ainsi, impossible de créer des blogs dont le titre comporte des mots tels que pornographie ou lolita. Impossible donc de créer un blog de littérature sur le roman Lolita de Vladimir Nabokov, comme le remarque l'auteur de ce post sur BoingBoing. Il est par contre totalement possible de créer des blogs intitulés "Fumer du crack : un guide pratique à l'usage des adolescents"... La censure est toujours inquiétante, surtout dans les mains de multinationales, mais lorsqu'on la confie à des robots niais, je ne sais pas s'il faut rire ou pleurer.

Libellés :


0 Commentaires:

Enregistrer un commentaire

mercredi, décembre 08, 2004

Document: Reconnaissance de l'écriture manuscrite

Dans un numéro spécial de La Recherche de 1986 sur l'Intelligence Artificielle, un article entier était consacré à la reconnaissance de l'écriture manuscrite. Le problème apparaissait déjà comme difficile, et la situation n'a guère changé, bien que les recherches sur le sujet se soient faites beaucoup plus clairsemées. La saisie sur tablette graphique a beaucoup progressé, mais elle nécessite encore un jeu de signes particulier, ou, sinon, un grand soin dans la formation des lettres (toubibs, évitez !). La reconnaissance en différé, de documents écrits tout bonnement à l'encre sur du papier, est bien plus délicate, puisqu'une information importante manque, celle de la dynamique du tracé. Il ne reste que l'image finale, qu'il faut analyser. Pour l'instant, la technique est surtout appliquée, avec un bon taux de réussite, aux codes postaux ou aux chèques bancaires. Le projet de l'Université du Massachussets Amherst est donc ambitieux. Il ne s'agit pas moins que de numériser les 140 000 pages des écrits de George Washington, conservés à la librairie du Congrès. La presse a largement relayé la dépêche du service de presse de l'université (voir par exemple ici). Comme trop souvent, toute prudence est oubliée et le problème est présenté comme résolu : il y a même une démonstration en ligne ! Cette démonstration est d'ailleurs très intéressante : on peut interroger un échantillon de 1000 pages en direct, et c'est une visite à conseiller à nos étudiants. En lisant plus en détail les travaux des chercheurs du projet (par exemple leur papier à ACM SIGIR'2004), on s'aperçoit cependant que les résultats sont encore modestes. Sur l'échantillon de 1000 pages, ils obtiennent un taux de précision de 40 à 50%, ce qui est honnête dans l'état actuel des choses, mais guère plus. La méthode est intéressante, en tous cas, et c'est de la bonne recherche. L'Université du Massachussets Amherst aurait simplement pu mentionner les performances dans sa dépêche. Mais il est vrai que cela aurait eu sans doute moins d'effet auprès des trustees et autres bailleurs de fonds...

0 Commentaires:

Enregistrer un commentaire

mardi, décembre 07, 2004

Web: Accoona nous promet l'IA...

Lancement à grands coups de trompettes (et non de saxo) d'un nouveau moteur de recherche, Accoona (voir ABC News). Pour annoncer la chose, rien de moins que l'ancien Président Bill Clinton, qui a décidemment bien des ennuis financiers depuis qu'il a perdu son job (ça ne m'étonnerait pas qu'il en soit réduit bientôt à faire des promos pour des cigares dans les boîtes de nuit new-yorkaises...). Les pages d'aide du site Acoona nous promettent rien de moins qu'une technologie sophistiquée basée sur l'Intelligence Artificielle. Bien sûr, j'ai essayé de tester aussitôt, mais le moteur est sans doute victime de son coup de pub, comme certains sur-doués qui finissent par devenir autistes (c'est le syndrome d'Asperger, ça ne s'invente pas) : il m'a fallu une bonne douzaine d'essais avant d'arriver à caser une requête. Rien de bien spectaculaire, et en fait plein de fonctionnalités manquent, comme la reconnaissance de la langue. La seule chose visible de toute cette Intelligence Artificielle promise est une série de petites boîtes à cocher qui correspondent aux mots-clés tapés, et qui permettent de relancer la requête en accentuant l'un ou l'autre. J'ai essayé sur "pipe" et "cigare", et franchement, en cochant l'un, l'autre, ou rien du tout, ça m'a donné à peu près la même chose, c'est-à-dire un peu n'importe quoi. SearchengineWatch propose une analyse un peu plus détaillée, qui confirme qu'il y a encore du boulot !

Au fait, Accoona, ça vient de Hakuna (Matata), vous vous rappelez le Roi Lion. Ca veut dire "t'en fais pas" en Swahili. Don't worry, be happy... and make a lot of money.


1 Commentaires:

Anonymous Anonyme a écrit...

le referencement sera t-il simple sur http://www.accona.eu

06 juillet, 2006 06:26  

Enregistrer un commentaire

lundi, décembre 06, 2004

Parole: Synthétiseur MDR

La synthèse de la parole a atteint des niveaux de qualité impressionnants et nous envahit peu à peu (même le Père Noël s'y met, voir sur ce Blog), mais l'humour n'est pas exactement le point fort des systèmes... Shiva Sundaram, un étudiant de l'University of Southern California, a fait sensation en présentant un très sérieux synthétiseur de rires au 148th Meeting of The Acoustical Society of America. Pour l'instant le système est encore un peu coincé, mais les débuts sont prometteurs. Des exemples peuvent être écoutés en ligne sur la page de Shiva (qui, à part son sens aigu de l'humour, semble avoir une perception un peu curieuse des couleurs, mais bon...). Parmi les premières applications, les jeux vidéos, bien sûr. Et nous aurons très certainement dans un futur prédictible un remplacement des rires en boîtes par des rires de synthèse dans nos séries américaines adorées (en attendant le remplacement de la Nounou d'Enfer, désormais quinquagénaire, par un avatar 3D pour la tant-attendue 7ème saison). Un vrai progrès social : vous imaginez la fatigue à la fin d'une journée d'enregistrements à la chaîne de rires en boîte ?

0 Commentaires:

Enregistrer un commentaire

vendredi, décembre 03, 2004

Web: Google News nous fait rire (et rêver !)

Je regarde Google News avec admiration depuis quelques mois. Pour quelqu'un qui sait à quel point l'automatisation des tâches les plus élémentaires est acrobatique lorsqu'il s'agit du langage, ce système simple et sobre a quelque chose de magique. Les nouvelles sont regroupées automatiquement et en continu en fonction de leurs thèmes, et s'il y a bien quelques couacs de temps à autre, il faut vraiment chercher très fort pour les repérer. Je me demandais bien quand même si le système n'allait pas se prendre les pieds dans le tapis à un moment donné... Eh bien, c'est fait. La "top story" du 30 novembre (voir copie d'écran sur Zone-h) nous apprenait l'arrestation de George W. Bush à Ottawa pour crimes de guerre !
11/30/04 "ICH" -- Ottawa -- Canadian authorities have arrested US president George W. Bush in Ottawa. He has been charged with several offences under Canada's War Crimes Act. Vice-President Dick Cheney has mobilized the American military and all border crossings between the two nations have closed..."
Trop beau pour être vrai... L'algorithme a pris pour argent comptant la satire du site Axis Of Logic. Pourtant le site prévenait qu'il s'agissait d'une satire, mais ça, c'est encore un peu difficile pour le traitement automatique ! On peut rire, mais pas se moquer : pas plus tard que ce matin la BBC, qui n'est quand même pas un club d'amateurs, s'est faite piéger par les bonnes vieilles méthodes (agitateur au téléphone) et a annoncé (hélas à tort) que Dow Chemical reconnaissait enfin la responsabilité du drame de Bhopal et qu'elle indemniserait les victimes (Voir Libération).

Et en France? Je n'ai pas encore vu ce genre de gag, mais si les Google News se mettent à indexer le Canard Enchaîné, on n'a pas fini de rire...

2 Commentaires:

Anonymous Anonyme a écrit...

Dans le même style (pas tout à fait pareil mais...), récemment F2 avait annoncé un suicide collectif d'ados au Japon (à la suite d' "annonces" sur Internet). Je n'ai plus les références exactes mais l'histoire n'est pas vieille, elle doit remonter à peu près à la même époque.

Sophie www.enotes.tk

19 janvier, 2005 18:23  
Anonymous MKe a écrit...

Ca, là ?

http://www.u-blog.net/resetparam/2004/11/27

^^

11 mai, 2005 22:51  

Enregistrer un commentaire

Langues: Windows et Office en gallois

Quelques jours après l'annonce du lancement de Windows et Office en Quechua (voir sur ce blog), Microsoft annonce leur traduction en gallois (voir BBC News). Tout cela n'est pas très rentable énonomiquement... Peut-être que Microsoft essaie de changer son image en s'intéressant aux langues minoritaires et aux pays pauvres (voir partenariat récent de Microsoft avec l'Unesco). Peut-être la firme a-elle aussi quelques inquiétudes aussi du côté de Linux et des logiciels libres, qui sont justement fortement soutenus par l'Unesco...


0 Commentaires:

Enregistrer un commentaire

jeudi, décembre 02, 2004

Parole: Même le Père Noël !

Les sociétés S2i, Elix et Nu Echo ont mis au point une application basée sur la reconnaissance vocale, la synthèse de la parole et le standard VoiceXML, qui permet aux internautes d’inviter un enfant (ou un adulte au coeur d’enfant !) à avoir une interaction téléphonique personnalisée avec le Père Noël et Pixel, son lutin automatisé. Le site Web www.talktosantaclaus.com permet de fournir quelques informations générales sur le destinaire, qui permettent de personnaliser la conversation. La conversation peut se faire en français ou en anglais.

Je me suis demandé pourquoi le Père Noël ne répondait pas lui-même, et en fait j'ai compris : il y a en plus un système de traduction automatique, vu que tous les enfants du monde ne parlent pas la langue du Père Noël (au fait, quelle est-elle ? j'ai cherché vainement sur Ethnologue), et comme ça le Père Noël peut comprendre tout le monde et répondre à tous ;-)


0 Commentaires:

Enregistrer un commentaire

mercredi, décembre 01, 2004

Lexique: « Blog », mot de l'année

L'éditeur de dictionnaires Merriam-Webster a déclaré le mot « Blog » mot de l'année. En effet, c'est le mot qui a été le plus consulté en 2004 sur le dictionnaire Merriam-Webster Online. Les autres mots parmi les 10 premiers sont pour la plupart liés à des événements de l'année (election, hurricane, etc.). L'un de ces mots est fait pour nous plaire, à nous autres provençaux : cicada ;-)

Au fait, la définition de « Blog » est :
Blog noun [short for Weblog] (1999) : a Web site that contains an online personal journal with reflections, comments, and often hyperlinks provided by the writer
Il y a déjà des crispés de la langue française qui ont proposé blogue (les crispés de l'étymologie doivent avoir des crampes !).

0 Commentaires:

Enregistrer un commentaire

Langues: La Grèce rejoint la Francophonie

La Grèce rejoint l'Organisation de la Francophonie. Sans doute les Grecs partagent-ils quelques craintes avec les Français sur la place future de leur langue dans l'Europe où l'anglais gagne du terrain chaque jour : pour Marietta Giannakou, ministre de l'éducation, "On ne peut pas travailler en Europe seulement avec l'anglais". Afin de célébrer cet événement, les Etats Généraux de la Francophonie se dérouleront du 2 au 5 décembre 2004 à Athènes.

En savoir plus : Article du Courrier International.

0 Commentaires:

Enregistrer un commentaire