Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, octobre 17, 2012

Conf: Big Data et Technologies du Langage

Je fais une présentation demain matin dans le cadre des Assises du Big Data, du Stockage et des Bases de données organisée pas le CRIP. Pour ceux que cela intéresse et qui ne pourraient pas y être (et même pour les autres), voici un petit résumé :

Big data et technologies du langage
Jean Véronis

Les données massivement accumulées par des sociétés comme Google ont permis des avancées considérables dans le traitement du langage humain par des machines (recherche d'information, traduction automatique, etc.). En quelques années, plus de progrès ont été accomplis que dans le demi-siècle qui a précédé, au risque d'une certaine frustration pour le chercheur qui peut avoir à juste titre l'impression que la compréhension des phénomènes lui échappe. L'exposé décrira ces progrès, ainsi que les défis qui restent à relever et qui peuvent changer la face de l'accès à l'information au cours des décennies à venir.
Voici également les slides. Je ne sais pas si elles sont totalement compréhensibles sans le discours, mais je suis tout à fait prêt à en discuter en commentaires !



12 Commentaires:

Anonymous olivier ertzscheid a écrit...

salut Jean.
Belle présentation. Dans les problèmes (tu en parleras surement), celui qui me semble essentiel est celui de la maîtrise des corpus (voir par exemple ici : http://affordance.typepad.com/mon_weblog/2012/02/far-web-near-me.html)
Amitiés
Olivier.

17 octobre, 2012 15:39  
Blogger J2J2 a écrit...

J'aime beaucoup cette question : "Les Big Data ne nous mettent-elles pas dans le même inconfort intellectuel que la physique quantique ?".
Je pense effectivement que la réponse est oui !!!

17 octobre, 2012 16:11  
Anonymous Jacques Bolo a écrit...

Pour les antécédents lire plutôt de Umberto Eco, La recherche de la langue parfaite.

17 octobre, 2012 16:20  
Blogger Jean Véronis a écrit...

Olivier> Merci pour ton lien (que je remets ici cliquable). J'avais vu passer ton billet, sans avoir hélas le temps de commenter. Une de tes remarques m'avait frappé. En substance tu dis que dans l'histoire des sciences d'ordinaire on établit des corpus de données après avoir mis au point des outils d'observation, alors qu'avec le Web c'est l'inverse. C'est tout à fait juste, et du coup, on en fait quoi de toutes ces données ?

J'ai moi-même coordonné de gros projets de collecte de corpus linguistiques dans les années 90, et j'ai finalement cessé, en constatant que nous avions finalement une "Data Overdose". Des tas de corpus, et nous n'avions ni outils, ni méthodes, ni personnel pour s'en servir...



17 octobre, 2012 21:14  
Blogger Jean Véronis a écrit...

Jérôme> C'est comme si on avait une bonne carte et une bonne boussole, mais qu'on soit totalement dans le brouillard. Navigation aux instruments...

17 octobre, 2012 21:16  
Blogger Jean Véronis a écrit...

Jacques> C'est mon livre de chevet -- la première lecture que je conseille à mes étudiants.

17 octobre, 2012 21:17  
Anonymous Cochonfucius a écrit...

Je retiens "Il ne suffit pas d'avoir des données" (d'ailleurs, je m'en doutais un peu...)

18 octobre, 2012 13:10  
Anonymous Anonyme a écrit...

En abordant les choses naïvement, on a cette série : données (= observations) -> confirmation/infirmation de modèles existants -> construction de nouveaux modèles dont la valeur prédictive est meilleure relativement aux "données".

Sauf que ce serait plutôt une boucle : modèles/outils -> observations (les données sont les "produits indirects" de ces modèles/outils) -> confirmation/infirmation -> construction de nouveaux modèles.

Voilà pour la démarche scientifique. Et la construction de nouveaux modèles suppose qu'on maîtrise bien les modèles en amont de l'agrégation de données... sans quoi on ne peut pas bâtir de modèles meilleurs, plus "intégrateurs". D'où, avec les big data, une difficulté nouvelle : la masse de données risque de faire oublier le fait qu'elles sont produites, que ces données sont déjà structurées par les outils de collecte. Imaginons par exemple que Google ait accès au nombre de visiteurs sur tous les sites du web... sans savoir combien de temps chaque visiteur passe sur chaque page : quelle fiabilité pour les prédictions relatives au fait de lire une page, de cliquer sur une publicité, etc.?

Ce qui me frappe, c'est plutôt ceci : le mot (paradoxal, donc) de "données/data" incite à invoquer tout de suite les modèles scientifiques (cf. la possibilité de construire des modèles épidémiologiques via des données web) alors que ce qui progresse le plus vite, ce sont des outils web (cf. Google Translate), construits empiriquement. Google Translate ne fait pas avancer la "science" de la traduction, seulement les outils mis à disposition des internautes.

En un mot: j'ai l'impression que le mouvement « Big Data » se nourrit de lui-même en se donnant de plus en plus de moyens empiriques pour récolter des données de plus en plus utiles (à quelques uns.) Et il y a sûrement des problèmes scientifiques nouveaux (notamment statistiques) liés à la gestion de ces quantités énormes de données, mais je ne comprends pas comment ces problèmes pourraient être propres aux données collectées -- je parierais plutôt sur le fait qu'ils surgissent de façon contingente. Moralité : je ne crois pas que ce soit comme si nous avions découvert un champ nouveau de la physique -- comme ce fut le cas pour la physique quantique !

Voilà pour quelques rêveries. En tous cas merci pour la présentation !

18 octobre, 2012 17:23  
Blogger Jean Véronis a écrit...

Cochonfucius> Oui, je crois qu'on est sur la même longueur d'onde !

18 octobre, 2012 21:48  
Blogger Quentin a écrit...

L'annonce des "ngrams 2.0" de Google tombe à pic (ou alors, un jour trop tard pour la présentation) ! Je trouve intéressant que ces outils dépassent le TAL pour intéresser le grand public.

19 octobre, 2012 12:11  
Anonymous Michel G. a écrit...

Bonjour Monsieur Véronis,

Excusez ma question de béotien. De quels logiciels dispose-t-on aujourd’hui pour résumer des documents (académiques, administratifs, techniques, financiers) de manière succincte et néanmoins pertinente et user-friendly? Il y a quelques mois, les média se faisaient l’écho d’un jeune britannique qui avait mis au point un logiciel du nom de summly. Je n’en trouve plus la moindre trace. Probablement encore une étoile filante de l’Internet. Y en a-t-il d’autres ?

Merci d’avance.

19 octobre, 2012 14:08  
Anonymous Lisa a écrit...

je tiens à vous féliciter pour le travail formidable que vous effectuer à travers ce blog.

30 janvier, 2013 11:30  

Enregistrer un commentaire