Conf: Big Data et Technologies du Langage
Je fais une présentation demain matin dans le cadre des Assises du Big Data, du Stockage et des Bases de données organisée pas le CRIP. Pour ceux que cela intéresse et qui ne pourraient pas y être (et même pour les autres), voici un petit résumé :
Big data et technologies du langageVoici également les slides. Je ne sais pas si elles sont totalement compréhensibles sans le discours, mais je suis tout à fait prêt à en discuter en commentaires !
Jean Véronis
Les données massivement accumulées par des sociétés comme Google ont permis des avancées considérables dans le traitement du langage humain par des machines (recherche d'information, traduction automatique, etc.). En quelques années, plus de progrès ont été accomplis que dans le demi-siècle qui a précédé, au risque d'une certaine frustration pour le chercheur qui peut avoir à juste titre l'impression que la compréhension des phénomènes lui échappe. L'exposé décrira ces progrès, ainsi que les défis qui restent à relever et qui peuvent changer la face de l'accès à l'information au cours des décennies à venir.
12 Commentaires:
salut Jean.
Belle présentation. Dans les problèmes (tu en parleras surement), celui qui me semble essentiel est celui de la maîtrise des corpus (voir par exemple ici : http://affordance.typepad.com/mon_weblog/2012/02/far-web-near-me.html)
Amitiés
Olivier.
J'aime beaucoup cette question : "Les Big Data ne nous mettent-elles pas dans le même inconfort intellectuel que la physique quantique ?".
Je pense effectivement que la réponse est oui !!!
Pour les antécédents lire plutôt de Umberto Eco, La recherche de la langue parfaite.
Olivier> Merci pour ton lien (que je remets ici cliquable). J'avais vu passer ton billet, sans avoir hélas le temps de commenter. Une de tes remarques m'avait frappé. En substance tu dis que dans l'histoire des sciences d'ordinaire on établit des corpus de données après avoir mis au point des outils d'observation, alors qu'avec le Web c'est l'inverse. C'est tout à fait juste, et du coup, on en fait quoi de toutes ces données ?
J'ai moi-même coordonné de gros projets de collecte de corpus linguistiques dans les années 90, et j'ai finalement cessé, en constatant que nous avions finalement une "Data Overdose". Des tas de corpus, et nous n'avions ni outils, ni méthodes, ni personnel pour s'en servir...
Jérôme> C'est comme si on avait une bonne carte et une bonne boussole, mais qu'on soit totalement dans le brouillard. Navigation aux instruments...
Jacques> C'est mon livre de chevet -- la première lecture que je conseille à mes étudiants.
Je retiens "Il ne suffit pas d'avoir des données" (d'ailleurs, je m'en doutais un peu...)
En abordant les choses naïvement, on a cette série : données (= observations) -> confirmation/infirmation de modèles existants -> construction de nouveaux modèles dont la valeur prédictive est meilleure relativement aux "données".
Sauf que ce serait plutôt une boucle : modèles/outils -> observations (les données sont les "produits indirects" de ces modèles/outils) -> confirmation/infirmation -> construction de nouveaux modèles.
Voilà pour la démarche scientifique. Et la construction de nouveaux modèles suppose qu'on maîtrise bien les modèles en amont de l'agrégation de données... sans quoi on ne peut pas bâtir de modèles meilleurs, plus "intégrateurs". D'où, avec les big data, une difficulté nouvelle : la masse de données risque de faire oublier le fait qu'elles sont produites, que ces données sont déjà structurées par les outils de collecte. Imaginons par exemple que Google ait accès au nombre de visiteurs sur tous les sites du web... sans savoir combien de temps chaque visiteur passe sur chaque page : quelle fiabilité pour les prédictions relatives au fait de lire une page, de cliquer sur une publicité, etc.?
Ce qui me frappe, c'est plutôt ceci : le mot (paradoxal, donc) de "données/data" incite à invoquer tout de suite les modèles scientifiques (cf. la possibilité de construire des modèles épidémiologiques via des données web) alors que ce qui progresse le plus vite, ce sont des outils web (cf. Google Translate), construits empiriquement. Google Translate ne fait pas avancer la "science" de la traduction, seulement les outils mis à disposition des internautes.
En un mot: j'ai l'impression que le mouvement « Big Data » se nourrit de lui-même en se donnant de plus en plus de moyens empiriques pour récolter des données de plus en plus utiles (à quelques uns.) Et il y a sûrement des problèmes scientifiques nouveaux (notamment statistiques) liés à la gestion de ces quantités énormes de données, mais je ne comprends pas comment ces problèmes pourraient être propres aux données collectées -- je parierais plutôt sur le fait qu'ils surgissent de façon contingente. Moralité : je ne crois pas que ce soit comme si nous avions découvert un champ nouveau de la physique -- comme ce fut le cas pour la physique quantique !
Voilà pour quelques rêveries. En tous cas merci pour la présentation !
Cochonfucius> Oui, je crois qu'on est sur la même longueur d'onde !
L'annonce des "ngrams 2.0" de Google tombe à pic (ou alors, un jour trop tard pour la présentation) ! Je trouve intéressant que ces outils dépassent le TAL pour intéresser le grand public.
Bonjour Monsieur Véronis,
Excusez ma question de béotien. De quels logiciels dispose-t-on aujourd’hui pour résumer des documents (académiques, administratifs, techniques, financiers) de manière succincte et néanmoins pertinente et user-friendly? Il y a quelques mois, les média se faisaient l’écho d’un jeune britannique qui avait mis au point un logiciel du nom de summly. Je n’en trouve plus la moindre trace. Probablement encore une étoile filante de l’Internet. Y en a-t-il d’autres ?
Merci d’avance.
je tiens à vous féliciter pour le travail formidable que vous effectuer à travers ce blog.
Enregistrer un commentaire