Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

lundi, avril 25, 2005

Texte: Constitutions parallèles

Lars Nygaard (Université d'Oslo) et Jörg Tiedemann (Rijksuniversiteit Groningen) mettent à notre disposition les 21 langues de la constitution européenne sous forme de textes parallèles : chaque phrase est alignée avec la phrase correspondante dans les 20 autres versions (ce qui fait 210 couples !).

Pierre de rosette

L'alignement a été obtenu automatiquement, et il subsiste donc quelques petites erreurs, mais les meilleurs outils actuels savent aligner ce type de texte avec jusqu'à 98% de résultats corrects. On peut télécharger l'ensemble (attention, 67 Mo !) ou un couple de langues particulier. Lars et Jörg ont également réalisé un concordancier (c'est-à-dire un moteur de recherche qui permet de voir toutes les occurrences d'un mot en contexte, du type de celui que j'ai mis à votre disposition il y a quelques jours), mais en version bilingue. Cherchez dans une langue, et vous avez les résultats dans une ou plusieurs autres au choix. Idéal pour les traducteurs, et simplement pour tous ceux qui veulent perfectionner leurs langues !

Exemple : Comment se dit abrogé en anglais ? Réponse : repealed.

exemple de concordance bilingue

Un bel outil, bravo !


La langue de l'Europe c'est la traduction
Umberto Eco


1 Commentaires:

Blogger Jérôme Charron a écrit...

Une autre ressource (que nous utilisons d'ailleurs dans Nutch pour construire les fichiers de référence pour l'identification automatique de la langue):
European Parliament Proceedings Parallel Corpus 1996-2003 (l'outil d'alignement est également téléchargeable).
Attention, la taille totale des textes (non alignés) représente tout de même 559 Mo pour les langues suivantes: da, de, el, en, es, fi, fr, it, nl, pt, sv.
Il y a également des versions déjà alignées téléchargeables.

25 avril, 2005 11:20  

Enregistrer un commentaire