Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, octobre 18, 2005

Ortograf: Ça repart chez Microsoft

La plupart d'entre vous ont probablement raté le long commentaire de mon ami Thierry Fontenelle, chercheur chez Microsoft à Redmond, sur le billet "Correcteurs orthographiques en panne?" Il faut dire que ce commentaire est arrivé en plein pendant les vacances d'été... Je m'interrogeais sur l'apparente stagnation de la recherche dans le domaine, mais la réponse de Thierry montre que Microsoft a pleinement pris conscience de l'enjeu et que son équipe (le Speech & Natural Language Group) est à fond sur le sujet. Je recopie son commentaire ci-dessous, car il est trop dommage que cette réponse longue et documentée reste enfouie dans les commentaires d'un vieux billet (si, déjà vieux: le temps de la blogosphère est rapide, trop rapide!). J'en ai profité pour refaire ma petite évaluation...

Bonjour Jean,

Tout d’abord, un tout grand merci pour ce blog, tout aussi intéressant et passionnant que les précédents. Il a retenu toute mon attention parce qu’il traite justement de problèmes sur lesquels je viens de travailler ces derniers mois. En novembre dernier, nous (je parle ici de Microsoft, puisque c’est pour cette société que je travaille) avons sorti une nouvelle version de notre correcteur grammatical pour MS Word. En avril 2005, nous avons également mis gratuitement à la disposition des utilisateurs d’Office 2003 une version complètement remaniée du correcteur orthographique (voir ici pour savoir comment télécharger ce nouvel outil). Puis-je demander si ce sont ces deux nouvelles versions qui ont été utilisées dans le cadre de l’expérience menée sur cet article du Monde ? Je pense que ce n’est pas le cas car un test rapide vient de me montrer que certaines des fautes introduites intentionnellement dans cet article sont repérées et corrigées par le nouveau correcteur grammatical (notamment « a Singapour » --> « à Singapour », ou encore « a-t-il déclarer » --> a-t-il déclaré). J’ai aussi été surpris de voir que certaines chaînes de mots en majuscules étaient considérées comme des fautes (6,75 MILLIARDS D’EUROS…). Je ne suis pas parvenu à reproduire ce comportement avec le nouveau correcteur.

Je voulais préciser ici que nous ne nous désintéressons pas du tout de la recherche relative aux outils de correction linguistique, loin de là. J’en ai d’ailleurs parlé à Lorient l’an dernier lors du congrès de l’Association européenne de lexicographie, Euralex). Les deux produits que nous venons d’offrir gratuitement à nos utilisateurs francophones sont le fruit d’investissements importants et nous continuons à investir dans ce domaine pour améliorer ces outils et couvrir un plus grand nombre de langues. Nous sommes parfaitement conscients qu’ils ne sont pas infaillibles, mais je puis vous assurer que les nouvelles versions sorties ces derniers mois ont bénéficié d’améliorations plus que substantielles. Nous avons augmenté de plus de 10% le nombre de cas où la première proposition est la bonne, par exemple (par rapport au correcteur précédent). Nous avons aussi réduit de 74% le nombre de fausses alertes (le descriptif consultable ici donne de plus amples informations). La prise en compte de la féminisation des noms de métiers (j’en ai parlé brièvement ailleurs sur ce site il y a quelques semaines) et de l’orthographe recommandée par le Conseil Supérieur de la Langue Française et l’Académie Française est le résultat de notre souci de faire évoluer nos outils en même temps que la langue française et de répondre aux besoins de nos utilisateurs, tant en France qu’au Québec, en Belgique, en Suisse, en Algérie, au Maroc ou ailleurs.

Tous ces nouveaux outils sont également basés sur des analyses d’erreurs réelles (ce qui nous a justement permis d’améliorer la qualité des propositions de corrections). Dans l’expérience que tu décris, il est exact que ni le correcteur orthographique ni le correcteur grammatical ne sont en mesure (actuellement) de repérer la faute dans « les cinq vies candidates pour les JO 2012 ». Une rapide recherche sur le web (tant sur Google que sur MSN) montre que la chaîne « vies candidates » n’est pas présente sur le web (à part sur ce site ;-), ce qui démontre sans doute l’aspect artificiel de cette erreur de nature plus sémantique que grammaticale. Mais nous travaillons sur la question… (je ne peux en dire plus pour le moment ;-)

Il est un autre aspect sur lequel je souhaitais faire un commentaire. Les noms propres ont été intentionnellement ignorés dans l’évaluation. Je pense néanmoins qu’ils devraient être pris en compte lors du calcul de la précision et du rappel, qui utilisent la notion de bruit. Si on en tient compte, on s’aperçoit alors que la précision du correcteur de MS Word dépasse celle de la Toolbar de Google. Un exemple : là où Google montre que son lexique d’entités géographiques et de noms de personnes est très pauvre (Londres, Madrid, New York, Moscou, Singapour et Chirac… sont considérés comme des fautes au même titre que Londre et Chriac, le correcteur de MS Word ne soulignera que Londre et Chriac (à juste titre) et n’attirera pas inutilement l’attention de l’utilisateur sur des fautes qui n’en sont pas, tout en proposant les bonnes versions de ces noms propres en cas d’erreur). J’ai la faiblesse de croire que cet aspect est également important pour nos utilisateurs (de ce côté, je dois avouer que nos synergies avec nos collègues d’Encarta nous ont permis de bénéficier de leurs bases de données de termes géographiques et de personnages célèbres pour enrichir notre dictionnaire et ainsi réduire le bruit).

En guise de cerise sur le gâteau, je ne résiste pas à la tentation de donner quelques exemples de tournures fautives maintenant repérées par la nouvelle version du correcteur grammatical :

Si j’aurais su, je l’aurais fait.
Je m’ai trompé.
Je l’ai fait fonctionné.
Je les ai vu. (La correction propose ici « vus » ou « vues » puisque le contexte ne permet pas de lever l’ambiguïté)
Elle s’est cassée la jambe.
J’ai télécharger les mises à jour.
J’ai téléchargé les mises à jours.
Le gouvernement ne parle qu’en terme de budget et d’économies.

La concordance des temps, le choix de l’auxiliaire, l’accord du participe passé ou le choix du participe passé ou de l’infinitif comptent parmi les difficultés les plus répandues sur lesquelles ont porté les améliorations de ce correcteur.

Merci de m’avoir lu jusqu’ici, en espérant avoir pu contribuer à la discussion. Il reste effectivement beaucoup à faire, mais nous y travaillons. Merci aussi de nous faire part de tous ces commentaires très constructifs!

Thierry Fontenelle (Microsoft Speech & Natural Language Group)

J'avoue que j'avais loupé l'annonce de ce "patch" pour Office 2003 (et vous?). On s'y perd un peu dans tous les patches de Microsoft, à dire vrai, et je ne sais pas pourquoi celui-ci n'a pas été détecté automatiquement par le système de mise à jour automatique de Windows. Peu importe, je me suis évidemment jeté sur le lien que signale Thierry, et j'ai testé le nouveau correcteur. Je confirme donc tout ce que dit Thierry. J'espère pouvoir revenir plus tard dans un autre billet sur la "nouvelle orthographe" (qui n'est plus très nouvelle...), car le sujet mérite une discussion approfondie.

J'ai relancé mon évaluation de juillet avec le nouveau correcteur, et bien sûr avec la Toolbar de Google. Première constatation: la Toolbar n'a pas bougé d'un iota. Pourtant, il y avait matière à amélioration, au niveau des noms propres en particulier, et il n'est pas bien difficile, comme le fait remarquer Thierry, de se procurer de telles listes (je peux leur vendre la mienne ;-). J'avais exprimé mon admiration à propos de la nouvelle version de la Toolbar lorsqu'elle est sortie en février (voir ici), mais je dois dire que je suis déçu par sa non-évolution, malheureusement assez typique des produits Google. Les produits sortent des Google Labs avec une frénésie qu'on a parfois du mal à suivre, mais ils ont tendance ensuite à stagner indéfiniment, dans d'éternelles version bêta sur lesquelles il semble que plus personne ne travaille (je pourrais en dire autant d'autres fonctions que j'ai appréciées à leur sortie comme Google Suggest, Google News, etc.). Le but de tout cela n'est-t-il pas finalement de rechercher plutôt des effets d'annonce?

Par ailleurs, en reprenant mon évaluation, je suis tombé d'accord avec Thierry. Il faut intégrer les noms propres dans l'évaluation, car après tout, peu importe au rédacteur qu'il s'agisse d'un nom propre ou pas: ce qu'il souhaite c'est laisser le moins de fautes possibles dans son texte. Bien sûr, c'est extrêmement difficile pour les correcteurs, et en l'absence d'une correction contextuelle (il y a des pistes...), l'ajout d'une multitude de noms propres peu fréquents risque de plutôt détériorer les choses. Mais à charge pour les correcteurs de se débrouiller, de trouver les bons compromis et les bonnes astuces. L'utilisateur n'est intéressé que par le résultat! J'ai appliqué la même logique aux mots étrangers du texte, que j'avais dans un premier temps éliminés, me disant que c'était "trop difficile" pour les correcteurs. Pourtant, ils ont des capacités de détection de la langue; elles sont souvent mises en défaut sur des fragments très courts, mais à nouveau, aux correcteurs de se débrouiller.

Voici donc les nouveaux résultats (avec quelques petits correctifs sur ma version précédente, petites erreurs, différente façon de compter certains cas...). Comme vous ne partagez peut-être pas mon point de vue sur les noms propres et les mots étrangers, j'ai fait deux évaluations distinctes (je rappelle que le bruit est constitué des fausses alertes et que le silence correspond aux erreurs non repérées). Mes données sont disponibles aussi sous forme de fichier Excel ici.

%
BruitSilence
MSWord6,725,3
MSWord avec Patch1,721,3
Google1,724,0

Sans noms propres et mots étrangers

%
BruitSilence
MSWord21,723,5
MSWord avec Patch9,320,0
Google34,722,4

Avec noms propres et mots étrangers

On voit que, comme le disait Thierry, le bruit diminue dans des proportions considérables avec le patch. L'effet est particulièrement spectaculaire si on prend en compte les noms propres et mots anglais: plus du tiers des erreurs signalées par la Toolbar n'en sont pas, alors que cette proportion tombe à moins de 10% avec le correcteur MS Word patché.

J'ai été particulièrement impressionné par les nouvelles fonctionnalités grammaticales. Il reste évidemment beaucoup de travail dans ce secteur. Il est difficile d'améliorer les choses sans déclencher de fausses alertes, qui sont généralement mal acceptées par les utilisateurs (par exemple le nouveau correcteur me signale une erreur sur "les villes candidates" et me propose d'écrire plutôt "candidatent"). Là aussi le problème est celui de l'analyse contextuelle, qui constitue manifestement le principal défi pour les correcteurs du futur.

Je suis très heureux de voir que Microsoft a repris la recherche dans le secteur. D'autres produits existent, Antidote, ProLexis, Correcteur 101, etc. Dominique Laurent de la société Synapse Développement (qui a réalisé les précédentes versions du correcteur de MS Word) me signale aussi la sortie du tout nouveau Cordial 2006. Ce serait intéressant de pouvoir faire un comparatif...

Thierry me dit qu'il est tout disposé à répondre aux commentaires. N'hésitez pas, ça n'est pas souvent qu'on peut interagir en direct avec des chercheurs de Microsoft!

Post-scriptum


Mon texte "pourri" de fautes est ici, si vous voulez faire vos propres tests (j'espère que je n'aurai pas d'ennuis avec Le Monde ;-) C'est pour la bonne cause...

Libellés :


9 Commentaires:

Blogger J2J2 a écrit...

Désolé Jean pour cette infidélité, mais je vais me touner directement vers Thierry puisqu'il est tout disposé à répondre aux commentaires.. ;-)

Thierry donc, je suis très impressionné par les résultats donnés ici par Jean.
En revanche, je suis très étonné que le correcteur propose "candidatent" pour "les villes candidates".
Ce cas me semble pourtant assez simple et pourrait facilement être résolu par l'utilisation d'une matrice de probabilité d'ordonancement des groupes grammaticaux (ce que vous utilisez probablement) couplée à des statistiques d'utilisation des termes dans chacune des formes.
De manière grossière et simpliste, disons que la matrice donnera très certainement un score à peu prêt équivalent pour les séquences:
Sujet-Complément et Sujet-Verbe
Ici, l'ambiguité est donc de savoir si le deuxième groupe doit être considéré comme un Complément ou un Verbe. Quelques analyses des articles d'Encarta (ou Wikipedia) révèleraient certainement que le terme "Candidat*" est bien plus souvent utilisé dans sa forme Complément que dans sa forme Verbe, et ainsi l'ambiguité est levée.
Non?

18 octobre, 2005 14:40  
Anonymous Anonyme a écrit...

Merci pour le tuyau Jean !

18 octobre, 2005 15:10  
Blogger Moulinvert a écrit...

Juste une question : avez-vous eu l'occasion d'effectuer les mêmes tests avec la version Mac de Word, incluse dans Office Mac:2004 ? Le correcteur est-il le même ?

Bravo encore pour le travail accompli, et surtout communiqué !

18 octobre, 2005 15:24  
Blogger Jean Véronis a écrit...

Moulinvert> Non, je n'ai pas de Mac sous la main. Je ne sais pas trop comment se correspondent les versions. Peut-être d'autres lecteurs auront-ils l'info?

18 octobre, 2005 15:29  
Blogger Kaa a écrit...

Il me semble que sous Mac, le correcteur utilisé par MS Word est Cordial, justement...

18 octobre, 2005 15:41  
Blogger Kaa a écrit...

J'ai une petite question pour Thierry : j'ai entendu parler de "listes noires" politiquement correctes appliquées chez MS, certains mots seraient donc volontairement absents du dico, car considérés comme offensants. Je n'ai pas réussi à en trouver en faisant qq tests, mais est-ce vrai ?

18 octobre, 2005 15:51  
Anonymous Anonyme a écrit...

Bonjour à tous,

Un tout grand merci à Jean d’avoir tenu compte des commentaires que j’avais formulés en juillet et d’avoir rouvert le débat avec une nouvelle évaluation tenant compte des mises à jour.

Je vais essayer de répondre aux diverses questions :

1) Les deux nouveaux correcteurs (le grammatical et l’orthographique) sont directement intégré au Service Pack 2 d’Office 2003. Lorsqu’il a été lancé en avril dernier, il fallait une démarche volontaire de la part de l’utilisateur pour installer les produits. Ce n’est plus le cas si vous installez le SP2 d’Office 2003, qui est disponible depuis 3 semaines environ.
2) La version Mac n’a pas encore été mise à jour. Le correcteur qui tourne aujourd’hui sous Mac est donc inchangé et n’intègre donc pas encore la réforme de l’orthographe. Cette mise à jour est prévue, mais je ne peux pas être plus précis pour le moment quant aux dates.
3) Concernant « les villes candidatent », c’est vrai qu’on n’est plus tout à fait dans le domaine du correcteur orthographique au sens strict. Le problème est que le verbe « candidater » est fréquemment utilisé dans le monde universitaire (surtout français), ce qui provoque de nombreuses ambiguïtés (ou ambigüités ;-)) syntaxiques (il ne serait d’ailleurs pas erroné de dire que des villes ont candidaté pour obtenir le droit d’organiser les Jeux Olympiques, même si ce verbe est surtout réservé au monde académique). Les statistiques sont très difficiles à utiliser (pour une forme erronée correctement identifiée, combien de formes correctes allons-nous malencontreusement souligner, en gênant l’utilisateur ?). Nous travaillons sur ce type de problèmes, je peux vous l’assurer, mais le développement de ce genre de produit est assez long, justement pour réduire le bruit…
4) S’agissant les « listes noires », il existe effectivement des mots que nous ne souhaitons pas suggérer car ils peuvent offenser les utilisateurs. Je tiens toutefois à préciser que ces mots ne sont pas absents du dictionnaire, contrairement à ce qui est écrit plus haut. Ils sont bien présents, ce qui signifie que le correcteur les considère comme corrects (s’ils étaient absents, le correcteur les soulignerait en rouge). Pour diverses raisons, nous devons tenir compte de certaines sensibilités (très difficiles à définir pour le linguiste que je suis, plus habitué à décrire la langue, à l’analyser et à tenter d’en percer les secrets qu’à gérer des problèmes juridiques potentiels ou réels avec des utilisateurs qui ne comprennent pas toujours comment fonctionnent ces outils et qui prêtent à leurs concepteurs des intentions qu’ils n’ont évidemment pas).

J’espère que ceci répondra à vos questions. N’hésitez pas non plus à consulter notre blog. Nous essayons de tenir compte de vos avis, de vos besoins et nous essayons aussi de communiquer les nouveautés telles que celles-ci. Mon billet d’hier concernait justement l’intégration de la réforme de l’orthographe et les diverses options que nous offrons aux utilisateurs.

Bien à vous,

Thierry

Thierry Fontenelle [MSFT]
Microsoft Speech & Natural Language Group

18 octobre, 2005 18:45  
Blogger Jean Véronis a écrit...

Merci Thierry pour cette réaction! La question des "listes noires" est effectivement un problème délicat -- et c'est plus un problème de société qu'un problème d'informatique. On se souvient de l'affaire du mot "anti-arabe"... Je me fais un petit pense-bête pour y revenir un de ces 4.

19 octobre, 2005 21:34  
Blogger pankkake a écrit...

Ca me rappelle une vieille version de Word ou Works... il y avait une faute dans la boîte de dialogue "a propos" du correcteur !

10 novembre, 2005 21:05  

Enregistrer un commentaire