Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, novembre 23, 2005

Ortograf: OpenOffice vs Microsoft



La sortie de la nouvelle version d'OpenOffice en français il y a quelques jours m'a incité à étendre mon petit comparatif des correcteurs orthographiques. Dans une étude précédente [ici], j'avais comparé le correcteur de Microsoft Word avec la fonction de correction offerte par la barre Google. L'avantage était clairement à MS Word (avec le patch qu'il est important de télécharger), cet avantage provenant essentiellement d'un bon traitement des noms propres, et dans une moindre mesure, de ses capacités en matière d'orthographe grammaticale (accords en particulier). On va voir qu'avec OpenOffice le match est plus serré.



J'ai gardé le même texte fautif pour l'évaluation (un article du journal Le Monde passé au "pourrisseur" de textes : ici), et les résultats sont les suivants (le bruit est constitué des fausses alertes et le silence correspond aux erreurs non repérées):

%
BruitSilence
MSWord (avec Patch)1,721,3
OpenOffice0,025,3
Google1,724,0

Sans noms propres et mots étrangers

%
BruitSilence
MSWord (avec Patch)9,320,0
OpenOffice6,027,6
Google34,722,4

Avec noms propres et mots étrangers


Si l'on ignore les noms propres et les mots anglais cités dans le texte, OpenOffice donne un peu moins de fausses alertes que MSWord, mais ignore un peu plus de mots fautifs. La tendance est la même si l'on prend en compte les noms propres et les mots anglais: un peu moins de bruit, et plus de silence. Il est important de bien régler OpenOffice sur l'option "détecter toutes les langues": la détection de la langue semble assez bien faite, du moins sur mon exemple. La phrase "Do you like roast-beef?" citée en anglais dans le texte est bien repérée comme anglaise par OpenOffice, alors qu'elle ne l'est pas dans MSWord (il faut dire que la détection de la langue sur des fragments aussi courts est extrêmement délicate!).

On voit donc que les résultats se tiennent dans un mouchoir de poche. Globalement, il y a un léger avantage pour MSWord par rapport à OpenOffice (Google est loin derrière). Je ne veux pas être trop technique, mais on peut le mesurer précisément (si l'on pénalise de la même manière le bruit et le silence) en utilisant la moyenne harmonique de la précision et du rappel (mesure F), et elle est légèrement plus élevée dans les deux cas pour MSWord (87,4% contre 85,4% dans le premier cas; 85,0% contre 81,8% dans le second).

La performance n'est tout de même pas mauvaise pour OpenOffice, compte tenu de son caractère libre et des moyens sans aucun doute plus limités dont il dispose pour son développement. Bien sûr, il faudrait faire des tests à plus grande échelle, avec d'autres types de textes, et mon expérience n'a qu'une valeur indicative. Il me semble toutefois que les développeurs de la version française d'OpenOffice doivent faire preuve de vigilance: Microsoft a manifestement réouvert le chantier du correcteur français, avec une équipe très compétente, et sur certains points son avance conceptuelle est forte, même si elle ne transparaît pas encore beaucoup dans les chiffres. C'est le cas de la correction de l'orthographe grammaticale, sur laquelle, comme je l'ai signalé l'autre fois, Microsoft est en train d'améliorer notablement les choses. Notons également qu'OpenOffice n'intègre pas encore l'orthographe recommandée (depuis 1990...) par le Conseil Supérieur de la Langue Française et l’Académie Française telles que règlementaire, révolver, ambigüe, etc. (mais elle serait très simple à intégrer).


Post-scriptum


1. PYves (commentaire ci-dessous) a fait la même évaluation avec TextEdit sous MacOS 10.4. Voici ses résultats:

%BruitSilence
TextEdit - Sans NP/étr.025,3
Avec NP/étr.19,225,9

Performances identiques à OpenOffice si l'on ne compte pas les noms propres et les mots étrangers. Si on les compte, la performance est un peu meilleure en termes de silence, mais moins bonne en termes de bruit . Très intéressant. Merci PYves !

2. Thierry Fontenelle a traduit ce texte en anglais sur le blog de Microsoft consacré au correcteur, avec quelques commentaires introductifs (je suis totalement d'accord avec ses commentaires).

Libellés :


11 Commentaires:

Anonymous MKe a écrit...

Bonjour,

Rien à voir mais je me disais que ça pouvait vous intéresser.

http://www.u-blog.net/resetparam/note/58079

23 novembre, 2005 12:07  
Blogger Jean Véronis a écrit...

Mke> Oui! je reçois l'info de plusieurs sources à la fois: l'UMP récidive.

J'ai mis un lien vers votre copie d'écran dans "Aix-Echos" (cadre en haut à gauche). Merci!

23 novembre, 2005 12:20  
Blogger ulhume a écrit...

Bonjour,

J'avais fait un petit scripte bien utile pour partir d'un lien sponsorisé connu (ex. ratp dans ce cas) et remonter à d'autres mots via les meta keywords de la page cible. Le résultat est dans notre cas amusant. Si le scripte interesse, je peux le donner mais il n'a rien de techniquement intelligent.

Ulhume

Pour l'UMP donc, nous avons :
sarko
sarkozy
politique
securite
reforme
chirac
election
politique
ministre
raffarin
vote
debat

23 novembre, 2005 15:58  
Anonymous BJ a écrit...

J'utilise OpenOffice et même si cela m'a pris un temps d'adaptation, j'ai finalement presque complètement abandonné Microsoft Office... sauf pour la correction de textes. Je copie-colle dans Word car j'y trouve plus d'erreurs, notamment pour la grammaire. Beaucoup de fautes ne sont pas (encore) détectées par OO. Dommage mais quand on compare le nombre de versions et les moyens mis en oeuvre des 2 côtés, je trouve que Microsoft fait figure de Goliath. Et je garde ma nouvelle lessive.

23 novembre, 2005 17:58  
Anonymous Alex a écrit...

Pour revenir à Nicolas Sarkozy, bien que ce ne soit pas par plaisir, ni le lieu, ni le moment, si l'on tape sarkozy dans google, justice est faite puisque la troisième entrée est: Iznogoud.

23 novembre, 2005 18:19  
Anonymous JCM a écrit...

Et pour revenir à nos moutons, dommage de ne pas avoir fait de comparatif avec le moteur intégré de MacOs X. En effet, que ce soit avec l'éditeur de texte TextEdit, Safari ichat (AIM) ou autre logiciel offrant la possibilité d'écrire, la correction automatique est activée. Très pratique, mais je ne sais pas ce que cela donne vs OO ou Word…

23 novembre, 2005 23:05  
Anonymous Sabin a écrit...

Au secours !

Je double-clique le mot "révolver" par réflexe moteur, de la même manière qu'au cinéma, quand un zombi surgit dans le dos d'un héros, je m'agrippe à l'accoudoir de mon fauteuil.

Et là, ça lance le chargement d'une drôle de fenêtre qui me propose la traduction du mot en anglais. Fenêtre qui perturbe ma lecture et met deux secondes à se charger, et me propose, hasard fâcheux et donc pratiquement obligatoire, une traduction bien entendu inutile pour ce mot-là.

La fonction est utile, mais j'avoue que du point de vue de l'accessibilité, je la préférerais activable en option, plutôt qu'automatiquement activée... Surtout que mon triple clic habituel quand je veux sélectionner un paragraphe pour le lire ne fonctionne plus :/
Enfin bon, c'est plutôt une jolie initiative qui montre la richesse des pages dynamiques récentes, je ne veux pas cracher dans la soupe non plus :)

23 novembre, 2005 23:14  
Anonymous PYves a écrit...

jcm> J'ai fait le test pour TextEdit sur MacOS 10.4 :
Sans NP/étr. bruit=0,0% ; silence=25,3%
Avec NP/étr. bruit=19,2% ; silence=25,9%

24 novembre, 2005 17:49  
Blogger Jean Véronis a écrit...

Merci PYves! J'ai copié vos résultats en PS dans le message.

24 novembre, 2005 21:30  
Anonymous JCM a écrit...

Merci pyves.
Apple a donc bien travaillé, étonnant de leur part quand on connaît leur peu d'entrain à s'occuper d'autres langues que l'Anglais. C'est bien sûr largement perfectible avec NP…

24 novembre, 2005 23:43  
Anonymous wallaye a écrit...

Bonjour

Openoffice utilise myspell, un correcteur ortografik dérivé de ispell... Il marche correctement, mais est en passe d'etre remplacé par hunspell, qui gère tres bien l'utf-8 (utile pour mes dictionnaires en moore, bambara...). Il est telechargeable à l'adresse suivante:

https://sourceforge.net/project/showfiles.php?group_id=143754

et je voudrai bien voir les resultats de votre test avec hunspell :)

Etienne

26 novembre, 2005 09:29  

Enregistrer un commentaire