Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mercredi, avril 06, 2005

Texte: La Constitution Européenne pour les cons pressés

J'ai eu un choc hier, alors que je lisais le dernier roman d'Umberto Eco, superbe, comme ses précédents. Erudition, poésie, gentillesse, tout y est. Eco nous fait faire un voyage fantastique dans les court-circuits de la mémoire individuelle et collective :

couverture roman Eco

Je lisais tranquillement, quand je me suis tout d'un coup surpris à sauter des paragraphes. Quelle honte ! Il est vrai que certaines énumérations de chansons italiennes des années 40 sont parfois un peu difficiles à suivre, mais tout de même -- c'est un peu comme lire Jules Verne et sauter les (longues mais magnifiques) descriptions des poissons qui dansent derrière le hublot du Nautilus !

Je me demande si nous ne devenons pas progressivement une civilisation de cons préssés. C'est un lieu commun : nous sommes désormais écrasés, compressés, par l'information, qui nous arrive de toutes parts, par tous les tuyaux, plus vite que nous ne pouvons la digérer. Alors, nous plongeons lentement mais sûrement dans un grand zapping planétaire : clics frénétiques à droite, à gauche, dans les "aggrégateurs" de "news" (ce ne sont plus des actualités, mais des news, on a gagné six lettres !) et de blogs... On jette les pages avant de les avoir lues (heureusement, elles ne consomment pas d'arbres, celles-là). Mais je ne vais pas vous faire le numéro du nostalgique de la "civilisation d'avant" (on disait d'ailleurs à peu près la même chose : la télévision, la radio, le téléphone qui nous submergent...). J'aime cette civilisation de l'internet. Simplement, tout cela est très jeune, quelques années, rien à l'échelle de la Civilisation. Nous sommes un peu à Mayence+5 : la "Biblia sacra latina" de Gutenberg est à peine sèche.

Biblia sacra latina

Il nous faut inventer de nouveaux modes de fonctionnement, des outils qui nous permettent de naviguer dans cet océan sans s'y noyer. Il y a évidemment des consultants spécialisés en "IM", "KM", etc., et des officines prêtes à fournir des logiciels miracles pour la résorption des indigestions informatives, mais je vais vous fournir gratuitement un outil tout simple, que vous pouvez bricoler tout seul dans un coin de votre PC. Le bicarbonate de soude de l'IM, en quelque sorte.

Pour gérer son temps correctement, il faut trier les documents. Nous avons tous remarqué qu'il y a des documents qui méritent qu'on s'y penche, parce qu'ils apportent beaucoup d'information, et d'autres qui sont éventuellement très longs et très verbeux, mais n'apportent quasiment rien et nous font perdre un temps considérable en décryptage de jargon et langue de bois. Pour avoir une idée préalable de l'information qu'un document contient, eh bien, il suffit de le... compresser. C'est une conséquence de la théorie de l'information développée par Claude Shannon en 1948. Un texte tel que "supercalifragilisticexpialidocious" va être difficile à compresser. Pour le transmettre à un destinataire, on ne peut pas faire beaucoup mieux que de l'envoyer lettre à lettre : il contient beaucoup d'information au sens de Shannon. A l'inverse, le message "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa" est très redondant. Pour le transmettre, il suffit d'envoyer quelque chose comme "a*34" après s'être mis d'accord avec le destinataire sur un système de codage. Gain de près de 90% ! En examinant le gain de compression d'un document, on devrait donc pouvoir décider (puisque nous sommes des cons pressés...) si sa lecture va nous apporter quelque chose et si nous devrions l'entreprendre, ou bien s'il va simplement nous faire perdre du temps en lecture de baratin.

Nous avons tous sur notre ordinateur un ou plusieurs logiciels qui permettent de compresser des textes. Dans Windows XP, il suffit même de cliquer sur un document avec le bouton droit et choisir "Envoyer vers->Dossier compressé". J'ai essayé sur le texte dont on parle sans doute le plus ces temps-ci, la Constitution européenne. Quelle ne fut pas ma surprise de constater que le gain de compression était de 75% ! L'ensemble de la constitution fait à peu près 1 million de caractères (ouf !). Le résultat compressé 250 000 seulement. J'ai quelque peu l'habitude des chiffres, c'est mon job. D'ordinaire, on obtient des taux de compression de l'ordre de 60 à 65 % sur des textes français courants.

J'ai essayé avec d'autres textes, en prenant une tranche de même taille pour chacun (c'est important car le gain de compression peut varier avec la taille). J'ai pris 500 000 caractères de plusieurs types de textes qui traînent sur mon ordinateur : des journaux (Le Monde, L'Humanité), un roman (Notre-Dame de Paris de Victor Hugo), des articles de vulgarisation scientifique (revue Pour la Science), des discours politiques (Chirac, Jospin), et la fameuse Constitution.

Le résultat est absolument étonnant. Le gain de compression va de 60 à 75%, et la médiane (c'est-à-dire la valeur qui partage mes textes en deux groupes égaux) se situe à 63,5%. C'est Pour la Science qui constitue le texte médian. Le diagramme ci-dessous est édifiant (j'ai representé les gains de compression pour chacun des types de textes en les organisant autour de cette médiane).

Gains de compression - diagramme en bâtons

On constate que les textes les plus difficiles à compresser sont les journaux. Pas de différence notable entre le Monde et l'Humanité. Dommage, ça aurait été marrant. Notre-Dame se range aussi parmi les textes les plus informatifs, et Pour la Science, comme nous l'avons vu est juste au milieu.

Et puis les choses se dégradent de l'autre côté de la médiane. Chirac et Jospin sont déjà bien moins informatifs (langue de bois, méthode Coué...), mais la Constitution Européenne bat des records. La taille du "bâton" qui la concerne est tout à fait étonnante. 75%, c'est un gain pas souvent atteint avec un texte de cette taille (je ne parle pas des langages de programmation et autres textes artificiels). Ca reflète bien l'intuition qu'on en a : jargon, baratin, redondance... Cela a été suffisamment décrié dans les médias et la blogosphère ! La Constitution Européenne est bien l'exemple type du mauvais document, qui va faire perdre un temps fou : long, redondant et finalement difficile à lire à cause de ces défauts. Valéry a peut-être été un peu hâtivement accueilli à l'Académie...

Allez, à vos compresseurs ! Je suis sûr que vous allez vous amuser -- mais pour s'amuser, il ne faut pas être trop (con) pressé ;-)

Nouveau

Moteur


En savoir plus:

Compression des données
Théorie de l'information



46 Commentaires:

Anonymous Indif a écrit...

Une piste à suivre : l'influence de l'algorithme de compression (et si l'on veut aller encore plus loin dans la difficulté, du logiciel de compression) sur le résultat final. N'ayant pas les textes que tu as utilisé sous la main, je ne peux en faire l'expérience sur mon... Mac ;-).

06 avril, 2005 10:48  
Blogger Jean Véronis a écrit...

Oui, bonne idée ! Les logiciels de compression n'atteignent jamais la limite maximale (qui est "l'entropie"), mais il y a des différences. Je vais brancher mes étudiants. Merci de ce commentaire, qui m'a permis de découvrir ton blog. "Et moi qui croyais" que personne ne s'intéressait à ces googueleries... ;-)

06 avril, 2005 10:57  
Blogger Luca a écrit...

J'ai lit avec intérêt le post mais j'ai des question a tes poser.
As tu pensée à typologie des files que tu as utilisée?
Je suis presque sure que comprimer un file .doc est très diffèrent que comprimer une .pdf ou un .txt.
L'idée est très intéressant mai je ne pense pas qu'un algorithme de compression (n'importe pas l'algorithme qu'on utilise) peut analyser les signifiée ou se cache la vrai redondance d'un texte. :-)

06 avril, 2005 11:55  
Blogger Jean Véronis a écrit...

Je n'ai utilisé que des fichiers txt, sinon effectivement, il y aurait des différences qui ne sont pas dues au texte lui meêm, mais à son codage.

Je suis bien d'accord avec ta remarque : "qu'un algorithme de compression (n'importe pas l'algorithme qu'on utilise) peut analyser les signifiée ou se cache la vrai redondance d'un texte.". Mon billet n'est qu'un amusement, une petite "provoc" !

Ceci étant tu poses une question clé : qu'est-ce que la "vrai" redondance ? ou bien, dit autrement, qu'est-ce que l'information ? L'information des mathématiciens n'est peut-être pas exactement la nôtre, car c'est bien connu : le moins redondant, ce qui est le plus difficile à compresser, c'est un texte complètement aléatoire. Une suite de lettres générée au hasard. Même est-ce de l'information pour nous, pauvres humains ???

Grazie mille: ho scoperto un nuovo blog ;-)

06 avril, 2005 12:13  
Anonymous Fred a écrit...

Le marché des filtres à conneries a certainement de l'avenir...

La compression a déjà été utilisée pour d'autres types de problèmes (p. ex http://www.newscientist.com/article.ns?id=dn3602) mais ces résultats sont intéressants :-) Il faut quand même garder à l'esprit que du texte complètement aléatoire est ce qui se compresse le moins bien, mais n'est pas forcément plus intéressant à lire... Donc une bonne mesure de complexité, voilà ce qui pourrait nous aider à nous dé-con-presser... (il y avait justement un article dans un Pour la Science sur des mesures d'information dans des tableaux, mais je n'arrive plus à mettre la main dessus...)

06 avril, 2005 12:23  
Blogger Jean Véronis a écrit...

"Filtres à connerie" : j'adore !

Je ne connaissais pas l'étude sur l'application de la compression à la détection des genres musicaux (super merci pour le lien!), mais il y avait eu une étude sur la détection des langues (je ne sais pas où j'ai mis le lien, mais j'en parlerai sûrement un de ces 4).

Nos messages ont dû se croiser (ma réponse à Luca): effectivement, le moins compressible, donc le plus "informatif" au sens de Shannon c'est un texte aléatoire. L'autre extrême, archi-redondant est illisible aussi. Donc, il semblerait que le système congnitif humain soit "réglé" pour une sorte d'optimalité intermédiaire... je ne connais pas très bien, mais je suis sûr qu'il y a eu des études des psys. Si qqun a des pointeurs !

06 avril, 2005 12:36  
Anonymous Sabin a écrit...

Bonjour, merveilleux billet que celui-ci :-)

Je voudrais tout de même vous faire une suggestion que j'estime très importante : étendez l'étude à d'autres textes de droit !
Peut-être que les constitutions française ou américaine, en dépit de leurs tailles différentes, offrent le même taux de compression, auquel cas cela tient à la nature même des textes constitutionnels ?
Ou alors que carrément tous les textes juridiques (bon courage pour choper un version texte du code civil) sont de ce type ?

Dans l'état des choses, la constitution européenne est "accusée" alors qu'elle n'est pas forcément comparée aux "bons" textes ?

Enfin, je ne pense pas que c'est le cas, mais c'est une éventualité qui me titille tout de même...

06 avril, 2005 12:55  
Blogger Jean Véronis a écrit...

Oui, Sabin, vous avez tout à fait raison. Les gains de compression sont liés aux genres de textes. Il faudrait faire l'étude comparative dont vous parlez, mais je soupçonne qu'on aura sans doute des gains élevés pour tous les textes juridico-administratifs. Si c'est effectivement le cas, cependant, que conclure ? Cela ne fait-il pas qu'étendre les qualificatifs "redondant", "jargonant" à l'ensemble des textes juridico-administratifs ? A voir...

06 avril, 2005 13:08  
Blogger Jérôme Charron a écrit...

Jean, pour l'identification de la langue, vous vouliez certainement parler de Science - Do you habla französisch? ... non? ;-)

06 avril, 2005 15:07  
Anonymous Pierre Marchant a écrit...

Excellent article, et, qui plus est, excellente "conversation" de commentaires. Ce blog est décidément savoureux !

Je suis assez d'accord sur la nature intrinsèquement verbeuse des textes juridiques : ces productions ne sont pas à proprement parler des textes informatifs, mais normatifs. Ils ont pour objet propre de répéter ad libitum structures, interdits et fonctions. Je suis presque persuadé qu'un taux de compression analogue pourrait être obtenu par des algorythmes de programmation, qui sont aussi des "textes non informatifs".

Sans aucunement remettre en cause la méthode que vous suggérez, il faudrait réunir les textes soumis dans des familles ou des genres, liés à l'objectif ou au mode opératoire. D'ailleurs, ça se fait tout seul : les journaux sont effectivement informatifs (et publicitaires), on les retrouve donc ensemble. Les discours sont plus démonstratifs et séducteurs, on les retrouve proches. Votre méthode de "con-pression" permettrait-elle finalement de trier les documents par affinités de genre, ou, mieux, d'intention ? Il faudrait un échantillon plus important. Qui s'y colle ?

06 avril, 2005 15:27  
Blogger Jean Véronis a écrit...

Pierre Marchant > Oui, il faudrait faire ça bien plus "scientifiquement". Mais l'intérêt des blogs, c'est de pouvoir aiguilloner la réfléxion, même si c'est parfois un peu "provoc" !

La compression peut sans doute trier les documents par genre (au moins grossièrement). Je suis en train d'analyser ça. On dirait qu'il y a des surprises d'ailleurs... J'y reviendrai peut-être si je trouve des choses marrantes.

06 avril, 2005 15:35  
Anonymous Bagolina a écrit...

Mais quand même, est-ce que ce roman d'Umberto Eco n'a pas été écrit pour qu'on saute certaines pages, pour y revenir éventuellement. Pour l'avoir lu récemment, c'est en tout cas comme ça que je l'ai pris : une image de mémoire qui peut nous toucher ou nous ennuyer suivant notre propore histoire, un peu à la manière des "Je me souviens de Pérec". Donc l'algorithme de compression ne devrait pas être le même pour tous...

06 avril, 2005 15:39  
Blogger Jean Véronis a écrit...

Bagolina> "Est-ce que ce roman d'Umberto Eco n'a pas été écrit pour qu'on saute certaines pages, pour y revenir éventuellement" Ah, ah, si ! tout à fait! et je m'aperçois que je suis en train de le lire en zigzags (y compris par rapport aux nombreuses illustrations). Après tout, Umberto Eco n'est-il pas celui qui a écrit "L'oeuvre ouverte" ? Je crois qu'il applique le concept à ses romans !

06 avril, 2005 15:45  
Anonymous Kaa a écrit...

Quant à la détection des langues, compression ou n-grams (d'ailleurs, rendons à César...), gaffe aux encodages... moi jdis ça, jdis rien.

06 avril, 2005 15:49  
Blogger Jean Véronis a écrit...

Jérôme > Dans votre billet vous parliez de la détection basée sur les n-grammes (la technique employée par Word, Google, etc.). En fait, je faisais référence à une étude de physiciens de l'université La Sapienza (Dario Benedetto et collègues), qui ont publié dans Physical Review Letters une étude qui montrait qu'on peut discriminer les langues à l'aide de techniques de compression. Mais leur étude était un peu naïve à mon sens, j'avais expliqué sur sur je ne sais plus quel forum. En particulier, je suis convaincu que le genre textuel (comme ça a été dit juste ci-dessus) a plus d'influence que la langue. Il faut que je remette la main sur ce satané papier. Trop d'information ;-)

06 avril, 2005 15:53  
Blogger Jean Véronis a écrit...

Kaa> Oui, tout à fait !

Les messages s'entrecroisent... Ca devient un chat ce blog!

06 avril, 2005 16:01  
Anonymous Nicolas J a écrit...

C'est celui-ci que vous cherchez ?
language_recognition
Moi j'ai trouvé cela assez bien, mais pas eu le temps de tester par moi même...

06 avril, 2005 16:18  
Blogger Jean Véronis a écrit...

Ah oui, voilà, exactement. Ca a l'air d'être un pre-print de l'article qui est paru dans Phys. Rev. Letters, et dont je n'ai qu'une copie papier au fond d'une boîte quelque part. Merci du lien. Je vais le relire !

06 avril, 2005 16:37  
Blogger Jérôme Charron a écrit...

Compression / NGram = Même combat => Loi de Zipf

Par contre, je partage votre avis, le genre textuel a beaucoup plus d'influence que la langue!

06 avril, 2005 16:57  
Anonymous Nicolas J a écrit...

Je ne suis pas d'accord : pour les zips, c'est l'algorithme de compression qui fait tout.
Pour les n-grams, on a beacoup plus de latitude. On peut ne regarder que les 1, 2 ou 3 grams pour classifier la langue d'un texte - quel que soit le domaine.
Si on ne regarde que les 6,7 8 grams alors là peut être peut on justement mesurer le "jargon" et catégoriser au sein d'une langue. On peut aussi chercher à définir des distances entre un texte connu et celui que l'on veut catégoriser qui sont un peu plus compliquées que la comparaison des rangs... Enfin c'est mon intuition. Dans ma liste de choses à faire !

06 avril, 2005 17:16  
Blogger Jean Véronis a écrit...

L'intérêt des méthodes de compression de type Lempel-Ziv (gzip ou zip) est qu'elles construisent un dictionnaire des séquences fréquentes, mais de longueur variable, ce qui est plus flexible que des n-grammes de longueur fixée. Ca permet de capturer sans doute une bonne partie des mots (voire suite de mots) qui reviennent constamment. Ce que veut sans doute dire Jérôme c'est que ces algorithmes de compression marchent bien parce que les éléments du langage (mots, séquences diverses) suivent la loi de Zipf. Un petit nombre de mots ou de séquences fréquentes suffisent à couvrir la plus grande partie du texte.

06 avril, 2005 17:26  
Anonymous Nico a écrit...

en effet, un bon "a priori" serait de penser que ce taux de compression soit lié à la nature des textes de constitution. Malheureusement, le comparatif à la constitution française est difficile car elle est beaucoup plus courte (comparé à la ramette et demie de la constitution européenne). Mais j'obtiens un taux de compression de 73%.
Finalement la loi semble moi intéressante que les longues descriptions dans la littérature! Mais personne a dit que l'information selon Shannon soit la bonne information pour tous les contextes...

06 avril, 2005 17:45  
Blogger Jean Véronis a écrit...

Sans doute que ce qui est complètement écrasant dans la Constitution européenne, c'est son caractère démesuré, puisqu'elle est 20 fois plus longue que la Constitution française. Quelques pages de jargon, passe, mais une ramette et demie, ça relève du concours Oulipien !

06 avril, 2005 18:47  
Blogger Jérôme Charron a écrit...

Il manquait une information IMPORTANTE à ce billet: Il a un taux de compression de 61,4% ... donc plutôt pas mal... ;-)

06 avril, 2005 19:36  
Blogger Jean Véronis a écrit...

Ah, ah, excellent ! On devrait créer un utilitaire qui affiche le chiffre sur chaque billet, un peu à la façon des stats ! Et même on devrait le mettre dans les fils RSS ou Atom, comme ça les aggrégateurs pourraient directement mettre à la poubelle les billets baratinesques...

06 avril, 2005 19:40  
Anonymous Ploum a écrit...

Ah ben voilà, je comptais demander le taux de compression de ce billet, mais c'est très informatif :-)

Et quand est-il du libre d'Umberto Eco ?

D'anecdotique, ta technique peut en fait réellement refléter qqch (d'un point de vue statistique) si on essaye avec un plus grand échantillon.

On prend, disons, 200 textes assez longs. On demande à un échantillon de cobayes de les classer par ordre de baratinage et on compare avec ce que l'algo de compression dit.

Par contre, il serait aussi intéressant d'étudier la compression d'un texte parfaitement aléatoire.

06 avril, 2005 22:18  
Blogger Jean Véronis a écrit...

>Et quand est-il du libre d'Umberto Eco ?

Hélas, je ne l'ai pas en format électronique, mais à mon avis, compression très faible !

>On demande à un échantillon de cobayes de les classer par ordre de baratinage

Oui, ce serait amusant ! mais il faudrait bien choisir les cobayes. Si on prend des juristes, on risque d'avoir des surprises.

>Par contre, il serait aussi intéressant d'étudier la compression d'un texte parfaitement aléatoire.

Là par contre, on sait d'emblée. La compression est 0%. C'est même pour certains une bonne définition d'une séquence aléatoire (concept qui n'est pas simple à définir, quand on y pense!).

06 avril, 2005 22:54  
Blogger blueTak a écrit...

Je lisais tranquillement, quand je me suis tout d'un coup surpris à sauter des paragraphes. Quelle honte !

Je pense en lisant cette réflexion à Roland Barthes qui revendiquait le droit de lire en pointillés les grands textes. Mieux vaut lire au fil de l'envie que de ne rien lire du tout. Le sentiment de honte est le déchet d'un apprentissage traditionnel de la lecture où tout était mis sur le même plan. Or, justement savoir lire c'est aussi trier et laisser tomber quand on s'ennuie. La "litanie" Umbertique a sa raison d'être mais sommes nous obligés de nous la tartir ? L'île du jour d'avant était déjà plein de ces énumérations tantôt réjouissantes, tantôt fatigantes.
Le Moyen-Age cultivait le don de raconter des histoires passionnantes au commun en truffant le texte d'un message codé accessible aux seuls initiés. Eco me semble souvent rejoindre cette tradition. Mais je ne suis pas initié au point de tout saisir, dois-je en avoir honte ?
Ceci dit, bravo pour la recherche en déconologie appliquée !

07 avril, 2005 08:34  
Anonymous Fabounet a écrit...

Concernant les textes, l'algorithme de compression détermine en grande partie le taux de compression. On pourrait réaliser des algorithmes de compression spécifiques à certaines professions (redondances spécialisées, par exemple citations complètes d'articles de loi ou formules mathématiques)

Je voudrais néanmoins revenir au thème de cette "provoc".

En effet, si j'ai bien compris, les algorithmes de compression ne font pas de prouesses face à la richesse verbale. Si les journaux sont moins compressibles, c'est tout simplement qu'ils abordent des sujets variés exposés par des rédacteurs variés dans des rubriques variées. Mais de là à dire qu'ils abordent des questions passionnantes avec une verve somptueuse et que leur lecture est incontournable...

La richesse syntaxique n'est pas une donnée pertinente pour déterminer l'intérêt d'un texte de manière globale. Beaucoup de cons (comme moi) disent plein de choses vachement intéressantes avec peu de mots et des mots simples. Parfois même ils utilisent le même mot pour dire deux choses différentes. Il y a donc des petits malins qui parlent déjà en langage compressé! Alors, que penser des SMS???

Le débat est plutôt lié à la pertinence contextuelle d'un propos. Ce que je dis est-il intéressant? Chacun se déterminera en fonction de critères qui ne sont assimilables en rien à un algorithme de compression.

Le bouquin de Ecco est chiant à mourir s'il ne m'apporte pas la satisfaction d'une attente (dont je ne détermine pas clairement et en permanence les contours).

Si les chansons italiennes vous ont gonflé c'est sans doute que leur pertinence dans le contexte qui est le vôtre est réduite.

Je pense que mon billet compressé doit être à 80% mais j'espère que quelqu'un l'aura tout de même lu... euh....you ooouh...ya quelqu'un?

07 avril, 2005 10:25  
Blogger Jean Véronis a écrit...

Votre billet est trop court pour que la compression de type zip/gzip soit significative. Je n'obtiens que 40% de gain. L'algo doit créer un dictionnaire et l'empaqueter avec le texte. Donc, ça ne vaut le jus que si le texte est suffisamment gros...

Vous avez totalement raison, information humaine (pertinence?) et information mathématique sont deux choses différentes. Dans tous les domaines : une image de pixels aléatoire n'intéresse personne. C'est pourtant la seule qui est incompressible. A l'autre extrémité un carré tout bleu n'intéresse pas grand monde non plus (encore que Klein ait essayé de démontrer le contraire ;-). La pertinence humaine semble se situer quelque part au milieu... A creuser (peut-être de plus savants que moi l'ont déjà fait, d'ailleurs!).

07 avril, 2005 10:45  
Blogger Luca a écrit...

Peut-être qu'on doit considérée l'information "humain" pas seulement "une différence qui genre une différence" (Bateson) mais plutôt habilité à percevoir ces différences. C'est vrai que une différence qui n'est pas perçu n'est pas une différence, mais l'habilité humaine semble être liée à une sorte de relation temps - information.
Si je sui à une exposition d'art électronique (information dans le t.1) je vais trouver intéressant une images de pixel aléatoire.

07 avril, 2005 12:10  
Anonymous yves a écrit...

Excellent billet, j'ai bien ri en le lisant.

Du coup j'ai feuilleté votre blog (intéressant, très intéressant), et l'idée saugrenue m'a pris d'utiliser votre Dico sur ce même texte. Las! c'est du windows pur jus, sans les sources. Quel dommage. Y aurait-t-il quelque part l'analyse de la fréquence des mots dans ce texte?

07 avril, 2005 13:54  
Blogger Jérôme Charron a écrit...

J'ai continué à jouer un peu le con-pressé :

- Crawling du contenu de aixtal.
- Extraction du contenu textuel (suppression du balisage)
- Suppression des billets en anglais.
- Suppression du texte redondant (barre latérale gauche + en-tête, mais je préserve les commentaires)
- J'ai-six-page

Résultat: 64,5 % ...

PS: Si vous souhaiter récupérer le contenu textuel de aixtal... contactez moi... ;-)

07 avril, 2005 15:12  
Blogger Jérôme Charron a écrit...

Il fallait lire:

Si vous souhaitez récupérer le contenu textuel de aixtal, contactez moi...
;-)

07 avril, 2005 15:13  
Blogger Will a écrit...

For fun, I did a comparative study of the U.S. constitution. You can see it on my weblog at We th ppl f th US.

07 avril, 2005 15:22  
Blogger Jean Véronis a écrit...

Ouh là! tous ces commentaires, je n'arrive plus à suivre, moi. Une après-midi de cours et je suis noyé !

En vrac:

Yves> Oui, Dico, est une appli Windows, hélas. J'ai écrit ça il y a quelques années pour mes étudiants (qui ont rarement autre chose comme système...).

Jérôme> Alors, on s'amuse ! Jem'en vais compresser motrech, moi ! On pourrait d'ailleurs organiser des batailles de compression : qui a le blog le plus baratinant (je vois quelques candidats...) Merci pour le contenu d'Aixtal, mais j'ai déjà fait la manip. Hé hé.

Will> Very nice. I have been puzzled by the behavor of the amendments! The comparison with the French constitution is intersting too (more comparable in size). Ours reaches 73%.

08 avril, 2005 11:54  
Anonymous Antoine a écrit...

Hello, je me trompe peux etre mais n'est t'il pas logique que le taux de compression soit plus élevé pour les raisons suivantes :

- le texte de la constitution est beaucoup plus long que les autres, donc les mêmes mots reviennent plus fréquemment

- les textes de journaux tels que ceux du monde sont d'un vocabulaire plus varié, de part le style mais aussi par la diversité des sujets abordés

Donc cela me parait normal d'observer cette différence.

Antoine

12 avril, 2005 00:09  
Blogger Jean Véronis a écrit...

Bonjour Atnoine,

Sur le premier point, non, parce que j'ai prsi soin de prendre des textes de longueurs indentiques (500 000 caractères, soit à peu près la moitié de la Consitution).

Sur le deuxième c'est compliqué... Le taux de compression est évidemment lié à la variété du vocabulaire. Si je répète toujours le même mot en boucle "bla bla bla...", je vais avoir un taux de compression maximal ! Mais quand il y en a 482 pages, n'est pas cela qui rend la chose peu lisible (entre autres ?). Il y a là des sujets de recherche passionnant pour la psychologie cognitive !

Mercipour cette remarque.

12 avril, 2005 08:23  
Anonymous Guz a écrit...

Pas idiot !
L'idéal serait de mesurer l'entropie du le texte, en fait.

12 avril, 2005 22:36  
Anonymous Tashi a écrit...

Encore un merci pour ce billet, très sympa :-)
Ca m'a rappelé, même si c'est sensiblement différent, l'appareil à analyser les discours politiques dans l'oeuvre D'asimov : Fondation. (je dis l'oeuvre et pas le livre car je ne sais plus dans quel tome ça se passe).
L'appareil a permis aux héros de découvrir que le discours du futur maire de la fondation n'était qu'un escroc...

Bien sûr, ce qui était analysé n'était pas les redondances, mais le vide d'information.

13 avril, 2005 17:35  
Anonymous Bédé a écrit...

Amusant le test de compression....
oui mais ....
- "Ca reflète bien l'intuition qu'on en a : jargon, baratin, redondance.. "
Quand on part d'une intuition que l'on a et qu'on cherche à montrer, on y
arrive tjs, même si il faut tirer un peu l'élastique !
le taux de compression ne reflète que la pauvreté du vocabulaire et des
associations de mots, pas celle du SENS ni de la lisibilité.
(d'ailleurs c'est évident quand on voit la compression de l'article
scientifique.) Utiliser un vocabulaire plus riche n'aurait pas forcément
rendu le texte plus lisible et compréhensible (surement le contraire pour le
citoyen moyen)
Pour pouvoir tirer une conclusion pertinente, il faudrait plutôt comparer
avec des textes de même objet (textes législatifs, constitutionnels,
conventions internationales) et ne pas mélanger chou et carottes (c'est la
base de la comparaison statistique)
(il faut se rappeler par ailleurs, que la constitution a été écrite et
conçue en plus de 15 langues, ce qui explique le "lissage" du vocabulaire)

- "J'ai quelque peu l'habitude des chiffres, c'est mon job. "
On peut avoir l'habitude des chiffres et ne pas savoir les interpréter ! (et
savoir leur faire dire ce qu'on veut)
L'histogramme présenté est du genre de ceux qu'on utilise pour apprendre
aux apprentis statisticiens ce qu'il ne faut pas faire :
En tronquant l'échelle à partir de 60%, on donne l'impression que le taux de
"baratin" de la constitution est 4 ou 5 fois plus important qu'un discours
de Chirac, alors que la différence n'est que de 10 % !!!

Ceci étant dit, merci pour la "provoc", le sujet est intéressant !

19 avril, 2005 14:45  
Blogger Jean Véronis a écrit...

>le taux de compression ne reflète que la pauvreté du vocabulaire et des
>associations de mots, pas celle du SENS ni de la lisibilité.

Bien sûr. Il y a des discussions dans les commentaires précédents. Il semblerait que les deux extrêmes du spectre (absence de redondance, excès de redondance) rende les choses difficiles pour l'être humain.

>Comparer avec des textes de même objet (textes législatifs, constitutionnels,
>conventions internationales)

Oui, bien sûr. Ils sont tous jargonnants (et d'ailleurs il y a eu des tentatives récentes de révision pour rendre les textes compréhensibles par les administrés). Mais on me demande rarement de voter en mon âme et conscience sur 1 Mo de textes de ce type !

>En tronquant l'échelle à partir de 60%,

C'est évidemment ce que je dis dans mon premier (ou deuxième) cours de stats, mais d'une façon un peu plus nuancée : il est légitime que l'échelle couvre la gamme des possibles. Or, la gamme des gains de compressions dans les textes (je ne parle pas de langages artificiels) est de 60-75%. Ce n'est bien entendu pas une échelle qui part de 0, ni une échelle qui va jusqu'à 100% !

19 avril, 2005 15:37  
Anonymous Alarc'h a écrit...

Il serait intéressant de faire ce test sur un texte comme l'Illiade. La langue d'Homère contenant de nombreuses formules stéréotypées, celles-ci doivent se comprimer assez facilement. Je n'ai pas le texte sous forme numérique pour faire l'expérience. Il devrait pouvoir atteindre un taux de compression assez élevé. Un autre texte intéressant à tenter seraient les chants de Maldoror, qui sans être des textes aléatoires en sont plus proches que l'Illiade. Pourtant, quel que soit l'intérêt poétique de la prose de Lautréamont, il n'apportent pas autant d'informations que l'Illiade (déformation d'archéologue peut-être).

Si des personnes disposant de ces textes en version numérisées (le maître des lieux peut-être ?) pouvaient faire le test je serais curieux de connaître le résultat et voir si mon intuition est juste ou complètement à côté de la plaque.

Petite question : je suppose que pour que les résultats soient comparables il faut que les encodages des textes soient le mêmes ?

23 avril, 2005 08:40  
Anonymous gab a écrit...

Je n'ai pas lu tous les commentaires, je les ai parcourus, (mais cette manière de faire semble légitime...), il me semble que le point suivant n'a pas été évoqué :
Les langages naturels sont naturellement redondants, au contraire des langages artificiels, ou des mathématiques. C'est précisément la non-redondance qui rend difficile la compréhension.
Quant au code génétique il est TRÈS redondant, comme si la nécessité absolue de faire passer sans erreur l'information obligeait à de très nombreuses répétitions.

28 avril, 2005 14:34  
Blogger Jean Véronis a écrit...

Gab> C'est précisément la non-redondance qui rend difficile la compréhension. : Oui. Mais apparemment les deux extrêmes rendent la compréhension difficile : trop de redondance ou pas assez. Je ne sais pas si ça a été étudié de façon sérieuse en psycho expérimentale, mais on dirait que le cerveau humain a besoin d'un réglage intermédiaire du curseur...

28 avril, 2005 22:49  
Anonymous Anonyme a écrit...

La redondance et le sens ? Combien de mots faut-il pour dire : "La garde meurt,mais ne se rends pas".
Le taux de compression atteint 70% sur cette chanson de Brel, trés courte (1202 octets).
http://www.frmusique.ru/texts/b/brel_jacques/zangra.htm

Combien de pages Balzac en eût-il tiré ?
Merçi pour votre boulot et votre fantaisie.

24 août, 2005 15:24  

Enregistrer un commentaire