Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

jeudi, mai 05, 2005

Texte: Le vocabulaire des constitutions

Voir aussi







Je trouve tout à fait impressionnant (et réconfortant) qu'autant de citoyens, quelle que soit leur opinion essaient de lire le Traité établissant une Constitution pour l'Europe (TCE). Mais comment aborder la lecture d'un document aussi imposant ? Sa taille, aussi bien que son style, ne le rendent pas forcément simple d'accès pour le non-spécialiste, et diverses initiatives citoyennes essaient de donner des clés et des outils pour sa lecture (mise en format hypertexte: Brit Aarskog, NotreConstitution.Net, etc.), moteur de recherche dans le texte intégral (ici même), index terminologique, etc.

Une des clés possibles pour la compréhension du TCE est l'analyse de son vocabulaire. Partisans du oui et du non se livrent d'ailleurs largement au jeu du comptage des mots dans le document. Les aspects quantitatifs du vocabulaire peuvent sans aucun doute donner une "photographie" intéressante d'un texte, et diverses analyses lexicométriques ont été menées avec succès sur des textes politiques et littéraires. Quelques précautions méthodologiques s'imposent toutefois.

Tout d'abord, il faut disposer de bases de comparaison. Le fait que tel ou tel mot apparaisse x fois dans un texte n'a aucune signification en soi. Une des approches possibles (ce n'est pas la seule) est la comparaison avec une autre Constitution, peut-être plus familière, si ce n'est mieux connue, la Constitution Française. C'est l'approche que je vais adopter ici.

Une autre précaution, évidente, est de nature statistique. Il est bien rare que l'on puisse comparer des textes de tailles strictement identiques. Par exemple, le TCE est presque 20 fois plus volumineux que la Constitution française (en nombre de mots, annexes comprises puisque l'article IV-442 nous dit qu'elles font partie intégrante du traité). Le fait que, par exemple, le mot social apparaisse 77 fois dans le TCE et seulement 7 fois dans la Constitution française doit peut-être être pondéré par ce facteur. Si le TCE était réduit à la taille de la Constitution française, en gardant les mêmes proportions de vocabulaire, le mot social n'y apparaîtrait qu'environ 4 fois. L'excédent (7 au lieu de 4) est-il significatif ? Inversement, le mot capital apparaît 61 fois dans le TCE, et 0 fois dans la Constitution française. Mais si le TCE avait la taille de la Constitution française, il n'apparaît que trois fois. Le déficit (0 au lieu de 3) est-il significatif ?

Les statisticiens ont développé des outils permettant de mesurer la significativité de ces différences, outils qui sont largement utilisés en lexicométrie. L'idée générale est d'écrire les mots des deux constitutions sur des boules et de les mélanger dans un grand sac, comme au loto, et de tirer au hasard (sans les remettre dans le sac) autant de mots qu'en a la Constitution française. Dans le cas de social, par exemple, on peut calculer la probabilité qu'on aurait de tirer au moins 7 fois ce mot. La loi qui permet de calculer ces probabilités porte le nom savant de loi hypergéométrique. Je donne quelques exemples ci-dessous de l'application de ce modèle au vocabulaire des deux constitutions.

Le TCE contient un peu plus de 8000 mots différents, la Constitution française un peu plus de 1400 (voir listes complètes ici). Il ne m'est pas possible, matériellement parlant, de proposer une analyse de tous les mots (et aurait-elle un intérêt ?). Je m'imposerai donc trois limites :
  • je n'examinerai que les mots qui apparaissent au moins 5 fois dans les deux traités confondus (l'analyse statistique n'ayant guère de sens sur des fréquences plus faibles)
  • je me limiterai aux mots qui divergent de façon importante entre les deux Constitutions (j'ai fixé un seuil de probabilité à 0,05). Le mot social n'apparaîtra donc pas, car le calcul statistique montre que la différence observée est peu significative.
  • j'ignorerai enfin les mots triviaux (annexé, considérant, mise en oeuvre, etc.) ou les évidences qui obscurciraient l'analyse (par exemple le TCE parle beaucoup d'Europe, d'Etats membres, etc. tandis que la Constitution française parle bien entendu de Président, d'Assemblée nationale, etc.).
Pour essayer de rendre les choses lisibles, j'ai groupé les mots qui restent, et qui constituent donc le vocabulaire qui oppose le plus les deux constitutions, en un certain nombre de rubriques :
  • Economie et finances
  • L'individu et ses droits
  • Le processus démocratique
  • La loi et le processus législatif
Les diagrammes peuvent être interprétés de façon simple. Plus la barre colorée est importante, plus la différence entre les deux constitutions est significative pour le mot concerné. La colonne E donne le nombre d'occurrences dans le TCE, la colonne F dans la Constitution française et la colonne E' donne le nombre d'occurences qu'aurait le mot dans le TCE si celui-ci avait la taille de la Constitution française. Les nombres d'occurrences sont des liens cliquables vers les contextes de chaque mot dans les textes.

Economie et finances

MOTE
EUROPE
FRANCE
F(E')
BANQUE417





0(23)
BANQUES175





0(10)
MARCHÉ110





0(6)
PRODUITS109





0(6)
FONDS84





0(5)
BUDGET66





0(4)
CAPITAL61





0(3)
INVESTISSEMENT61





0(3)
FISCALES5





1(0)
ASSIETTE8





2(0)
IMPOSITIONS7





2(0)
FINANCES9





6(0)


L'individu et ses droits

MOTE
EUROPE
FRANCE
F(E')
DROITS289





7(16)
CEDH74





0(4)
RESSORTISSANTS65





0(4)
TRAVAILLEURS58





0(3)
ASILE23





3(1)
OPINIONS4





1(0)
RACE4





1(0)
ÉGALITÉ36





5(2)
CITOYENS33





6(2)
POPULATIONS3





4(0)
PEUPLE9





7(0)


Le processus démocratique

MOTE
EUROPE
FRANCE
F(E')
ÉLIT5





1(0)
PÉTITION5





1(0)
ÉLIGIBILITÉ12





2(1)
DÉMOCRATIQUE12





2(1)
ÉLECTIONS20





3(1)
PARTIS4





1(0)
LÉGISLATURE4





1(0)
PARLEMENTAIRE4





1(0)
SUFFRAGES11





3(1)
VOTE70





11(4)
PARLEMENTAIRES7





4(0)
ÉLUS6





4(0)
DÉBAT4





4(0)
MOTION6





5(0)
SUFFRAGE6





5(0)
PARLEMENT356





41(20)
ÉLECTORAL2





4(0)
ÉLU5





5(0)
CENSURE3





5(0)
DÉPUTÉS0





5(0)
ÉLECTION6





10(0)
RÉFÉRENDUM1





9(0)
ÉLECTEURS0





9(0)


La loi et le processus législatif

MOTE
EUROPE
FRANCE
F(E')
LOI-CADRE99





0(5)
TRIBUNAL108





1(6)
PÉNALEMENT5





1(0)
JUDICIAIRE28





4(2)
JUGÉ7





2(0)
PÉNALE18





4(1)
AMENDEMENTS10





3(1)
LÉGISLATIVE22





5(1)
CRIME3





2(0)
DÉLIT3





2(0)
CRIMES3





3(0)
DÉLITS3





3(0)
ORDONNANCE3





4(0)
AMENDEMENT1





4(0)
RÉGLEMENTAIRE1





4(0)
MAGISTRATURE0





5(0)
PARQUET4





7(0)
CASSATION0





6(0)
ORDONNANCES0





6(0)
DÉCRET0





8(0)
LOIS41





19(2)
MAGISTRATS3





17(0)
LOI226





94(12)


Mon propos n'est pas partisan, et je laisse chacun interpréter les tableaux ci-dessus à sa manière. Il convient bien entendu d'accueillir les chiffres avec prudence, et de retourner aux textes pour leur interprétation : ils ne dispensent pas de la lecture (et j'ai d'ailleurs fourni pour chaque mot des liens cliquables vers le texte). Le paradoxe de toute synthèse, quantitative ou pas, est qu'elle doit nécessairement, pour être une synthèse, laisser tomber une partie de l'information. Ce faisant, elle est déjà, qu'on le veuille ou non une interprétation.

Le propre de la méthode scientifique (ou qui essaie de l'être autant que faire se peut), est de founir les éléments de sa propre réfutation : je fournis ci-dessous un outil qui permet de faire votre propre sélection de mots et d'afficher vos propres diagrammes. Nul besoin d'adopter la sélection de mots et le classement en catégories que j'ai proposé ci-dessus : vous pouvez faire vos propres expériences (vous pouvez taper jusqu'à 30 mots séparés par des espaces).


Comparer les vocabulaires
des Constitutions française et européenne



Technologies du langage



Post-scriptum

7 mai - Mise au point: Le Monde, Attac et moi

Voir aussi





18 Commentaires:

Anonymous y(oYo) a écrit...

J'avais fait à peu près pareil, sur mon site, il y a quelques jours, de facon moins avancée et plus partisane (je n'ai pas d'obligation de neutralité moi hein !). Mais ça fait plaisir de voir que je n'ai pas perdu tous mes reflexes de l'époque de mon passage à la fac d'aix !

05 mai, 2005 23:16  
Anonymous y(oYo) a écrit...

heu pardon. c'est dispo ici :
http://www.feedthetroll.org/blog/index.php/2005/04/20/69-mes-raisons

05 mai, 2005 23:17  
Anonymous deroubaix a écrit...

Il serait sans doute encore plus significatif de comparer ce "texte européen" avec d'autres vraies constitutions. On obtiendrait des résultats similaires. Je tenterai d'ailleurs l'expérience.
Mais en analyste et non en partisan, je ne peux que constater que les vocabulaires spécifiques de l'un et autre textes montrent bien que le TCE n'est pas une constitution comme les autres mais un texte politique, partisan.
jean-Claude Deroubaix
Sur la dérive européenne du vocabulaire politique : voir des travaux lexicométriques de Corinne Gobin et les miens. http://users.swing.be/deroubaix)

06 mai, 2005 00:52  
Blogger all a écrit...

Attention, d'un côté une « Constitution » et de l'autre un « Traité Etablissant une Constitution pour l'Europe »
La Nation Européenne n'existe pas en tant que telle, ni le Peuple Européen.
Les mots désignant la relation entre le peuple souverain et la nation sont évidemment sur-représentés dans la constitution de 1958.
Par contre des mots qui nomment la relation entre états souverains (ce qu'est l'Union Européenne) sont plus représentés dans le TECE. Comme « banque », appelant la plupart du temps la BCE.

Cordialement

06 mai, 2005 09:47  
Blogger all a écrit...

...suite
comparons par exemple
état
états
Des résultats à l'opposé pour un même mot au singulier ou au pluriel, il suffit du "s" pour changer l'information contenue dans le substantif.

Alors que loi/lois ou banque/banques donnent des résultats comparables.

Il y a une partie du TECE qui reprend les anciens traités, une partie constitutionnelle stricto sensu (titre I et II)... Je me demande si je suis clair ;) ...
Cordialement

06 mai, 2005 12:59  
Blogger Jean Véronis a écrit...

y(oYo)> Je suis heureux de voir que ce qu'on fait à Aix laisse quelques traces. Bravo, bon courage pour votre blog!

06 mai, 2005 20:33  
Blogger Jean Véronis a écrit...

all> un côté une « Constitution » et de l'autre un « Traité Etablissant une Constitution pour l'Europe »

Peut-être est-ce une erreur de la part des rédacteurs d'avoir appelé ça "Constitution" ? C'est pourtant ce qu'il font, et sans ambiguïté, à 963 reprises !

06 mai, 2005 20:39  
Anonymous setim a écrit...

"Le propre de la méthode scientifique (ou qui essaie de l'être autant que faire se peut), est de founir les éléments de sa propre réfutation"

Vive Popper, beaucoup d'épistémologues ont démontré que, même dans les sciences dures, la réfutation n'est jamais réellement possible...

08 mai, 2005 08:49  
Anonymous sylvie dalbin a écrit...

Merci pour ce travail. Cela m'a donné l'idée d'aller regarder d'un peu plus près sur le plan des traitements statistiques : je laisse un peu le contenu pour me pencher sur les méthodes d'analyses. En prenant en compte toutes les précautions que vous donnez…
Mais me voici donc avec d'autres questions....

En prenant simplement le mot social.
* social, sociaux et sociale, même combat !
Dans les statistiques que vous nous proposez, le mot est apparemment pris strictement avec ces 6 lettres (social). Vous donnez ainsi 77 pour [traité UE] et 7 pour [constitution FR].
La prise en compte des différentes formes évidemment augmente les chiffres, mais renforce-t-elle ou pondère-t-elle les premiers résultats ?
En tout 182 occurrences [traité UE] avec 36 occurrences rien que pour « sociaux » (partenaires), et 16 pour [constitution FR] avec ici « action ou politique sociale » (3), mais aussi bien sûr « sécurité sociale » (5).
Et en intégrant un peu de « sémantique », en distinguant par exemple les noms d'institution comme le Comité économique et social pour l'UE (55 occurrences) ou le Conseil Economique et social pour FR ( 5 occurrences), cela confirme-t-il la pertinence des premiers résultats (en terme statistique) ?
J'ai aimé les partenaires sociaux avec 16 occurrences dans [UE] et ... rien dans [FR] ;-))

* autre question : ne serait-il pas intéressant (également) de traiter non pas les unitermes mais les termes composés, un grand classique des « limites » des moteurs de recherche pour certaines langues dont le français. Prenons au hasard l'allemand (mais aussi le hongrois...) : ces mêmes traitements « unitermes » ne donneraient pas de résultats comparables à ceux du français ou de l'espagnols (bien sûr on ne compare pas avec la constitution allemande). Ainsi, « politique sociale » découpée en politique d'un côté et social de l'autre, se dit SOZIALPOLITIK en allemand ou SOSIAALIPOLITIIKKA (Fl) ou SZOCIALPOLITIKA (en Hu), et encore « partenaires sociaux » se dit « sozialpartner », et le mieux que j'ai trouvé le fameux « économie sociale de marché » qui se dit « soziale Marktwirtschaft »

* quant à ce dernier terme (= qui devrait se lire comme un seul terme/concept), son occurrence faible (1 occurrence) l'a supprimé de vos listes, alors qu'il fait largement débat ! Ne serait-ce pas le signal faible des veilleurs ?
Terme qui bien sûr ne risque pas d'apparaître dans la constitution française de 1958 (révision 2004) puisque c'est un terme qui nous arrive en direct d'Allemagne et dont l'origine remonte à peu près de la même époque que notre constitution soit les (années 50).

08 mai, 2005 12:51  
Anonymous Thomas a écrit...

Bonjour, l'approche est intéressante. Deux remarques :
- Le fait qu'un mot apparaisse une fois dans la constitution française ne devrait pas compter vraiment plus qu'une occurence aussi dans la constitution européenne. Pour certains domaines, la taille du texte ne change pas forcément grand chose et une citation suffit non ?
- J'ai l'impression que votre comptage de mot est sensible aux terminaisons ("s", "es" etc..). Peut-être même aux accents. ce qui introduit un certain biais.

J'ai réalisé un programme qui compte les mots. Vous le trouverez sur cette page : http://www.sashipamelba.com/idees/constitution_europeenne.htm
Voici le résultat : http://www.sashipamelba.com/idees/constitution/mots_de_la_constitution.txt

Autre chose : nous n'avons pas le même texte source car j'observe de petites différences. Je vous propose de me donner votre fichier texte qui contient la constitution, je vous fournirai le résultat. (mon email est sur mon site)

Thomas

09 mai, 2005 12:56  
Blogger Jean Véronis a écrit...

Sylvie Dabin>

social, sociaux et sociale>>> vous posez à juste titre la question de savoir s'il faut "lemmatiser" (c'est-à-dire ramener les mots à leur forme de base ou pas). Ce n'est pas une affaire simple et il y a eu des débats passionés entre spécialistes de lexicométrie (voir l'article d'Etienne Brunet qui résume bien le débat). En ce qui me concerne j'ai un point de vue très pragmatique :

1. On se sait pas bien lemmatiser automatiquement. Même avec les meilleurs logiciels il reste de nombreuses erreurs. C'est parfois acceptable, mais sur un texte aussi "sensible" que celui-ci, je crois qu'il faut éviter de donner des comptages faux. Quant à lemmatiser à la main un ausi gros texte, ce serait un travail surhumain.

2. L'avantage de la lemmatisation n'est pas garanti (voir article ci-dessus). Je crois que si le débat a fait rage pendant aussi longtemps, c'est que pour certains mots les choses s'améliorent (peut-être pour "social", mais je n'en suis pas même sûr), pour d'autres elles se dégradent (par exemple, on n'a pas nécessairement, sur ce texte, intérêt à regrouper "Etat" et "Etats", "peuple" et "peuples", car alors, on risque de masquer certaines oppositions pertinentes, la remarque a été faite par "all" ci-dessus).

Je crois qu'in fine ce qu'on veut ce n'est pas un regroupement d'un point de vue grammatical, mais sémantique (vous employez ce mot d'ailleurs), c'est-à-dire qu'on voudrait "lumière 1" = phénomène physique (sing, plur), "lumière 2 " = locution "à la lumière" (sing seulement), "lumières 3" = mouvement intellectuel (plur seulement), etc. En plus les regroupements peuvent varier fortement selon les textes étudiés. On ne sait hélas pas faire automatiquement, et on en est même bien loin...

traiter non pas les unitermes mais les termes composés>>> oui, absolument, c'est un idéal. Il y a recoupement entre ce problème et le précédent (voir "Sécurité sociale" par exemple). On commence à savoir faire un peu, et j'ai fourni un lien ci-dessus vers un site qui propose un tel travail, basé sur le logiciel Lexter de mon ami Didier Bourrigault. La performance est impressionnante, mais le résultat est loin d'être parfait, ce qui est problématique, à nouveau sur un texte aussi controversé.

Merci infiniment de vos remarques très pertinentes, qui permettent de montrer quelles sont les limites de l'état de l'art actuel...

09 mai, 2005 20:03  
Blogger Jean Véronis a écrit...

Thomas>

Le fait qu'un mot apparaisse une fois dans la constitution française ne devrait pas compter vraiment plus qu'une occurence aussi dans la constitution européenne>>> Effectivement, c'est un grand débat. L'approche lexicométrique classique est en quelque sorte basée sur une hypothèse nulle qui est que s'il n'y avait rien de spécial à signaler, un texte serait simplement une sorte de "zoom" proportionnel de l'autre. Je suis entièrement d'accord : ce modèle est certainement à discuter. Un argument pourrait être qu'un texte plus gros devrait peut-être parler d'autres sujets, et non pas seulement faire une inflation des mêmes... Mais on touche là, à nouveau, comme avec la remarque de Sylvie, aux limites de l'état de l'art. Ce sont des sujets de recherches extrêmement difficiles (et c'est encore franchement le brouillard).

Sur les petites détails de comptage, on peut avoir de grosses différences si vous n'incluez pas toutes les parties (y compris acte final), et de petites à cause de problèmes de nettoyage et de variantes de "tokenisation", c'est-à-dire de découpage en mot (notamment au niveau es mots à trait d'union). Si on a les mêmes parties, ces petites différences devraient être marginales.

Je vais aller voir votre site, merci !

09 mai, 2005 20:10  
Anonymous Thomas a écrit...

Je viens d'exécuter mon programme sur le texte de la constitution française. Le résultat est sur mon site, ici.

Pour les curieux qui souhaitent faire des tests sur l'outil de comparaison. Voici les trente mots les plus utilisés dans la constitution française :

article loi assemblee conseil republique president gouvernement collectivite conditions parlement national projet ministre premier europeen membre constitutionnel organique droit etat alinea cour proposition competence titre traite union disposition exercice territoriale

Et voici les trente mots les plus utilisés du projet de constitution européenne (annexes non incluses) :

europeen membre etat union conseil commission parlement droit mesure politique decision loi disposition action banque constitution central comite cooperation economique section social acte institution etrangere justice procedure proposition securite objectif president

11 mai, 2005 00:41  
Anonymous Vincent a écrit...

Bonjour,

Tout d'abord merci pour cets outils textuels, redoutables d’efficacité.
Je n'étais pas revenu suivre votre carnet depuis que vous aviez publié la liste des mots les plus fréquents au sein du TCE et je constate (avec effroi) que tout le monde, y compris Chevènement, parvient aux mêmes conclusions concernant l’orientation du vocabulaire du TCE, avec évidemment plus au moins de raffinements et de précision... Décidément, l'effectif du mot banque(s) me choque !

23 mai, 2005 00:28  
Anonymous Arsène a écrit...

Tout d´abord, félicitations pour vos travaux.

Je produis actuellement un rapport sur le référendum francais pour democracy international.

Parmi les sections du rapport, il en est une denommée "intensité du débat démocratique" qui m´a conduit à mener des études et à présenter des outils qui ont été développés à l´occasion du débat sur la Constitution. Les vôtres me semblent incontournables.

J´ai personnellement confiance en votre travail, et espère avoir l´occasion d´en percevoir des bribes que vous présenteriez à Aix (ou bien je me ferai curieux!). À plus forte raison , et pour en faire l´expérience, lorsque vous témoignez de la nécessaire 'scientificité' des références à des publications en ligne sur internet dans votre article sur les liens rompus.

Cependant personne n´a encore relevé que vos graphiques présentaient des résultats erronés en fonction des chiffres avancés, dans la comparaison des nombres de mots entre eux... et ce ne peut être gage de crédibilité sur ce format de publication qu´est le blog, au sein d´une communauté scientifique étrangère par exemple.

Je vous invite donc à corriger vos graphes afin de rendre crédibles et utilisables ces informations, car en effet, je me suis vu opposé un refus de les publier dans mon rapport pour cette raison évidente.

Le cas échéant, votre référence sera naturellement citée dans le rapport. Mon site servira de support permanent aux mises-à-jour du rapport, mais aussi au référencement des liens et sources relatives à ma recherche. Base de donnée à laquelle chacun peut contribuer via le forum.

Bonne continuation, et merci encore de rendre vos travaux publics!

12 juillet, 2005 22:13  
Blogger Jean Véronis a écrit...

Arsène> vos graphiques présentaient des résultats erronés : je ne vois pas bien où... Pourriez-vous svp préciser? S'il y a erreur (c'est toujours possible!), je suis tout prêt à corriger!

25 août, 2005 11:05  
Anonymous Arsène a écrit...

Mon dernier message posté en anonyme mais liant au précédent rectifiait le tir, mais il a été supprimé du blog. Il n'y a donc pas d'erreur sauf de ma part.

Bonne continuation.

02 septembre, 2005 19:31  
Blogger trazibule a écrit...

J'ai mis en ligne sur http://www.trazibule.fr un outil de statistique en ligne pour comparer presque toutes les constitutions du monde, voir http://www.trazibule.fr/constit.php

A ce propos je recherche le texte intégrale de celles des républiques sociétiques 1936 et celle de 192? de préférences en français.

31 janvier, 2007 15:30  

Enregistrer un commentaire