Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, avril 12, 2005

Texte: Naviguez dans la Constitution Européenne





Lire la suite

19 avr - Les mots de la Constitution Européenne
25 avr - Nouvelle version : Comparez les constitutions française et européenne
5 mai - Le vocabulaire des constitutions
7 mai - Mise au point: Le Monde, Attac et moi



Partisans du oui et du non s'accordent au moins sur un point : le Traité pour la Constitution Européenne (TCE) est particulièrement lourd et illisible. Un million de caractères, 480 pages, et le tout dans un style totalement abscons.

Pour vous aider à vous y retrouver et à vous forger votre opinion, j'ai créé un petit moteur de recherche sur le texte de la constitution. Plus exactement, ce moteur est ce qu'on appelle un concordancier. Il permet de voir toutes les occurrences d'un mot avec leurs contextes bien alignés.


Chercher dans le Traité :

Français English





La recherche n'est pas sensible à la casse (majuscule/minuscule) : femmes retrouvera femmes ou Femmes. Elle est limitée à 300 occurrences. Les résultats sont simples à comprendre. A gauche, un lien permet de cliquer et voir la page contenant chaque occurrence.

Vous pouvez utiliser des expressions régulières, c'est-à-dire des jokers permettant de remplacer un ou plusieurs caractères :

- le signe ? permet de rendre le dernier caractère facultatif. Exemple : femmes? cherche femme ou femmes.

- le signe . permet de remplacer n'importe quel caractère. Exemple : m.is cherche mais, mois, muis, etc.

- le signe * permet de répéter le caractère précédent (qui peut être le joker "." !) de 0 à l'infini. Exemples : VI cherche V, VI, VII, VIII ; libéral.* cherche libéral, libérale, libérales, libéralisation, etc. (mais pas libéraux !).

- le signe + permet de répéter le caractère précédent de 1 à l'infini. Exemple : VI cherche VI, VII, VIII, etc. (mais pas V)

- le signe | permet de spécifier une alternance. Exemple: hommes|femmes cherche hommes ou femmes

- les parenthèses () permettent de grouper tout ça pour faire des expressions compliquées. Exemples : (homme|femme)s? cherche homme, femme, hommes, femmes ; libéra(l|u).* cherche
libéral, libérale, libérales, libéralisation, etc. et aussi libéraux.

*
* *

Amusez-vous bien (enfin, si on peut dire avec un tel pavé). J'espère que cet outil vous sera utile (j'aimerais avoir le temps de l'améliorer dans les jours qui viennent). Bien sûr les suggestions sont les bienvenues dans les commentaires... Faites circuler le lien, ça peut être utile à d'autres citoyens malcomprenants (comme moi) :

http://aixtal.blogspot.com/2005/04/texte-naviguez-dans-la-constitution.html



Nouveau

Ajoutez le formulaire sur vos pages Web !

Il vous suffit de copier et de coller le code ci-dessous sur votre page. Vous pouvez l'adapter (couleur, etc.), mais merci de garder le lien vers ce blog ;-)
<div align="center"><form name="form1" action="http://www.up.univ-mrs.fr/cgi-veronis/concord-tce" method="post"> <br><b>Chercher dans la Constitution Européenne :</b><br><br><input name="forme" size="40" type="text"><br><input name="lang" value="fr" checked="checked" type="radio">Français <input name="lang" value="en" type="radio">English<br><br><input name="Chercher" value="Chercher" type="submit"><br><br><font size="-1">Merci à <a href="http://aixtal.blogspot.com">Technologies du Langage</a> - <a href="http://aixtal.blogspot.com/2005/04/texte-naviguez-dans-la-constitution.html
">Aide</a></font></form></div>


Lire la suite

19 avr - Les mots de la Constitution Européenne
25 avr - Nouvelle version : Comparez les constitutions française et européenne
5 mai - Le vocabulaire des constitutions
7 mai - Mise au point: Le Monde, Attac et moi



38 Commentaires:

Anonymous mopt a écrit...

Merci pour votre blog très intéressant.
J'aurais simplement une petite remarque à faire au sujet de votre concordancier, il ne semble pas être l'ami des lettres accentuées.

La recherche "égalité" me renvoie :
"Recherche de égalité dans le TCE
Forme inexistante".

12 avril, 2005 10:45  
Anonymous Pierre Marchant a écrit...

les caractères accentués passent bien quand on force le codage du texte en ISO-8859-1. Sur mon Mac, par exemple, le texte est saisi par défaut en Unicode (UTF-8) et il faut d'abord changer ce réglage (menu View>Character Encoding dans Firefox).

Merci beaucoup pour ce bel outil très utile.

12 avril, 2005 10:57  
Blogger Jean Véronis a écrit...

Merci pour vos commentaires à tous deux. Evidemment je me suis fais avoir avec Unicode, faute de tester avec différentes configs de mon navigateur. Un bug de débutant (honte ;-).

J'ai ajouté un petit bout de code qui devrait résoudre le problème (j'espère...).

12 avril, 2005 11:28  
Anonymous Anonyme a écrit...

Elles ne sont pas régulières les expressions, mais rationnelles.

12 avril, 2005 13:21  
Blogger Jean Véronis a écrit...

Saint-Google dixit :

"expressions régulières" => 51 800 résultats
"expressions rationnelles" => 5 980 résultats

Voir aussi ici.

;-)

12 avril, 2005 13:26  
Anonymous Anonyme a écrit...

http://www.minet.net/spip/article.php3?id_article=54

12 avril, 2005 13:29  
Anonymous Anonyme a écrit...

"Regular" en tant de "régulier" c'est plutot utilisé pour qualifier quelquechose de 'normal' : par exemple, ma femme achète des tampons regular....
Les "regular expression" sont rationnelles car elles permettent d'exprimer de façon rationnelles (de gauche à droite, à l'aide d'idiomes stricts, etc...) une recherche. Ce n'est pas un recherche empirique mais une recherche strict, donc rationnelle.

12 avril, 2005 15:10  
Anonymous ardief a écrit...

it is wonderful! i would love to spread the link, but noone i know speaks french: maybe you can add a little english explanation for it to make it easier for them? merci!

12 avril, 2005 20:22  
Blogger Jean Véronis a écrit...

I wrote a post in Engligh. Click on the English flag at the top of this post (refresh your browser if you dont see it !)

12 avril, 2005 21:02  
Anonymous Anonyme a écrit...

Un petit KWIC vaut mieux qu'un grand couac... merci beaucoup pour cet outil!

(Au fait, c'est quoi, un texte "illible"? ;+)

12 avril, 2005 22:15  
Anonymous S. Marchal a écrit...

Bravo pour cet outil utile et fort bien fait.
Une critique cependant : la mention de la page de l'occurrence est d'une utilité restreinte quand on a une version du TCE avec une pagination différente. Il serait bien plus intéressant d'avoir la mention de l'article concerné (sous la forme I-65, III-241...).
;-)

13 avril, 2005 01:47  
Blogger Jean Véronis a écrit...

Merci pour cette remarque. J'ai mis les numéros d'articles à la place des pages. C'était un peu compliqué, merci de me signaler si ça buggue.

13 avril, 2005 11:50  
Anonymous François Bougnet a écrit...

Très utile instrument. J'ai observé un petit problème :
recherche solidarité.* donne 24 résultats
recherche solidarit.* donne 27 résultats
Ce doit être dû au É (e accent aigu majuscule).

Merci

François Bougnet

13 avril, 2005 18:56  
Blogger Jean Véronis a écrit...

Absolument. Il y a 3 SOLIDARITÉ en majuscules.

Je vais résoudre le pb. Merci !

13 avril, 2005 19:17  
Anonymous Anonyme a écrit...

Merci Jean pour cet outil bien utile. J'ai fait un lien depuis mon site http://cheval.slaes.net/greve
Puis-je vous suggérer une modification ?
Il faudrait modifier :
"est particulièrement lourd et illible. "
par
"est particulièrement lourd et illisible. "
Ce serait plus ... lisible !!!
Amitiés
Bruno Desroches

13 avril, 2005 20:30  
Blogger Jean Véronis a écrit...

Bien vu, merci !

13 avril, 2005 20:32  
Anonymous Anonyme a écrit...

pas possible de mettre le truc en get plutôt qu'en post? parce que c'est (je crois) le truc qui me bloque quand j'essaie de faire un search plugin firefox :)

merci sinon, c'est de l'art, comme d'hab!

13 avril, 2005 22:30  
Anonymous Anonyme a écrit...

Salut,

Dans le formulaire, c'est standard la balise ‹/br> ?
Chez moi, ça marche mieux avec ‹br/> !

Sinon, bravo. Dommage que le nombre d'occurences soit limité à 300 (exemple avec banque)

Yannick

14 avril, 2005 22:42  
Blogger Jean Véronis a écrit...

‹/br> : oops ! Comme quoi les navigateurs sont robustes : ça marche quand même dans Firefox et IE... Mais je vais corriger, merci!)

300 occurrences : c'est pour ne pas trop charger le serveur.

Banque(s) = 592 occurrences.

14 avril, 2005 22:46  
Anonymous Anonyme a écrit...

Très bel instrument.
J'aimerais un bonus : le palmarès des occurences.
Félicitations.

15 avril, 2005 22:17  
Blogger Jean Véronis a écrit...

Très bientôt -;)

16 avril, 2005 08:58  
Anonymous Anne Monceaux a écrit...

Merci. Mais il faut le dire: il faut évidement lire et comprendre ce que l'on signe ! De nouveaux outils, oui, mais n'acceptons pas qu'ils nous déchargent d'une lecture. Et là... qui l'a lu ? et ce n'est pas seulement parce qu'on est ...pressés ! Une Constitution doit être lisible pour permettre un vote populaire.

18 avril, 2005 11:13  
Anonymous semiosys a écrit...

Du joli travail ce concordancier en ligne !
(Au fait où peut-on se le procurer ? ;) )
J'ai de mon côté réalisé une expérience sur la densité de références croisées dans le texte de la constitution: http://www.semiophore.net/v2/constitution/conseu.html
Rien de bien nouveau en ressort: ce texte est effectivement difficile à lire!

19 avril, 2005 12:23  
Blogger Jean Véronis a écrit...

>Au fait où peut-on se le procurer ?

pour l'instant je ne le diffuse pas, parce que c'est trop artisanal (et je suis constamment en train de le faire évoluer). Voir par exemple les modifs faites aujourd'hui avec accès alphabétique:

Mots de la constitution

Je vais aller voir vos graphes plus en détail !

19 avril, 2005 12:27  
Anonymous Anonyme a écrit...

merci M'sieur le linguiste...

la reference "libertes individuelles" n'existe pas ????

Tiens tiens voila qui est etonnant...

Y a kekchoz qui cloche lad'dans
j'y retourne immediatement


sans espoir et sans desespoir...

19 avril, 2005 17:32  
Blogger Jean Véronis a écrit...

>La reference "libertes individuelles" n'existe pas ????

Apparemment pas ! Il n'y a d'ailleurs qu'une seule occurrence d' "individu".

Quant au "peuple", il n'est que lapon (si, je vous jure : vérifiez). On devrait faire un "best-of"... Si le sujet n'est pas grave, ce serait à mourir de rire.

19 avril, 2005 17:40  
Blogger Olivier Auber a écrit...

Bravo pour cette superbe recherche!

Nous pourrions l'intégrer si vous en donner l'autorisation dans NotreConstitutionPointNet http://notreconstitution.net/index.php/NotreConstitutionPointNet
qui publiera dès le 20 avril au soir l'intégrale de la Constitution sur wiki avec tous les liens actifs d'article à article et un système très simple de commentaires permettant de tenter d'éclairer le texte...

"Chercher un mot" et "Fréquence des mots" sont pour le moment accessibles à partir de http://notreconstitution.net/index.php/S%E9miotique%20de%20la%20Constitution
Sous la forme de "tranclude".

Pouvez vous nous donner votre accord pour cela?
Nous serions vraiment très honorés de vous compter aussi parmi les contributeurs de NotreConstitutionPointNet

Il vous suffit de vous enregsiter sur :
http://notreconstitution.net/index.php/DevenirR%E9dacteurDeNotreConstitutionPointNet

Olivier.auber@km2.net

19 avril, 2005 23:25  
Anonymous Hugues de Mazancourt a écrit...

Superbe travail (pas seulement technique!). Merci Jean.

J'ai une requête: où peut-on se procurer un texte "propre" du traité (i.e. correctement formatté, délimité, etc.) ? J'aimerais bien y passer quelques outils de text-mining, juste pour voir... Je te tiendrai au courant des résultats, promis.

20 avril, 2005 10:30  
Anonymous Anonyme a écrit...

Un grand merci pour votre contribution!
NOTRE CONSTITUTION POINT NET est maintenant en ligne: http://notreconstitution.net

Nous entendons bien en faire une plate forme pour toutes sortes d'expérimentations écheveulées... ;-)
Toutes les idées sont les bienvenues!

olivier.auber(at)km2.net

21 avril, 2005 01:30  
Anonymous Luc Fayard a écrit...

Bravo! je l'ai mis sur mon blog, évidemment: InfotechArt

21 avril, 2005 19:25  
Blogger Jean Véronis a écrit...

Merci! Ca m'a donné l'occasion de découvrir un bien joli blog. Je le mets dans mes fils!

21 avril, 2005 19:35  
Anonymous Benyounès Saidi a écrit...

Votre concordancier est excellent.
J'aimerais savoir si c'est possible de l'utiliser - pour mes besoins de traduction-comme moteur de recherche sur des documents se trouvant sur mon ordinateur, et si oui, comment faire.
Merci infiniment
benyounessaidi@shaw.ca

16 mai, 2005 20:54  
Blogger Thomas LEDUC a écrit...

bonsoir,
Votre outil recense 40 occurences du mot clef concurrence. Le mien (script AWK pipeliné
avec un GREP) appliqué au PDF téléchargé à l'adresse :
http://europa.eu.int/constitution/download/print_fr.pdf
en dénombre au moins 101 (table des matières comprise). Etes-vous bien sûr de votre
conversion de PDF en TXT ?
% awk -f analyseur-1.awk projetConstitution.txt | grep -i concurrence
93 : concurrence
1 : CONCURRENCE
1 : concurrence,
3 : concurrence.
3 : concurrence;

Source (minimaliste et hautement perfectible) du fichier analyseur-1.awk :
{
for(i=1 ; i<=NF ; i++)
TAB_DES_MOTS[$i]++;
}
END {
for (mot in TAB_DES_MOTS)
printf("%d : %s\n", TAB_DES_MOTS[mot], mot);
}

27 mai, 2005 22:04  
Blogger Thomas LEDUC a écrit...

Rectification au message précédent. Je ne dénombre plus que 41 occurences (les mêmes que les votres augmentées de celle présente dans la table des matières). Ma conversion de PDF en TXT par copier/coller du texte intégral depuis Acrobat Reader générant des doublons, j'ai opté pour l'utilitaire pdftotext lié à xpdf.

27 mai, 2005 23:17  
Anonymous Anonyme a écrit...

Bonjour, je trouve votre blog très interrescent pour des ignorants de la politique comme moi, mais qui tente de s'y interesser. J'ai 2 questions: tout d'abord je ne vois pas ce que nous pouvons analyser par le vocabulaire le plus employé dans les discours de Ségo et Sarko.
Ma deuxième question étant: je cherche dans la constitution le noms propres les + cités mais quelle formule utiliser?
Merci de bien vouloir me répondre et encore bravo pour le blog ;)

28 février, 2007 15:20  
Blogger Jean Véronis a écrit...

discours de Ségo et Sarko : peut-être un élément de réponse ?

noms propres du TCE : pas facile... Tout ce qui commence par une majuscule n'est pas un nom propre. Il faudrait faire un traitement assez compliqué. Je n'ai pas trop le temps mainenant parce que je suis plutôt sur l'élection 2007...

28 février, 2007 15:35  
Anonymous Anonyme a écrit...

bonjour, jai un problème de traitement des formules pour les recherches sur la constitution européenne, comment avoir les mots du meme sens que fermer sans avoir le sens ferme=robuste(tel que fermement et ferme)qui n'ont pas le sens fermer en terme de clos.

28 février, 2007 16:54  
Blogger Jean Véronis a écrit...

Ca malheureusement, ce n'est pas faisable avec cet outil. Cela demande une analyse du sens des mots...

28 février, 2007 17:31  

Enregistrer un commentaire