Texte: Naviguez dans la Constitution Européenne
Lire la suite
19 avr - Les mots de la Constitution Européenne25 avr - Nouvelle version : Comparez les constitutions française et européenne
5 mai - Le vocabulaire des constitutions
7 mai - Mise au point: Le Monde, Attac et moi
Partisans du oui et du non s'accordent au moins sur un point : le Traité pour la Constitution Européenne (TCE) est particulièrement lourd et illisible. Un million de caractères, 480 pages, et le tout dans un style totalement abscons.
Pour vous aider à vous y retrouver et à vous forger votre opinion, j'ai créé un petit moteur de recherche sur le texte de la constitution. Plus exactement, ce moteur est ce qu'on appelle un concordancier. Il permet de voir toutes les occurrences d'un mot avec leurs contextes bien alignés.
La recherche n'est pas sensible à la casse (majuscule/minuscule) : femmes retrouvera femmes ou Femmes. Elle est limitée à 300 occurrences. Les résultats sont simples à comprendre. A gauche, un lien permet de cliquer et voir la page contenant chaque occurrence.
Vous pouvez utiliser des expressions régulières, c'est-à-dire des jokers permettant de remplacer un ou plusieurs caractères :
- le signe ? permet de rendre le dernier caractère facultatif. Exemple : femmes? cherche femme ou femmes.
- le signe . permet de remplacer n'importe quel caractère. Exemple : m.is cherche mais, mois, muis, etc.
- le signe * permet de répéter le caractère précédent (qui peut être le joker "." !) de 0 à l'infini. Exemples : VI cherche V, VI, VII, VIII ; libéral.* cherche libéral, libérale, libérales, libéralisation, etc. (mais pas libéraux !).
- le signe + permet de répéter le caractère précédent de 1 à l'infini. Exemple : VI cherche VI, VII, VIII, etc. (mais pas V)
- le signe | permet de spécifier une alternance. Exemple: hommes|femmes cherche hommes ou femmes
- les parenthèses () permettent de grouper tout ça pour faire des expressions compliquées. Exemples : (homme|femme)s? cherche homme, femme, hommes, femmes ; libéra(l|u).* cherche libéral, libérale, libérales, libéralisation, etc. et aussi libéraux.
- le signe . permet de remplacer n'importe quel caractère. Exemple : m.is cherche mais, mois, muis, etc.
- le signe * permet de répéter le caractère précédent (qui peut être le joker "." !) de 0 à l'infini. Exemples : VI cherche V, VI, VII, VIII ; libéral.* cherche libéral, libérale, libérales, libéralisation, etc. (mais pas libéraux !).
- le signe + permet de répéter le caractère précédent de 1 à l'infini. Exemple : VI cherche VI, VII, VIII, etc. (mais pas V)
- le signe | permet de spécifier une alternance. Exemple: hommes|femmes cherche hommes ou femmes
- les parenthèses () permettent de grouper tout ça pour faire des expressions compliquées. Exemples : (homme|femme)s? cherche homme, femme, hommes, femmes ; libéra(l|u).* cherche libéral, libérale, libérales, libéralisation, etc. et aussi libéraux.
*
* *
Amusez-vous bien (enfin, si on peut dire avec un tel pavé). J'espère que cet outil vous sera utile (j'aimerais avoir le temps de l'améliorer dans les jours qui viennent). Bien sûr les suggestions sont les bienvenues dans les commentaires... Faites circuler le lien, ça peut être utile à d'autres citoyens malcomprenants (comme moi) :* *
http://aixtal.blogspot.com/2005/04/texte-naviguez-dans-la-constitution.html
Nouveau
Ajoutez le formulaire sur vos pages Web !Il vous suffit de copier et de coller le code ci-dessous sur votre page. Vous pouvez l'adapter (couleur, etc.), mais merci de garder le lien vers ce blog ;-)
<div align="center"><form name="form1" action="http://www.up.univ-mrs.fr/cgi-veronis/concord-tce" method="post"> <br><b>Chercher dans la Constitution Européenne :</b><br><br><input name="forme" size="40" type="text"><br><input name="lang" value="fr" checked="checked" type="radio">Français <input name="lang" value="en" type="radio">English<br><br><input name="Chercher" value="Chercher" type="submit"><br><br><font size="-1">Merci à <a href="http://aixtal.blogspot.com">Technologies du Langage</a> - <a href="http://aixtal.blogspot.com/2005/04/texte-naviguez-dans-la-constitution.html
">Aide</a></font></form></div>
Lire la suite
19 avr - Les mots de la Constitution Européenne25 avr - Nouvelle version : Comparez les constitutions française et européenne
5 mai - Le vocabulaire des constitutions
7 mai - Mise au point: Le Monde, Attac et moi
38 Commentaires:
Merci pour votre blog très intéressant.
J'aurais simplement une petite remarque à faire au sujet de votre concordancier, il ne semble pas être l'ami des lettres accentuées.
La recherche "égalité" me renvoie :
"Recherche de égalité dans le TCE
Forme inexistante".
les caractères accentués passent bien quand on force le codage du texte en ISO-8859-1. Sur mon Mac, par exemple, le texte est saisi par défaut en Unicode (UTF-8) et il faut d'abord changer ce réglage (menu View>Character Encoding dans Firefox).
Merci beaucoup pour ce bel outil très utile.
Merci pour vos commentaires à tous deux. Evidemment je me suis fais avoir avec Unicode, faute de tester avec différentes configs de mon navigateur. Un bug de débutant (honte ;-).
J'ai ajouté un petit bout de code qui devrait résoudre le problème (j'espère...).
Elles ne sont pas régulières les expressions, mais rationnelles.
Saint-Google dixit :
"expressions régulières" => 51 800 résultats
"expressions rationnelles" => 5 980 résultats
Voir aussi ici.
;-)
http://www.minet.net/spip/article.php3?id_article=54
"Regular" en tant de "régulier" c'est plutot utilisé pour qualifier quelquechose de 'normal' : par exemple, ma femme achète des tampons regular....
Les "regular expression" sont rationnelles car elles permettent d'exprimer de façon rationnelles (de gauche à droite, à l'aide d'idiomes stricts, etc...) une recherche. Ce n'est pas un recherche empirique mais une recherche strict, donc rationnelle.
it is wonderful! i would love to spread the link, but noone i know speaks french: maybe you can add a little english explanation for it to make it easier for them? merci!
I wrote a post in Engligh. Click on the English flag at the top of this post (refresh your browser if you dont see it !)
Un petit KWIC vaut mieux qu'un grand couac... merci beaucoup pour cet outil!
(Au fait, c'est quoi, un texte "illible"? ;+)
Bravo pour cet outil utile et fort bien fait.
Une critique cependant : la mention de la page de l'occurrence est d'une utilité restreinte quand on a une version du TCE avec une pagination différente. Il serait bien plus intéressant d'avoir la mention de l'article concerné (sous la forme I-65, III-241...).
;-)
Merci pour cette remarque. J'ai mis les numéros d'articles à la place des pages. C'était un peu compliqué, merci de me signaler si ça buggue.
Très utile instrument. J'ai observé un petit problème :
recherche solidarité.* donne 24 résultats
recherche solidarit.* donne 27 résultats
Ce doit être dû au É (e accent aigu majuscule).
Merci
François Bougnet
Absolument. Il y a 3 SOLIDARITÉ en majuscules.
Je vais résoudre le pb. Merci !
Merci Jean pour cet outil bien utile. J'ai fait un lien depuis mon site http://cheval.slaes.net/greve
Puis-je vous suggérer une modification ?
Il faudrait modifier :
"est particulièrement lourd et illible. "
par
"est particulièrement lourd et illisible. "
Ce serait plus ... lisible !!!
Amitiés
Bruno Desroches
Bien vu, merci !
pas possible de mettre le truc en get plutôt qu'en post? parce que c'est (je crois) le truc qui me bloque quand j'essaie de faire un search plugin firefox :)
merci sinon, c'est de l'art, comme d'hab!
Salut,
Dans le formulaire, c'est standard la balise ‹/br> ?
Chez moi, ça marche mieux avec ‹br/> !
Sinon, bravo. Dommage que le nombre d'occurences soit limité à 300 (exemple avec banque)
Yannick
‹/br> : oops ! Comme quoi les navigateurs sont robustes : ça marche quand même dans Firefox et IE... Mais je vais corriger, merci!)
300 occurrences : c'est pour ne pas trop charger le serveur.
Banque(s) = 592 occurrences.
Très bel instrument.
J'aimerais un bonus : le palmarès des occurences.
Félicitations.
Très bientôt -;)
Merci. Mais il faut le dire: il faut évidement lire et comprendre ce que l'on signe ! De nouveaux outils, oui, mais n'acceptons pas qu'ils nous déchargent d'une lecture. Et là... qui l'a lu ? et ce n'est pas seulement parce qu'on est ...pressés ! Une Constitution doit être lisible pour permettre un vote populaire.
Du joli travail ce concordancier en ligne !
(Au fait où peut-on se le procurer ? ;) )
J'ai de mon côté réalisé une expérience sur la densité de références croisées dans le texte de la constitution: http://www.semiophore.net/v2/constitution/conseu.html
Rien de bien nouveau en ressort: ce texte est effectivement difficile à lire!
>Au fait où peut-on se le procurer ?
pour l'instant je ne le diffuse pas, parce que c'est trop artisanal (et je suis constamment en train de le faire évoluer). Voir par exemple les modifs faites aujourd'hui avec accès alphabétique:
Mots de la constitution
Je vais aller voir vos graphes plus en détail !
merci M'sieur le linguiste...
la reference "libertes individuelles" n'existe pas ????
Tiens tiens voila qui est etonnant...
Y a kekchoz qui cloche lad'dans
j'y retourne immediatement
sans espoir et sans desespoir...
>La reference "libertes individuelles" n'existe pas ????
Apparemment pas ! Il n'y a d'ailleurs qu'une seule occurrence d' "individu".
Quant au "peuple", il n'est que lapon (si, je vous jure : vérifiez). On devrait faire un "best-of"... Si le sujet n'est pas grave, ce serait à mourir de rire.
Bravo pour cette superbe recherche!
Nous pourrions l'intégrer si vous en donner l'autorisation dans NotreConstitutionPointNet http://notreconstitution.net/index.php/NotreConstitutionPointNet
qui publiera dès le 20 avril au soir l'intégrale de la Constitution sur wiki avec tous les liens actifs d'article à article et un système très simple de commentaires permettant de tenter d'éclairer le texte...
"Chercher un mot" et "Fréquence des mots" sont pour le moment accessibles à partir de http://notreconstitution.net/index.php/S%E9miotique%20de%20la%20Constitution
Sous la forme de "tranclude".
Pouvez vous nous donner votre accord pour cela?
Nous serions vraiment très honorés de vous compter aussi parmi les contributeurs de NotreConstitutionPointNet
Il vous suffit de vous enregsiter sur :
http://notreconstitution.net/index.php/DevenirR%E9dacteurDeNotreConstitutionPointNet
Olivier.auber@km2.net
Superbe travail (pas seulement technique!). Merci Jean.
J'ai une requête: où peut-on se procurer un texte "propre" du traité (i.e. correctement formatté, délimité, etc.) ? J'aimerais bien y passer quelques outils de text-mining, juste pour voir... Je te tiendrai au courant des résultats, promis.
Un grand merci pour votre contribution!
NOTRE CONSTITUTION POINT NET est maintenant en ligne: http://notreconstitution.net
Nous entendons bien en faire une plate forme pour toutes sortes d'expérimentations écheveulées... ;-)
Toutes les idées sont les bienvenues!
olivier.auber(at)km2.net
Bravo! je l'ai mis sur mon blog, évidemment: InfotechArt
Merci! Ca m'a donné l'occasion de découvrir un bien joli blog. Je le mets dans mes fils!
Votre concordancier est excellent.
J'aimerais savoir si c'est possible de l'utiliser - pour mes besoins de traduction-comme moteur de recherche sur des documents se trouvant sur mon ordinateur, et si oui, comment faire.
Merci infiniment
benyounessaidi@shaw.ca
bonsoir,
Votre outil recense 40 occurences du mot clef concurrence. Le mien (script AWK pipeliné
avec un GREP) appliqué au PDF téléchargé à l'adresse :
http://europa.eu.int/constitution/download/print_fr.pdf
en dénombre au moins 101 (table des matières comprise). Etes-vous bien sûr de votre
conversion de PDF en TXT ?
% awk -f analyseur-1.awk projetConstitution.txt | grep -i concurrence
93 : concurrence
1 : CONCURRENCE
1 : concurrence,
3 : concurrence.
3 : concurrence;
Source (minimaliste et hautement perfectible) du fichier analyseur-1.awk :
{
for(i=1 ; i<=NF ; i++)
TAB_DES_MOTS[$i]++;
}
END {
for (mot in TAB_DES_MOTS)
printf("%d : %s\n", TAB_DES_MOTS[mot], mot);
}
Rectification au message précédent. Je ne dénombre plus que 41 occurences (les mêmes que les votres augmentées de celle présente dans la table des matières). Ma conversion de PDF en TXT par copier/coller du texte intégral depuis Acrobat Reader générant des doublons, j'ai opté pour l'utilitaire pdftotext lié à xpdf.
Bonjour, je trouve votre blog très interrescent pour des ignorants de la politique comme moi, mais qui tente de s'y interesser. J'ai 2 questions: tout d'abord je ne vois pas ce que nous pouvons analyser par le vocabulaire le plus employé dans les discours de Ségo et Sarko.
Ma deuxième question étant: je cherche dans la constitution le noms propres les + cités mais quelle formule utiliser?
Merci de bien vouloir me répondre et encore bravo pour le blog ;)
discours de Ségo et Sarko : peut-être un élément de réponse là ?
noms propres du TCE : pas facile... Tout ce qui commence par une majuscule n'est pas un nom propre. Il faudrait faire un traitement assez compliqué. Je n'ai pas trop le temps mainenant parce que je suis plutôt sur l'élection 2007...
bonjour, jai un problème de traitement des formules pour les recherches sur la constitution européenne, comment avoir les mots du meme sens que fermer sans avoir le sens ferme=robuste(tel que fermement et ferme)qui n'ont pas le sens fermer en terme de clos.
Ca malheureusement, ce n'est pas faisable avec cet outil. Cela demande une analyse du sens des mots...
Enregistrer un commentaire