Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

jeudi, novembre 10, 2005

Blogs: Banlieues dans les nuages

J'ai montré l'autre jour comment les blogs parlent des banlieues à l'aide d'un nuage de mots [ici]. Ce nuage décrivait assez bien le paysage lexical de l'actualité: jeunes, Sarkozy, Paris, banlieues, violences, etc. mais je ne m'étais intéressé qu'aux mots isolés. Or les mots aussi prennent parfois leur force en bande: on entend ces jours-ci revenir comme des leitmotivs les expressions police de proximité, égalité des chances, forces de l'ordre, etc. Voici le nuage de ces expressions, construit automatiquement à partir des blogs francophones (la taille reflète la fréquence):

appels au calme · Assemblée nationale · Azouz Begag · balles réelles · banlieue parisienne · banlieues de Paris · banlieues françaises · bon sens · centre commercial · centre ville · citoyens français · classe politique · classes moyennes · Clichy sous Bois · cocktails Molotov · contrôle d'identité · coup de gueule · discrimination positive · Dominique de Villepin · droit de vote · droits de l'homme · Education nationale · égalité des chances · élection présidentielle · émeutes dans les banlieues · êtres humains · extrême droite · feu aux poudres · flambée de violence · forces de l'ordre · forces de police · Front National · gouvernement français · grande majorité · grandes villes · grands frères · grenade lacrymogène · grippe aviaire · guérilla urbaine · guerre civile · guerre en Irak · guerre mondiale · habitants des cités · habitants des quartiers · hommes politiques · Ile de France · incendies de voitures · jets de pierre · jeune homme · jeunes des banlieues · jeunes des cités · jeunes des quartiers · jeunes filles · jeunes gens · langue de bois · langue française · logements sociaux · Los Angeles · ministère de l'Intérieur · Ministre de l'Intérieur · mode de vie · modèle français · monde entier · mort de jeunes · Nicolas Sarkozy · nuit de samedi · nuit de violences · opinion publique · ordre public · ordre républicain · parti politique · Parti socialiste · police de proximité · police nationale · politique de la ville · politique d'intégration · pouvoirs publics · Premier ministre · Président de la République · problème des banlieues · quartiers difficiles · quartiers sensibles · région parisienne · rétablissement de l'ordre · secrétaire général · services publics · situation actuelle · société française · SOS Racisme · taux de chômage · tolérance zéro · transports en commun · Union européenne · véhicules brûlés · véhicules incendiés · violences dans les banlieues · violences urbaines · voitures brûlées

Intéressant non?

Pour les technologues, voici la méthode que j'ai utilisée. J'ai tout d'abord recupéré le texte intégral des 2000 billets qui contiennent le mot "banlieues" (avec leurs commentaires) et que j'avais identifiés grâce à Technorati (l'autre jour je n'avais travaillé que sur les extraits retournés par ce moteur). J'ai demandé à mon ami Didier Bourigault de passer ce corpus (environ 1,7 million de mots) dans son programme Syntex, qui est à l'heure actuelle à peu près ce qui se fait de mieux dans le domaine de la recherche automatique de terminologie (Syntex est intégré dans une chaîne complète d'analyse syntaxique et d'extraction de termes réalisée dans le cadre d'une collaboration entre l'ERSS, à laquelle appartient Didier Bourigault, et la société Synomia). D'un retour de mail, Didier m'a envoyé la liste des groupes nominaux les plus fréquents. Il ne restait plus qu'à lancer le tout dans mes petits programmes de génération de nuages, et de concordance. Si vous cliquez sur un mot vous aurez tous les contextes où le mot apparaît dans mon corpus, et à partir de ces contextes vous pourrez allez visiter les blogs qui en parlent...

Je ne veux pas vous ennuyer plus avec les détails (je répondrai volontiers, ainsi que Didier sans doute, aux questions techniques dans les commentaires), mais je voulais illustrer ce qu'on peut faire dans le domaine de la veille (sociale? citoyenne?) en quelques clics avec de bons outils de traitement automatique des langues. Il me semble que ça devrait intéresser journalistes, sociologues et autres commentateurs de l'actualité.

Libellés :


27 Commentaires:

Anonymous Nonal a écrit...

Et rien sur Iznogoud ?

10 novembre, 2005 12:41  
Anonymous Patrick, Septèmes a écrit...

Intéressant en effet, et pas seulement pour les professionnels.
Deux remarques:
Il conviendrait peut-être de retraiter ce tableau des expressions ayant la même signification : N S et MINISTRE DE L'INTERIEUR, DE VILLEPIN et PREMIER MINISTRE, JEUNES DES BANLIEUES et JEUNES DES CITES, etc... pour être encore plus parlant.
Le premier tableau faisait mention de Chirac, mais n'apparaît plus dans celui-ci sinon sous l'expression PRESIDENT DE LA REPUBLIQUE. Décidément, ce personnage est bien absent ces temps-ci!

10 novembre, 2005 13:03  
Anonymous Philippe Antoine a écrit...

Une petite remarque : Toutes les lignes du nuage n'ont pas la męme hauteur. Du coup, les lignes de plus petite hauteur se retrouvent collées aux autres et sont moins lisibles (mais pas forcément moins importantes). Par exemple "nuit de samedi" profite de l'espace généré par "Nicolas Sarkozy", alors que "égalité des chances" est noyé dans la masse.

Une solution serait peut-ętre de modifier la propriété line-height du div "tagcloud" (par exemple line-height: 25px ).

10 novembre, 2005 13:09  
Blogger Jean Véronis a écrit...

Patrick> Oui, vous avez totalement raison! Le nuage ci-dessus montre les limites de la technologie actuelle: automatiser votre suggestion n'est pas facile, et pour l'instant je ne connais aucun système qui saurait le faire à grande échelle sur du texte brut (c'est là l'un des défis de notre domaine de recherche).

Chirac n'apparaît pas parce que ce n'est pas une expression composée (même remarque pour Iznogoud ;-). Il faudrait d'une certaine manière fusionner les deux nuages. Mais comment? Un autre thème de recherche...

10 novembre, 2005 13:09  
Blogger Jean Véronis a écrit...

Philippe> Oui, les lignes n'ont pas toute la même hauteur, car si on met arbitrairement 25px partout, on a quelque chose de trop espacé et peu lisible aussi. C'est un problème spécifique à Internet Explorer (qui, rappelons-le, ne respecte pas les standards...). Ca sort très bien sous Firefox.

Je vais essayer différents réglages, mais je suis pessimiste. Si des lecteurs ont la solution, je suis preneur! En attendant essayez Firefox, c'est gratuit! ;-)

10 novembre, 2005 13:16  
Anonymous Souplounite a écrit...

C'est curieux n'est-ce pas comme l'expression taux de chômag est peu employée. Ce qui est le plus cité, ce sont les personnalités et les lieux. La forme, donc, et pas le fond.

Ce qui ne nous change pas beaucoup. Avec cette mise en page, ça saute aux yeux, et ce qui est confusément ressenti devient documenté.

Bravo.

10 novembre, 2005 13:47  
Blogger Nicolas Brouard a écrit...

Je voudrais juste remettre un lien fonctionnel vers Firefox. Et j'insiste sur le fait que c'est vraiment un navigateur à essayer. L'essayer c'est l'adopter !

10 novembre, 2005 16:15  
Anonymous Kirovitch a écrit...

Oui, diffusons Firefox ;)

Pour revenir au Blog, je me demande s'il n'est pas envisageable d'aller plus loin : creation d'une structure composee de contributeurs (techniciens et analystes) benevoles et dont le boulot est de faire ce genre de veille. Le tout est bien sur propose au monde entier par l'intermediaire d'un site (portail collaboratif ?)

En tous cas, bravo.

10 novembre, 2005 18:22  
Blogger Caroline Leboucq a écrit...

Un article interessaant http://www.repubblica.it/2005/b/rubriche/scenedigitali/sark/sark.html

10 novembre, 2005 18:26  
Blogger Pythonner a écrit...

Hey!

Amusant, j'ai eu la même idée il y a quelques jours.. probablement un cas de "multiple discovery" ;)

Dans mon cas, je créé un nuage de mots en indexant un site/domaine entier.

ici:

http://pythonner.blogspot.com/

10 novembre, 2005 19:24  
Anonymous Anonyme a écrit...

trouvé sur le net

http://blog.nozav.org/?2005/11/10/36-google-se-tape-villepin-mais-sans-faire-expres

10 novembre, 2005 20:10  
Blogger Jean Véronis a écrit...

Caroline> Oui, très intéressant, merci (je lis souvent la Repubblica, mais je n'avais pas vu cet article). Je l'ai mis dans Mes Lectures

Sans rapport: êtes-vous la Caroline d'Agathe ou est-ce une homonyme?

10 novembre, 2005 20:16  
Blogger Jean Véronis a écrit...

Pythonner> Mais n'est-ce pas exactement ce que fait le service TagCloud ?

10 novembre, 2005 20:18  
Blogger Gary Freedman a écrit...

Your blog certainly left me satisfied and smiling.

10 novembre, 2005 21:23  
Blogger Jean Véronis a écrit...

Kirovitch> Une structure... -- Oui, je rêve de quelque chose comme ça. Ca ne paraît pas impossible du point de vue technique. Il y a même un moteur Open sur lequel s'appuyer (Nutch). C'est le côté humain (bénévole) qui risque d'être plus problématique...

10 novembre, 2005 21:43  
Anonymous Dominique a écrit...

Mouais. Sauf que ce n'est pas exactement la matière des billets en question parce qu'il y a aussi des noms de liens et donc de sites ou de blogues, voire de catégories qui se retrouvent coincés dans la masse (essayez sur Langue française ou Langue de bois par exemple).

10 novembre, 2005 21:54  
Blogger Jean Véronis a écrit...

Dominique> J'ai appliqué des filtres: je n'utilise pas le texte brut. Si vous cliquez sur "langue française" ou "langue de bois" justement vous verrez que les contextes ne sont pas particulièrement bruités. Bien sûr ça reste perfectible, mais bon...

10 novembre, 2005 22:01  
Blogger Pythonner a écrit...

Jean > Tu as bien raison. Ce que j'ai mis sur mon blogue c'est exactement comme TagCloud. Sauf que c'est propriétaire ;). Faut croire que début novembre a été un bon moment pour avoir envie de créer des nuages.

J'aime bien la profondeur que tu donnes en montrant les contextes d'occurence des "tags". C'est très "clean" comme implémentation.

De mon côté, je vise un coté multilingue.. un espèce de "multilingual+multidocument summary". Quoi que ce n'est pas clair si les TagCloud sont le meilleur moyen de présenter l'information.

voir publication ici: http://iit-iti.nrc-cnrc.gc.ca/publications/nrc-48286_e.html

11 novembre, 2005 03:24  
Blogger Caroline Leboucq a écrit...

Oui Oui Je suis la Caroline d'Agathe ! Vous avez de saines lectures !

11 novembre, 2005 07:51  
Blogger Jean Véronis a écrit...

Caroline> Le monde est petit! Pour ceux qui ne savent pas de quoi on parle, cliquez ici.

Une bien jolie BD pour enfants, avec de bons scénarios pas mal d'humour, qui paraît aussi dans Julie. C'est bien ça?

Bravo! continuez (ma fille est encore un peu petite, mais quand elle aura l'âge j'espère qu'il y aura tout une collection d'albums!).

11 novembre, 2005 08:53  
Anonymous Anonyme a écrit...

Où peut-on trouver le programme Syntex? Est-il libre, payant, ni l'un ni l'autre?

11 novembre, 2005 11:26  
Blogger Moulinvert a écrit...

Un autre moyen simple de veiller consiste à lire le canard enchaîné.

On y apprend ainsi que, si nos chers gouvernants sont restés silencieux pendant longtemps, c'est qu'ils attendaient que la pluie et le froid tempèrent les ardeurs des sauvages.

Depuis quelques jours il fait froid et humide, et le canard avait une fois de plus raison...

11 novembre, 2005 16:50  
Blogger Mark Spencer a écrit...

Je ne connais pas grand chose a ces techniques, qu'entendez vous par "lancer le tout dans mes petits programmes de génération de nuages, et de concordance" ? Comment obtient-on ces nuages ?
Merci d'une réponse les applications auxquelles je pense sont très différentes des votres.
Cordialement

12 novembre, 2005 10:29  
Blogger Jean Véronis a écrit...

Mark> Ce sont des programmes que j'ai écrits pour la circonstance: qui prennent une liste d'expression avec leur fréquence, fabriquent le code HTML qui permet d'afficher différentes tailles et couleurs, qui calcule les contextes d'apparition et fabrique les pages de concordance correspondantes, etc. Bref, de la cuisine...

15 novembre, 2005 09:07  
Anonymous Anonyme a écrit...

Liens sur quelques "laboratoires sociologiques", veilleurs sociéteaux, ...Ds.2/Freeword

http://www.sociovision.fr/sociovision/page?nom=PRINCIPALE

http://www.alogic.fr/

http://www.esmerk.com/

http://www.clubdesvigilants.com/

21 septembre, 2006 17:21  
Anonymous Anonyme a écrit...

bonjour! j'ai trouvé votre article vraiment passionnant! Je suis encore étudiante mais des profs m'avaient parler du traitement automatique des langues lorsque j'étais en 3ème année. J'aime beaucoup la linguistique et je pense que le genre de programme que vous utilisez est un outil essentiel à l'observation des langues et non pas seulement à la sociolinguistique. Mes profs étaient vraiment calés là-dessus, je vais essayer de les rediriger vers votre site!

20 avril, 2007 23:12  
Blogger Jean Véronis a écrit...

Merci!

20 avril, 2007 23:18  

Enregistrer un commentaire