Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

vendredi, mai 01, 2009

Blogs: Les écrivains dont on parle le plus

Mes petits nuages sur le vocabulaire des blogs Wikio semblent avoir eu du succès... Notamment pour les blogs littéraires chez Romans et Lectures, qui regrette toutefois qu'on ne voie pas les auteurs... Évidemment, mélangés à des mots hyper fréquents comme livre ou roman, ils n'apparaissent pas dans le nuage (ou alors éclatés en deux morceaux séparés, prénom + nom).

Ca m'a titillé. Voici donc le nuage des 100 écrivains les plus cités par les blogs du top littérature Wikio (toujours grâce à Wordle) :


Cliquez pour voir en grand (pdf)
(Vous pouvez copier librement cette image)


Paul Auster et Jane Austen se détachent franchement. Peut-être à cause de la traduction de Man in the Dark pour le premier (Seul dans le noir, Actes Sud 2009), et pour le nouveau roman de la seconde, Pride and Prejudice. Non, je rigole. C'est à cause du Challenge Jane Austen lancé par Happy Few il y a quelque temps, et qui a eu pas mal de succès — un truc de filles encore, comme quoi elles ne font pas que tricoter (pendant que les garçons continuent à se tripoter l'iPhone...).

Comment ça marche ? J'ai fait tourner mon détecteur d'entités nommées (un mot savant pour les noms propres) sur les blogs Wikio, et j'ai croisé le résultat avec mes bases de données. Il se trouve que j'avais justement une base d'écrivains, donc ça s'est fait en quelques clics... Du tout automatique : mes outils ne marchent pas mal (dit-il modestement), mais on sait jamais. Si vous voyez qu'un OVNI (objet virtuel non identifié) s'est glissé dans la liste, faites-moi signe, je sortirai le Tippex !

Libellés : , ,


40 Commentaires:

Blogger Christophe Tricot a écrit...

Sympathique. Question de curieux : quel est l'origine de votre extracteur d'entités nommées ?

01 mai, 2009 12:30  
Blogger Jean Véronis a écrit...

C'est de la technologie que j'ai développée. Et je crois que ça tient à peu près la comparaison ;-)

01 mai, 2009 12:49  
Anonymous Anonyme a écrit...

Mon nom n'est pas dans votre base, voilà ce qui explique que votre carte n'est pas exhaustive. Vous êtes pardonné.

01 mai, 2009 17:55  
Blogger Jean a écrit...

C'est un faux grossier : je n'y ai vu ni Max Gallo, ni Francis Lalanne.

Le sud est brimé...
Bonjour chez vous

01 mai, 2009 18:54  
Anonymous calepin a écrit...

J'avais donc vu juste pour Jane Austen ! (d'accord, c'était facile) :-) En revanche, je suis plus surpris pour Paul Auster... Merci d'avoir tenu compte des remarques de la blogosphère littéraire (enfin... de quelques uns de ses représentants...) et bravo pour votre réactivité !

01 mai, 2009 20:02  
Blogger Jean Véronis a écrit...

Bonjour Calepin ! Eh bien oui, Paul Auster, c'est un peu surprenant, mais les chiffres sont là : on en a visiblement beaucoup parlé !

01 mai, 2009 20:04  
Blogger Philippe a écrit...

Bonjour Jean ! Le nuage semble très sensible au buzz comme tu le mentionnes dans l'analyse : il couvre quelle période ? Tu as regardé la dispersion chronologique des citations (très dispersées pour Chevillard et son blog, et plus ciblées dans le temps pour Auster et son buzz j'imagine) ?

02 mai, 2009 09:28  
Blogger Jean Véronis a écrit...

Philippe> La période couvre environ deux mois. Non, je n'ai pas regardé la dispersion choronologique. ce serait certinement une étude très intéressante à faire. On verrait sans doute apparaître les "buzz" (sortie de bouquin, challenge "Jane Austen", etc.)

02 mai, 2009 10:35  
Anonymous l'hérétique a écrit...

Dommage de n'avoir intégré que les blogs littéraires.
Les blogs politiques aussi lisent des livres et les commentent.

02 mai, 2009 18:23  
Anonymous calepin a écrit...

Un doute soudain. Si je comprends bien le principe de réalisation de ce nuage, un auteur qui ne ferait pas partie de votre base d'écrivains n'apparaîtrait pas sur ce nuage non ? D'où cette question : Stephenie Meyer fait-elle partie de votre base ? (il me semble avoir vu passer dans mon Reader pas mal de billets sur cet auteur ces deux derniers mois, or, sauf grosse fatigue oculaire de ma part, il ne me semble pas voir son nom sur votre nuage...)

02 mai, 2009 22:31  
Blogger Jean Véronis a écrit...

Calepin> Quel œil ! Stephenie Meyer est bien dans ma base, mais voilà, bug : elle était orthographiée Stephanie :-(

Elle devrait être dans le nuage des 100 premiers, à la position 33 (ex æquo avec Pierre Assouline).

(Sigh)

En tout cas merci pour cette excellente remarque, qui m'a fait trouvé un lézard...

02 mai, 2009 22:43  
Anonymous Ferocias du Blog Les Peuples du Soleil a écrit...

Amusant de voir Philippe Jaccotet en plus gros que Frédéric Beigbeder ou Amélie Nothomb beaucoup plus petite que Annie Ernaux.
Et (quasiment?) aucun des auteurs dont je parle ne figure dans le nuage. Il faut que je me mette au diapason ;)

03 mai, 2009 00:01  
OpenID arretsurlesmots a écrit...

Pourrait-on avoir l'équivalent avec les hommes politiques dont on parle le plus sur les blogs?

03 mai, 2009 20:40  
Blogger Jean Véronis a écrit...

Oui, on pourrait... Faudrait juste que je trouve un peu de temps... Mais je peux déjà vous dire que le gagnant est un certain Nicolas S. ;-)

03 mai, 2009 20:45  
Blogger François a écrit...

Est-ce que Frédéric Beigbeder peut être considéré comme un intrus? ;-)


(Promis, je m'arrête là, je ne suis pas un troll)

03 mai, 2009 21:32  
Anonymous pagesapages a écrit...

Bonjour, c'est Oliviersc qui m'a indiqué votre bonne adresse !
Je n'ai pas trouvé Erik Emmanuel Schmitt (non pas que j'avais besoin de le trouver absolument, mais il y a au minimum une vingtaine de visiteurs par jour qui viennent le chercher sur mon blog). Et j'ajoute que Victor Hugo est anormalement petit. Connaissant son ego, il va en être contrarié... :-)

05 mai, 2009 07:29  
Anonymous Anonyme a écrit...

Intéressant et ... souvent inattendu. Comment le nuage traite-t-il les écrivains qui ont un blog et dont le nom apparaît dans tous les messages quotidens (je pense à Eric Chevillard)?

05 mai, 2009 19:45  
Anonymous lp a écrit...

Est-ce que l'occurence blogienne ( bloguiste, blogueuse, blogante ...? )des entités nommées permettrait de prévoir le résultat d'une élection, du Goncourt, etc ?...Rapport à votre travail sur la presse pour la présidentielle de 2007.

05 mai, 2009 21:27  
Blogger Jean Véronis a écrit...

Anonyme> j'ai pris tous les blogs du top 100 littéraire. je crois que Chevillard n'y est pas (il n'y a pas beaucoup de blogs d'écrivains en fait). Mais de toute façon , le nom de l'auteur du blog est rarement dans le contenu de ses propres posts (Wikio prend le contenu des flux rss).

06 mai, 2009 09:01  
Blogger Jean Véronis a écrit...

LP> Prédire, c'est peut-être beaucoup demander... Mais il est certain qu'on verrait les auteurs en vogue. Ceci étant, les concours (Goncourt etc) ont un comportement différent des élections. La masse statistique des électeurs permet de bonnes observations, et de même sans doute la masse des lecteurs/blogueurs. Mais il n'est pas certain que les décisions d'un jury de quelques personnes reflètent la vox populi...

06 mai, 2009 09:04  
Anonymous Berlol a écrit...

Bonjour,
Je n'y vois pas Pierre Michon non plus. L'était pas dans la base ? Pourtant, avec ses Onze, on en parle !

10 mai, 2009 09:28  
Blogger Jean Véronis a écrit...

Berlol> Si... J'ai bien Pierre Michon, mais il est 138e. je n'ai affiché que les 100 premiers. Il y en aurait plein d'autres :

101 dan brown
102 bret easton ellis
103 jean tardieu
104 pierre jourde
105 olivia rosenthal
106 alan moore
107 nicolas dickner
etc.

10 mai, 2009 10:13  
Anonymous Ferocias du Blog Les Peuples du Soleil a écrit...

Je dois être dans l'originalité la plus pure car je ne vois aucun des auteurs dont je parle sur mon blog 8-)

10 mai, 2009 22:23  
Anonymous Jean Prod'hom a écrit...

A quelles conditions la taille du caractère de Chevillard pourrait-il gagner un point ? Suffirait-il que je répète 807 fois son nom? Un peu plus? Un peu moins?

11 mai, 2009 06:49  
Anonymous Anonyme a écrit...

Quel est l'intérêt de parler plus de ceux dont on parle déjà trop ?

PS : votre base semble stricto Franco-US. Voire même "blanche" (cf rien sur le blog de Mabanckou), non ?

11 mai, 2009 08:31  
Blogger Gondolfo a écrit...

On dirait qu'il va pleuvoir non ? :)

11 mai, 2009 09:43  
Blogger fg a écrit...

Petite question. On parle souvent de Flaubert, sans mentionner son prénom. Pareil pour Chevillard ou Hugo. Cela est-il pris en compte dans l'outil ?

11 mai, 2009 16:34  
Anonymous Portelli Giovanni a écrit...

ouin ! suis pas encore dedans !
en meme temps il n'y a jamais qu'une quarantaine de personnes qui ont acheté mon livre lol !
Mais rappelez vous mon nom, Giovanni Portelli. Un jour il sera dans la liste, promis, maman !
trève de rigolade, il en manque quand meme un paquet de sérieux dans la liste... Et des Francophones en plus ! J'ai peut-être mal vu, mais Musset Eluard, Breton et Lamartine, ce serait pas du luxe dans la culture du premier venu, non???

11 mai, 2009 17:02  
Anonymous Sancho a écrit...

C'est absolument fascinant. Je vous félicite. Une petite idée inattendue peut engendrer des effets profondément révélateurs de notre société! Une petite remarque : ça m'angoisse un peu. Ce n'est pas la littérature qui transparaît dans cette image, mais le bruit fait autour de la littérature.

11 mai, 2009 17:33  
Anonymous Glenn a écrit...

Alors, tentant d'opérer le même tag cloud pour des auteurs américains, j'ai visité Wikio (http://www.wikio.com/blogs/top) et j'ai trouvé qu'il n'existe même pas de rubrique littérature pour nous autres anglosaxons ! Ce qui est pire, Paul Auster habite en face de chez moi à Brooklyn et personne ne le reconnaît !

13 mai, 2009 04:17  
Anonymous Emmanuel a écrit...

Vous ave déjà écrit des papiers sur les algorithmes employés par votre extracteur d'entités nommés ? Dans les outils que j'écris pour faire de la veille, j'ai utilisé un module Perl nommé Lingua::EN::NamedEntity. Je sais qu'il existe des outils plus costaud comme ANNIE, mais je serais très intéressé d'en savoir plus sur la manière dont vous faites ce traitement. S'il ne s'agit pas d'un secret breveté évidemment ;-)

20 mai, 2009 02:09  
Blogger Jean Véronis a écrit...

Emmanuel> Dans ce cas précis (les écrivains) ce sont des outils que j'ai développés moi-même. Je commence à avoir pas mal de techno accumulée au fil des années ;-)

Le module Perl Lingua est trop basique à mon avis pour des applications sérieuses (et il ne traite pas le français à ma connaissance). Je n'ai pas testé ANNIE, mais c'est déjà plus "costaud" effectivement, et l'application fonctionne sur de nombreuses langues. Un peu usine à gaz, néanmoins...

20 mai, 2009 08:42  
Anonymous Emmanuel a écrit...

Pourriez-vous me conseiller quelques lectures pour le traitement des entités nommés en français ? Je programmerais volontiers un Lingua::FR::NamedEntity ;-)

Y-a-t-il moyen de tester vos outils ?

20 mai, 2009 11:44  
Blogger Jean Véronis a écrit...

Il y a une biblio récente, et une bonne discussion, dans la thèse de Maud Ehrmann :

http://www.xrce.xerox.com/Publications/Attachments/2008-065/2008-065.pdf

La thèse de David Nadeau est très intéressante aussi (mais pas sur le français) : http://www.forensicswiki.org/images/3/3a/Thesis-David-Nadeau.pdf

Mais la reconnaissance d'entités nommées, c'est surtout de l'artisanat, au bon sens du terme, c'est-à-dire du savoir-faire basé sur l'expérience, et de très grosses bases de données (personnes, entreprises, marques, etc.)...

Malheureusement mes outils ne sont pas disponibles.

20 mai, 2009 16:18  
Anonymous Emmanuel a écrit...

Merci pour les références, de bonnes lectures en perspective.

Et je me doutais un peu que vos outils seraient indisponibles ;-)

21 mai, 2009 12:18  
Anonymous Catherine a écrit...

Bonjour Jean,

Ton article m'a tellement plu que j'en ai parlé dans mon blog ! http://laculturesepartage.over-blog.com/article-32061783.html

Je dois dire que je n'ai lu qu'un tiers (environ) des auteurs de ce nuage et que seulement 3 sont chroniqués sur mon blog...

Par contre, j'ai réussi à faire mon nuage avec Wordle, mais il y a des mots pas intéressants comme « aujourd' » (pour aujourd'hui) ou « parce que », « chez »... Existe-t-il un moyen d'enlever ces mots ? J'ai vu que sur l'onglet 'Languages', il y a 'Remove common French words' mais ce n'est pas suffisant...

En tout cas, merci pour ces articles (je ne savais pas ce qu'était exactement un nuage) et bonne continuation de votre blog qui est très intéressant.

10 juin, 2009 08:40  
Anonymous keisha a écrit...

Bonjour,
J'arrive ici via le blog de Catherine. Si j'ai bien compris ne sont pris en compte que les 100 premiers du classement, et sur deux mois? Donc une sorte d'instantané appelé à varier.
Pour Austen, bonne explication. Pour Auster, attention, même sans son dernier roman, c'est quand même un chouchou des blogs.Comme Zweig d'ailleurs.
Les blogueurs (surtout blogueuses d'ailleurs) lisent par plaisir et lisent vraiment les livres dont ils parlent. Je me réjouis de voir le nom d'auteurs dits classiques. Et que dire de la non apparition de gros vendeurs de leurs livres? je ne cite pas de noms...
bref, très trèsintéressant ce nuage!

11 juin, 2009 09:23  
Anonymous keisha a écrit...

J'ai oublié de parler d'un probable "effet Chez les filles" et blogoclub.

11 juin, 2009 09:26  
Blogger Jean Véronis a écrit...

Catherine> Merci, c'est très gentil ! Evidemment, la suppression des mots outils n'est pas très au point sur Wordle... Je ne passe pas du tout par Wordle pour faire le pré-traitement : j'ai mes propres outils. J'envoie la liste de mots toute prête à Wordle, que je n'utilise que pour la mise en forme graphique. Cela me permet aussi de repérer les noms propres comme "Paul Auster" et de ne pas les éclater. Mais évidemment, ce n'est pas à la portée de tout le monde, hélas.

11 juin, 2009 09:53  
Blogger Jean Véronis a écrit...

Keisha> Oui, c'est ça. Si je refaisais l'exercie le mois prochain (j'essaierai, si j'ai le temps !), la liste aura varié. En particulier, je pense que le Challenge Jane Austen sera moins d'actualité. Il y a un peu de travail manuel à chaque fois. L'idéal serait que j'automatise le totu pour avoir chaque mois un "baromètres" des auteurs les plus cités...

Et l'on pourrait aussi prendre plus que 100 blogs !

11 juin, 2009 09:54  

Enregistrer un commentaire