Blogs: Les écrivains dont on parle le plus
Mes petits nuages sur le vocabulaire des blogs Wikio semblent avoir eu du succès... Notamment pour les blogs littéraires chez Romans et Lectures, qui regrette toutefois qu'on ne voie pas les auteurs... Évidemment, mélangés à des mots hyper fréquents comme livre ou roman, ils n'apparaissent pas dans le nuage (ou alors éclatés en deux morceaux séparés, prénom + nom).
Ca m'a titillé. Voici donc le nuage des 100 écrivains les plus cités par les blogs du top littérature Wikio (toujours grâce à Wordle) :
Paul Auster et Jane Austen se détachent franchement. Peut-être à cause de la traduction de Man in the Dark pour le premier (Seul dans le noir, Actes Sud 2009), et pour le nouveau roman de la seconde, Pride and Prejudice. Non, je rigole. C'est à cause du Challenge Jane Austen lancé par Happy Few il y a quelque temps, et qui a eu pas mal de succès — un truc de filles encore, comme quoi elles ne font pas que tricoter (pendant que les garçons continuent à se tripoter l'iPhone...).
Comment ça marche ? J'ai fait tourner mon détecteur d'entités nommées (un mot savant pour les noms propres) sur les blogs Wikio, et j'ai croisé le résultat avec mes bases de données. Il se trouve que j'avais justement une base d'écrivains, donc ça s'est fait en quelques clics... Du tout automatique : mes outils ne marchent pas mal (dit-il modestement), mais on sait jamais. Si vous voyez qu'un OVNI (objet virtuel non identifié) s'est glissé dans la liste, faites-moi signe, je sortirai le Tippex !
Ca m'a titillé. Voici donc le nuage des 100 écrivains les plus cités par les blogs du top littérature Wikio (toujours grâce à Wordle) :
Paul Auster et Jane Austen se détachent franchement. Peut-être à cause de la traduction de Man in the Dark pour le premier (Seul dans le noir, Actes Sud 2009), et pour le nouveau roman de la seconde, Pride and Prejudice. Non, je rigole. C'est à cause du Challenge Jane Austen lancé par Happy Few il y a quelque temps, et qui a eu pas mal de succès — un truc de filles encore, comme quoi elles ne font pas que tricoter (pendant que les garçons continuent à se tripoter l'iPhone...).
Comment ça marche ? J'ai fait tourner mon détecteur d'entités nommées (un mot savant pour les noms propres) sur les blogs Wikio, et j'ai croisé le résultat avec mes bases de données. Il se trouve que j'avais justement une base d'écrivains, donc ça s'est fait en quelques clics... Du tout automatique : mes outils ne marchent pas mal (dit-il modestement), mais on sait jamais. Si vous voyez qu'un OVNI (objet virtuel non identifié) s'est glissé dans la liste, faites-moi signe, je sortirai le Tippex !
Libellés : Blogs, nuages, Wikio labs
40 Commentaires:
Sympathique. Question de curieux : quel est l'origine de votre extracteur d'entités nommées ?
C'est de la technologie que j'ai développée. Et je crois que ça tient à peu près la comparaison ;-)
Mon nom n'est pas dans votre base, voilà ce qui explique que votre carte n'est pas exhaustive. Vous êtes pardonné.
C'est un faux grossier : je n'y ai vu ni Max Gallo, ni Francis Lalanne.
Le sud est brimé...
Bonjour chez vous
J'avais donc vu juste pour Jane Austen ! (d'accord, c'était facile) :-) En revanche, je suis plus surpris pour Paul Auster... Merci d'avoir tenu compte des remarques de la blogosphère littéraire (enfin... de quelques uns de ses représentants...) et bravo pour votre réactivité !
Bonjour Calepin ! Eh bien oui, Paul Auster, c'est un peu surprenant, mais les chiffres sont là : on en a visiblement beaucoup parlé !
Bonjour Jean ! Le nuage semble très sensible au buzz comme tu le mentionnes dans l'analyse : il couvre quelle période ? Tu as regardé la dispersion chronologique des citations (très dispersées pour Chevillard et son blog, et plus ciblées dans le temps pour Auster et son buzz j'imagine) ?
Philippe> La période couvre environ deux mois. Non, je n'ai pas regardé la dispersion choronologique. ce serait certinement une étude très intéressante à faire. On verrait sans doute apparaître les "buzz" (sortie de bouquin, challenge "Jane Austen", etc.)
Dommage de n'avoir intégré que les blogs littéraires.
Les blogs politiques aussi lisent des livres et les commentent.
Un doute soudain. Si je comprends bien le principe de réalisation de ce nuage, un auteur qui ne ferait pas partie de votre base d'écrivains n'apparaîtrait pas sur ce nuage non ? D'où cette question : Stephenie Meyer fait-elle partie de votre base ? (il me semble avoir vu passer dans mon Reader pas mal de billets sur cet auteur ces deux derniers mois, or, sauf grosse fatigue oculaire de ma part, il ne me semble pas voir son nom sur votre nuage...)
Calepin> Quel œil ! Stephenie Meyer est bien dans ma base, mais voilà, bug : elle était orthographiée Stephanie :-(
Elle devrait être dans le nuage des 100 premiers, à la position 33 (ex æquo avec Pierre Assouline).
(Sigh)
En tout cas merci pour cette excellente remarque, qui m'a fait trouvé un lézard...
Amusant de voir Philippe Jaccotet en plus gros que Frédéric Beigbeder ou Amélie Nothomb beaucoup plus petite que Annie Ernaux.
Et (quasiment?) aucun des auteurs dont je parle ne figure dans le nuage. Il faut que je me mette au diapason ;)
Pourrait-on avoir l'équivalent avec les hommes politiques dont on parle le plus sur les blogs?
Oui, on pourrait... Faudrait juste que je trouve un peu de temps... Mais je peux déjà vous dire que le gagnant est un certain Nicolas S. ;-)
Est-ce que Frédéric Beigbeder peut être considéré comme un intrus? ;-)
(Promis, je m'arrête là, je ne suis pas un troll)
Bonjour, c'est Oliviersc qui m'a indiqué votre bonne adresse !
Je n'ai pas trouvé Erik Emmanuel Schmitt (non pas que j'avais besoin de le trouver absolument, mais il y a au minimum une vingtaine de visiteurs par jour qui viennent le chercher sur mon blog). Et j'ajoute que Victor Hugo est anormalement petit. Connaissant son ego, il va en être contrarié... :-)
Intéressant et ... souvent inattendu. Comment le nuage traite-t-il les écrivains qui ont un blog et dont le nom apparaît dans tous les messages quotidens (je pense à Eric Chevillard)?
Est-ce que l'occurence blogienne ( bloguiste, blogueuse, blogante ...? )des entités nommées permettrait de prévoir le résultat d'une élection, du Goncourt, etc ?...Rapport à votre travail sur la presse pour la présidentielle de 2007.
Anonyme> j'ai pris tous les blogs du top 100 littéraire. je crois que Chevillard n'y est pas (il n'y a pas beaucoup de blogs d'écrivains en fait). Mais de toute façon , le nom de l'auteur du blog est rarement dans le contenu de ses propres posts (Wikio prend le contenu des flux rss).
LP> Prédire, c'est peut-être beaucoup demander... Mais il est certain qu'on verrait les auteurs en vogue. Ceci étant, les concours (Goncourt etc) ont un comportement différent des élections. La masse statistique des électeurs permet de bonnes observations, et de même sans doute la masse des lecteurs/blogueurs. Mais il n'est pas certain que les décisions d'un jury de quelques personnes reflètent la vox populi...
Bonjour,
Je n'y vois pas Pierre Michon non plus. L'était pas dans la base ? Pourtant, avec ses Onze, on en parle !
Berlol> Si... J'ai bien Pierre Michon, mais il est 138e. je n'ai affiché que les 100 premiers. Il y en aurait plein d'autres :
101 dan brown
102 bret easton ellis
103 jean tardieu
104 pierre jourde
105 olivia rosenthal
106 alan moore
107 nicolas dickner
etc.
Je dois être dans l'originalité la plus pure car je ne vois aucun des auteurs dont je parle sur mon blog 8-)
A quelles conditions la taille du caractère de Chevillard pourrait-il gagner un point ? Suffirait-il que je répète 807 fois son nom? Un peu plus? Un peu moins?
Quel est l'intérêt de parler plus de ceux dont on parle déjà trop ?
PS : votre base semble stricto Franco-US. Voire même "blanche" (cf rien sur le blog de Mabanckou), non ?
On dirait qu'il va pleuvoir non ? :)
Petite question. On parle souvent de Flaubert, sans mentionner son prénom. Pareil pour Chevillard ou Hugo. Cela est-il pris en compte dans l'outil ?
ouin ! suis pas encore dedans !
en meme temps il n'y a jamais qu'une quarantaine de personnes qui ont acheté mon livre lol !
Mais rappelez vous mon nom, Giovanni Portelli. Un jour il sera dans la liste, promis, maman !
trève de rigolade, il en manque quand meme un paquet de sérieux dans la liste... Et des Francophones en plus ! J'ai peut-être mal vu, mais Musset Eluard, Breton et Lamartine, ce serait pas du luxe dans la culture du premier venu, non???
C'est absolument fascinant. Je vous félicite. Une petite idée inattendue peut engendrer des effets profondément révélateurs de notre société! Une petite remarque : ça m'angoisse un peu. Ce n'est pas la littérature qui transparaît dans cette image, mais le bruit fait autour de la littérature.
Alors, tentant d'opérer le même tag cloud pour des auteurs américains, j'ai visité Wikio (http://www.wikio.com/blogs/top) et j'ai trouvé qu'il n'existe même pas de rubrique littérature pour nous autres anglosaxons ! Ce qui est pire, Paul Auster habite en face de chez moi à Brooklyn et personne ne le reconnaît !
Vous ave déjà écrit des papiers sur les algorithmes employés par votre extracteur d'entités nommés ? Dans les outils que j'écris pour faire de la veille, j'ai utilisé un module Perl nommé Lingua::EN::NamedEntity. Je sais qu'il existe des outils plus costaud comme ANNIE, mais je serais très intéressé d'en savoir plus sur la manière dont vous faites ce traitement. S'il ne s'agit pas d'un secret breveté évidemment ;-)
Emmanuel> Dans ce cas précis (les écrivains) ce sont des outils que j'ai développés moi-même. Je commence à avoir pas mal de techno accumulée au fil des années ;-)
Le module Perl Lingua est trop basique à mon avis pour des applications sérieuses (et il ne traite pas le français à ma connaissance). Je n'ai pas testé ANNIE, mais c'est déjà plus "costaud" effectivement, et l'application fonctionne sur de nombreuses langues. Un peu usine à gaz, néanmoins...
Pourriez-vous me conseiller quelques lectures pour le traitement des entités nommés en français ? Je programmerais volontiers un Lingua::FR::NamedEntity ;-)
Y-a-t-il moyen de tester vos outils ?
Il y a une biblio récente, et une bonne discussion, dans la thèse de Maud Ehrmann :
http://www.xrce.xerox.com/Publications/Attachments/2008-065/2008-065.pdf
La thèse de David Nadeau est très intéressante aussi (mais pas sur le français) : http://www.forensicswiki.org/images/3/3a/Thesis-David-Nadeau.pdf
Mais la reconnaissance d'entités nommées, c'est surtout de l'artisanat, au bon sens du terme, c'est-à-dire du savoir-faire basé sur l'expérience, et de très grosses bases de données (personnes, entreprises, marques, etc.)...
Malheureusement mes outils ne sont pas disponibles.
Merci pour les références, de bonnes lectures en perspective.
Et je me doutais un peu que vos outils seraient indisponibles ;-)
Bonjour Jean,
Ton article m'a tellement plu que j'en ai parlé dans mon blog ! http://laculturesepartage.over-blog.com/article-32061783.html
Je dois dire que je n'ai lu qu'un tiers (environ) des auteurs de ce nuage et que seulement 3 sont chroniqués sur mon blog...
Par contre, j'ai réussi à faire mon nuage avec Wordle, mais il y a des mots pas intéressants comme « aujourd' » (pour aujourd'hui) ou « parce que », « chez »... Existe-t-il un moyen d'enlever ces mots ? J'ai vu que sur l'onglet 'Languages', il y a 'Remove common French words' mais ce n'est pas suffisant...
En tout cas, merci pour ces articles (je ne savais pas ce qu'était exactement un nuage) et bonne continuation de votre blog qui est très intéressant.
Bonjour,
J'arrive ici via le blog de Catherine. Si j'ai bien compris ne sont pris en compte que les 100 premiers du classement, et sur deux mois? Donc une sorte d'instantané appelé à varier.
Pour Austen, bonne explication. Pour Auster, attention, même sans son dernier roman, c'est quand même un chouchou des blogs.Comme Zweig d'ailleurs.
Les blogueurs (surtout blogueuses d'ailleurs) lisent par plaisir et lisent vraiment les livres dont ils parlent. Je me réjouis de voir le nom d'auteurs dits classiques. Et que dire de la non apparition de gros vendeurs de leurs livres? je ne cite pas de noms...
bref, très trèsintéressant ce nuage!
J'ai oublié de parler d'un probable "effet Chez les filles" et blogoclub.
Catherine> Merci, c'est très gentil ! Evidemment, la suppression des mots outils n'est pas très au point sur Wordle... Je ne passe pas du tout par Wordle pour faire le pré-traitement : j'ai mes propres outils. J'envoie la liste de mots toute prête à Wordle, que je n'utilise que pour la mise en forme graphique. Cela me permet aussi de repérer les noms propres comme "Paul Auster" et de ne pas les éclater. Mais évidemment, ce n'est pas à la portée de tout le monde, hélas.
Keisha> Oui, c'est ça. Si je refaisais l'exercie le mois prochain (j'essaierai, si j'ai le temps !), la liste aura varié. En particulier, je pense que le Challenge Jane Austen sera moins d'actualité. Il y a un peu de travail manuel à chaque fois. L'idéal serait que j'automatise le totu pour avoir chaque mois un "baromètres" des auteurs les plus cités...
Et l'on pourrait aussi prendre plus que 100 blogs !
Enregistrer un commentaire