Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

vendredi, mars 03, 2006

Outil: Le Chronologue 1.1

Ce n'est pas encore le Chronologue 2.0 mais j'ai enfin trouvé le temps d'ajouter une petite fonction que vous me réclamiez à cors et à cris: la possibilité d'afficher les courbes en fréquences journalières absolues. Je reconnais que le mode actuel dans lequel je rapporte toutes les fréquences à leur moyenne est un peu difficile à interpréter! Voici ce que ça donne:



Les courbes donnent les nombres de pages crawlées par jour (en données corrigées, voir ici). On voit évidemment beaucoup mieux l'importance relative des différents mots-clefs, mais l'inconvénient, c'est que lorsque les fréquences sont très différentes, comme ici pour MAM, les petites fréquences sont totalement écrasées, ce qui peut être trompeur. En l'occurrence, la courbe MAM a bien des mouvements internes important (liés au Clem et à l'amiante, en particulier):



Mais on ne peut pas avoir le beurre et l'argent du beurre. J'ai bien sûr laissé l'ancien mode en option, on peut donc choisir. Le formulaire est .

Tiens, un joli exemple:



Pour Ségolène, après le coup de foudre des français, déjà la routine des vieux couples? Quant à Jack et DSK pourquoi cette explosion soudaine? Serait-ce l'effet blog ? Les deux (Jack Lang, DSK) sont drôlement actifs de ce côté-là, et le buzz semble marcher à plein tube.

8 Commentaires:

Anonymous alphoenix a écrit...

Une modification un peu difficile à comprendre à la première lecture, mais après quelques retours, et une analyse des graphiques, tout va bien. Une modification intéressante donc. Avez-vous eu le temps de cette modification grâce au blocage de la fac d'Aix dont j'ai entendu parlé à la radio ?
Dans ce cas, il faut que Dominique de Villepin rajoute plein de mauvaises réformes...

03 mars, 2006 12:24  
Blogger Jean Véronis a écrit...

Alphoenix> au blocage de la fac d'Aix -- Ah oui! Exactement. c'est fou ce qu'on peut faire en une demi-journée où on n'a pas cours! Et vu le temps qu'il fait ici, je vais même m'accorder une petite sieste...

03 mars, 2006 13:22  
Anonymous Dominique a écrit...

On peut avoir des surprises dans le cas des hommes politiques dont le nom a des formes variables : http://www.up.univ-mrs.fr/cgi-veronis/chronologue?mot1=arnaud+montebourg&mot2=arnaud+de+montebourg&mot3=jean-fran%C3%A7ois+cop%C3%A9&mot4=jean-fran%C3%A7ois+copp%C3%A9+&mot5=&mot6=&affichage=absolu&Soumettre=Soumettre

03 mars, 2006 16:53  
Blogger Jean Véronis a écrit...

Dominique> Vous m'avez fait peur. En fait, la bonne orthographe écrase complètement l'autre. Dans votre exemple vous n'avez pas mis les guillemets, du coup les deux requêtes pour Arnaud Montebourg et Arnaud de Montebourg renvoient quasiment la même chose. Si on met les guillemets (ici) on voit que "Arnaud de Montebourg" est insignifiant en fréquence; idem pour Copé/Coppe (ici). Ouf...

En revanche, le problème se pose à l'inverse pour les homonymes. Je ne vois pas de moyen de séparer les différents Roland Castro ou Dieudonné.

03 mars, 2006 17:15  
Anonymous Denis a écrit...

Bonjour !

J'apprécie toujours autant cet outil. Vraiment très intéressant !

Du coup cela m'amène à quelques commentaires/questions :
1. Serait-ce possible d'avoir directement sur le graphique la signification de la grandeur en ordonnée, d'autant plus maintenant que l'on peut faire deux graphiques selon des principes différents ? Bref, mettre la légende des axes, quoi.

2. J'ai des questions à propos du calcul des résultats en relatif:
un évènement important nouveau et récent a t'il forcément une valeur très forte (relativement aux valeurs de pics d'évènements plus anciens) ?
la hauteur du maximum va t'elle décroître jusqu'à ce que l'on ne parle plus du tout de cet évènement, ce qui stabilisera la courbe ?
(comparer ce résultat, du jour à la même requête, dont une capture a été faite dans votre article du 7 décembre)

Si j'ai bien compris, on effectue le rapport du nombre de pages créées un jour donné par rapport à la moyenne des nombre des pages créées par jour jusqu'à maintenant.. Cette moyenne prenant en compte toutes les dates précédant l'évènement, elle a des valeurs très basses à l'apparition de l'évènement. Donc, plus le temps va passer, plus on prend en compte un grand nombre de faibles valeurs et donc plus le Chronologue en relatif va donner des pics importants aux nouveaux évènements. Est-ce pour cette raison que l'on est passé à l'absolu ?

Bref, cet outil est vraiment très intéressant, mais du coup, il y a un vrai besoin de comprendre comment il fonctionne pour pouvoir espérer commenter les résultats.. On peut faire dire aux chiffres n'importe quoi comme toujours (chronologuer Sarkozy/vendanges à l'automne dernier, par exemple)

03 mars, 2006 20:28  
Blogger Jean Véronis a écrit...

Denis> Merci pour ce long commentaire!

1. Légende de l'axe des Y: j'essaie de ne pas trop surcharger la représentation, mais je vais voir si je peux l'ajouter sans que ce soit horrible.

2. Relatif: le fait que ce soit relatif ou absolu ne change pas la forme de la courbe, mais seulement son échelle. Exemple: un mot clé sui a une moyenne de 100 avec un pic à 200 en absolue aura une moyenne de 1 et un pic à 2 en relatif.

En revanche, la question de l'évolution dans le temps est assez complexe et à dire vrai je n'ai qu'une partie des réponses. Il faudra observer ce qui se passe sur un certain nombre de mois pour en savoir plus.

Le premier phénomène est celui que vous décrivez. Lorsqu'on parle d'un phénomène de façon soudaine et massive, comme "miss france 2006" ou "chikungunya" et on a un pic à bord gauche très abrupt, puis une décroissance plus ou moins lente. Il peut y avoir des reprises (comme pour la grippe aviaire, par exemple: chute en décembre puis redépart encore plus important). Ce phénomène-là est simple.

L'autre phénomène, plus compliqué, est celui de l'évolution du Web dans le temps. Des pages disparaissent chaque jour, ou sont partiellement modifiées (et portent donc une date plus récente). Cela doit conduire au fil des mois à une "érosion" des pics: progressivement on doit passer des Alpes au Massif Central. A quelle vitesse? Honnêtement, pour l'instant je n'en sais rien, et je ne connais pas d'étude précise sur le sujet. Il est vrai que l'échelle absolue est inétressante pour juger de ce phénomène (mais la raison principale pour laquelle je l'ai ajoutée est le souhait des utilisateurs de pouvoir comparer les courbes de plusieurs mots-clés aussi en volume).

Il faudrait que je fasse un papier qui décrive tout ça... Le temps manque, comme toujours. Mais vous avez raison: on peut faire dire aux chiffres n'importe quoi, ou du moins beaucoup de choses. Il faut toujours être prudent dans les interprétations (mais ça ne s'applique pas qu'aux chiffres!).

04 mars, 2006 09:48  
Anonymous Dominique a écrit...

D'abord, je suis un peu confus parce que j'aurais dû songer aux guillemets et que je les croyais automatiques.

Il y a un problème si l'on regarde l'étude (très sommaire) de Netizen p. 48-49. Les hommes politiques qui bloguent sont parfois cités sous la forme d'URL ou de liens (sans mention explicite parfois du nom, de l'URL). Ces hommes politiques sont plus souvent nommés par leur nom entier que par leur adresse de blogue, mais celle-ci devrait intervenir dans le calcul. Je prends juste l'exemple de DSK (qui a justement un autre nom encore sous la forme abrégée) : http://www.up.univ-mrs.fr/cgi-veronis/chronologue?mot1=Dominique+Strauss-Kahn&mot2=DSK&mot3=http%3A%2F%2Fwww.blogdsk.net&mot4=&mot5=&mot6=&affichage=absolu&debut=01.01.2006&Soumettre=Soumettre
Or il me semble que parmi les blogues de personnalités socialistes, c'est celui qui a le plus de liens ou de renvois, mais justement sous la forme d'URL. Quelqu'un peut se référer à lui tout au long d'un texte sans jamais le nommer ou en l'abrégeant au plus.

04 mars, 2006 17:08  
Anonymous Denis a écrit...

Bonjour !

Merci pour la légende de l'axe Y ! ;-)
C'est discret et très parlant me semble-t-il.

Il me reste une question pour me débarrasser d'un doute à propos de l'érosion des pics.

Quelle est la valeur moyenne des pages utilisée en dénominateur pour le calcul en relatif :
1. la même pour tout le graphique (comme le laisse suggérer la ligne horizontale "moy") ?
2. la valeur moyenne du nombre de pages créées jusqu'à la date pour laquelle l'indice est calculé (et donc un dénominateur différent pour chaque point du graphique) ?

Dans le cas de la réponse 1, j'ai bien l'impression qu'il peut y avoir une composante d'érosion intrinsèque au calcul ?

(Voici mon raisonnement :
La hauteur du pic va diminuer si aucune page ne disparaît en effet :
pour une requête effectuée un jour J, la valeur du pic sera
nombre_de_pages_du_jour_du_pic/nombre_moyen_de_pages_jusqu_au_jour_J
pour une requête effectuée un jour J+ postérieur, la valeur du même pic sera
nombre_de_pages_du_jour_du_pic/nombre_moyen_de_pages_jusqu_au_jour_J+
valeur qui a de fortes chances d'être plus faible puisque
nombre_moyen_de_pages_jusqu_au_jour_J+ risque d'être plus grand que nombre_moyen_de_pages_jusqu_au_jour_J)

08 mars, 2006 19:47  

Enregistrer un commentaire