Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

jeudi, décembre 29, 2005

Outil: Le Chronologue redémarrre

Dans sa brève durée de vie, le Chronologue a eu un franc succès! Près de 10000 requêtes en deux jours, des commentaires un peu partout sur la blogosphère. Même le très sérieux magazine Challenges lui a consacré une pleine page:



Il est vrai que, même s'il reste plein de réglages à faire, l'outil est fascinant. Certains se sont même demandé pourquoi les moteurs ne proposent pas ce type de graphique en standard... Je n'ai pas la réponse, mais je constate que des graphiques "lexichronologiques" apparaissent tout doucement un peu partout. Dimitri faisait remarquer dans un commentaire que Google l'utilise pour son "Zeitgeist" de fin d'année:



La différence avec le Chronologue c'est que la visualisation concerne les requêtes (enfin, seulement quelques-unes choisies par Google), et non pas les documents, mais j'ai été surpris de constater hier que Technorati venait d'intégrer cette fonctionnalité sur son moteur (limité aux blogs):



BlogPulse proposait déjà un service du même type pour les blogs (un peu plus évolué, en fait, même si Technorati a l'avantage de savoir détecter la langue, ce que ne fait pas BlogPulse).



C'est évidemment plus facile sur les blogs: les sources sont à peu près connues, et le système de publication RSS date les billets de façon parfaite. Sur le Web, c'est beaucoup plus complexe: les sources dépendent du crawler et de ses stratégies, les dates sont peu fiables, etc. Beaucoup de bruit, mais l'idée du Chronologue c'était de démontrer que c'était faisable...

Seulement voilà, pas de chance, Dir.com a eu un gros problème technique, et j'ai dû arrêter temporairement le Chronologue, car les stats n'étaient plus possibles... Mais finalement c'est reparti (formulaire toujours ici). Il était temps: le "buzz" était en train de se tarir ;-)



J'en ai profité pour faire quelques petits réglages: j'affiche maintenant entre parenthèses la fréquence journalière moyenne du mot sur l'ensemble de la période (c'est-à-dire depuis le 1er septembre), et il y a beaucoup moins d'instabilités (je croise les doigts...). La courbe de "buzz" remontera peut-être ;-) Pour me consoler, je constate que je ne suis pas le seul à avoir eu le buzz bref:



Même chez les éléphants c'est la débandade:



Et ça n'est pas un bug du système, parce qu'il y a des gazelles qui montent, qui montent:



Allez, tout ça c'est pour 2007 ! En attentant, bonne fin d'année 2005:



N'abusez pas trop des bonnes choses quand même...





Post-scriptum


Tiens, ça a plu à TF1...

Voir aussi

Libellés :


9 Commentaires:

Blogger TOMHTML a écrit...

Excellent article, comme d'habitude Jean :)
et bravo pour Challenges, je n'étais pas au courant, ça c'est du buzz ! ^^

PS : pour le Zeitgeist de Google, ils ne vous ont pas copié puisqu'ils faisaient des "chronologues" bien avant vous :)
La preuve en 2003.

29 décembre, 2005 12:15  
Blogger Jean Véronis a écrit...

TomHtml> Ils ont apparemment commencé en 2001 ; Dimitri a retrouvé le lien: ici. Dommage qu'ils ne mettent pas le système en ligne: ce serait génial d'avoir la courbe sur la période et les mots-clés qu'on veut.

29 décembre, 2005 12:20  
Blogger TOMHTML a écrit...

s'ils ne le font pas c'est sans doute parce que ça doit consommer la blinde de ressources ;-)
Et aussi parce que Google ne garde pas en mémoire les précédentes versions des pages qu'il crawle.

29 décembre, 2005 14:42  
Blogger TOMHTML a écrit...

je sais pas si vous étiez au courant, mais MSN fait ça aussi désormais ^^
http://www.imagine-msn.com/insider/

sympa TF1 :)

30 décembre, 2005 14:36  
Blogger Jean Véronis a écrit...

TomHtml> Non, je ne connaissais pas! Joli (mais c'est du flash...). Dommage qu'on n'ait droit qu'à quelques requêtes!

30 décembre, 2005 16:14  
Anonymous Anonyme a écrit...

Quelle merveille pour la fin de l'année... Je vois que votre puissance dépasse les frontières française, encore une fois. La neige monte de quelques centimètres en fin d'année, les montagnes ne sont pas très significatives... Mais quelle merveille... Bonne année à vous!

30 décembre, 2005 17:23  
Anonymous Anonyme a écrit...

J'arrive un peu à la bourre (l'effet réveilon), mais on peut aussi trouver la version française du MSN Insider à http://www.msn.fr/msger/tabs/search/Default.asp (ça existe sans doute aussi en version pleine page mais je n'ai pas trouvé...)

03 janvier, 2006 18:46  
Blogger Jean-Marie Le Ray a écrit...

Bonjour, félicitations pour votre blog, et bonne année 2006, qui va redémarrrer ... sur les chapeaux de rrroue :-)

Jean-Marie Le Ray

07 janvier, 2006 15:38  
Anonymous Anonyme a écrit...

A mettre en relation avec le nombre de consultations du monde.fr

http://www.alexa.com/data/details/traffic_details?&range=1y&size=medium&compare_sites=&y=r&url=http://www.lemonde.fr#top

26 janvier, 2006 13:42  

Enregistrer un commentaire

mercredi, décembre 21, 2005

Moteurs: Liens d'affection

Je mentionnais l'autre jour l'affection particulière que semblent avoir Google et Yahoo pour Amazon. Y a-t-il d'autres "amitiés" de ce type? Pour en avoir le coeur net, j'ai repris la petite étude que je suis en train de mener avec mes étudiants aixois, à l'aide de 70 requêtes lancées sur six moteurs (voir épisodes précédents: 1, 2, 3, 4). Sur les 4200 résultats analysés, seuls trois sites de vente en ligne émergent (j'ai fixé comme limite qu'ils apparaissent au moins 10 fois dans un des moteurs): Amazon, Ebay et PriceMinister (dans cet ordre). Voici les résultats sous forme de diagramme "radar":



On voit que Google et Yahoo adorent Amazon, tandis que Voilà préfère Ebay et PriceMinister. Les autres moteurs ne semblent pas avoir d'affinités particulières avec les sites marchands. Je le comprends pour Dir et Exalead: trop petits pour attirer des partenariats, mais cela me surprend pour MSN!

Du côté des sites d'information encyclopédique ou pratique, quatre champions se dégagent (toujours le même critère: ne sont retenus que les sites retournés au moins 10 fois par un moteur): Wikipedia, Yahoo (les différents services: actualités, horoscope, etc.), AlloCiné et Doctissimo (il y avait une rubrique cinéma et une rubrique santé dans les requêtes).


Yahoo (le moteur) adooore Wikipedia! (ce n'est pas étonnant). L'encyclopédie libre est aussi présente, mais moins, sur Google, Exalead et Dir. MSN n'y fait pas trop appel (pas étonnant non plus), et Voila s'en fout: pas une seule page de Wikipedia retournée [cette censure remonte au temps où Voilà utilisait l'encyclopédie Hachette, mais ce partenariat est terminé... --voir témoignage de David dans les commentaires]. Quand je disais que ce moteur part à la dérive... Par contre, il fait très fort sur le cinéma: on voit qu'AlloCiné lui plaît franchement (ah oui, AlloCiné, c'est une société commerciale, qui a quelques liens avec Orange, qui lui-même..., etc.). Quant à Doctissimo, eh bien, on dirait qu'il plaît à MSN.

En résumé, selon ce que vous cherchez, il faut bien choisir votre moteur! Etudiez avec Yahoo, soignez-vous avec MSN, achetez vos DVD et allez au ciné grâce à Voilà... Ou alors, prenez Google (ou, bien sûr, un de ses clones); c'est peut-être pour cela que 85% des internautes français l'utilisent: il est bon (ou pas trop mauvais) un peu partout, et il ne nous agresse pas trop directement avec ses affinités commerciales. Le couteau suisse de la recherche d'information, en quelque sorte.

Et nous qui croyions ingénument que les préoccupations mercantiles n'entraient pas en compte dans le classement des résultats, que le PageRank était aussi pur que l'équation de la gravitation, et que les liens sponsorisés se rangeaient dans de petites boîtes gentiment prévues à cet effet. Hum...

33 Commentaires:

Blogger TOMHTML a écrit...

Jean, pour votre étude, vous avez pris Google.fr ou Google.com ?
Car l'un prèfere plus Wikipedia que l'autre

Et encore, là je ne vous donne qu'un exemple, mais je trouve que Wikipedia arrive assez régulièrement dans mes SERPs, c'est moins le cas sur Yahoo! il me semble.
Enfin les stats sont là pour me contredire ;)

21 décembre, 2005 19:53  
Blogger Jean Véronis a écrit...

Tomhtml> Google.fr réglé sur lang=fr avec SafeSearch.

Ca m'a surpris aussi, mais en y réfléchissant bien, l'impression que j'avais, que Google retourne beaucoup de Wikipedia, est vieille de quelques mois... récemment, il me semble que Google a fait décliner Wikipedia dans ses classements (peut-être depuis l'alliance Wikipedia-Yahoo?). Par exemple, une requête sur Neron ne me ramène (sur Google.fr, pages fr) l'article de Wikipedia qu'en 16ème position... Il fut un temps où Wikipedia sortait première sur quasiment tout. Après le flirt, le désamour?

A creuser!

21 décembre, 2005 20:02  
Blogger Marianne a écrit...

Alors là, je suis atterrée... un mythe s'effondre ! Il n'y a plus qu'à espérer qu'ils choisissent des partenariats de qualité, pour qu'on s'y retrouve au moins quant à la qualité de l'info, si ce n'est le choix éclairé...
Merci pour ces informations !
PS : vous faites trimer vos pauvres étudiants même pendant les vacances de noel ?? :-)

22 décembre, 2005 09:19  
Blogger Jean Véronis a écrit...

Marianne> Je suis un bourreau! Non, en fait on n'est en vacances que ce soir dans notre université (sigh).

22 décembre, 2005 09:29  
Blogger Marianne a écrit...

Ahaa pas cool ça :-)
Au fait, complètement hors sujet, mais puisque vous êtes un expert de google : pourquoi y avait-il une souris hier sur la page d'accueil, et encore aujourd'hui (mais elle semble collaborer avec un chat ce qui me parait vraiment curieux) ??

22 décembre, 2005 09:36  
Blogger Jean Véronis a écrit...

Marianne> Pour l'instant personne ne le sait: c'est une petite histoire qui va probablement se dérouler sur quelques jours. A suivre: le lien suivant permet de voir la BD dans sa chronologie.

22 décembre, 2005 09:46  
Blogger Vicnent a écrit...

"Et nous qui croyions ingénument que" : Arghh ... le mythe s'effondre...
Mais comment tout cela est-il géré au sein des sociétés qui gèrent les moteurs ? il y aurait en plus du PageRank une pondération par "choix personnel" d'apparition ? Ainsi, chez MSN, les appels vers Doctissimo seraient "remontés vers le haut" du fait d'un choix de msn et non du pageRank ? (ok, pageRank, c'est google...)...

22 décembre, 2005 11:46  
Blogger Vicnent a écrit...

Désolé pour le "cross-post", mais Jean, précipitez vous ici (et les onglets suivants) : Google a copié votre Chronologue... Enfin, presque, il n'offre que quelques synthèses anecdotiques... ;-))
Et Joyeux Noël !!

22 décembre, 2005 11:55  
Anonymous Anonyme a écrit...

Vicnent 3.1416:

Je ne veux pas enlever à Jean le crédit qui lui serait dû, cependant, il faut reconnaître que le Zeitgeist de Google existe depuis longtemps. La visualisation diachronique des requêtes les plus demandées sur Google fait souvent l'occasion de commentaires.

Voici les archives pour 2001:
http://www.google.com/intl/en/press/timeline.html

Voici les archives pour 2002:
http://www.google.com/intl/en/press/timeline2002.html

Voici les archives pour 2003:
http://www.google.com/intl/en/press/zeitgeist2003.html

Par contre je n'ai pas trouvé de visualisation pour 2004...

22 décembre, 2005 15:50  
Blogger TOMHTML a écrit...

Merci Jean de votre réponse, en effet il est exact qu'il y a quelques mois encore Wikipedia était partout (pour je ne sais plus quelle star américaine, en tapant son nom dans google, malgré les centaines de milliers de résultats, la bio de l'artiste sur Wikipedia arrivait en première position, suivi du site officiel de la star).
On peut constater la même chose avec Answers.com, mais ça c'était il y a beaucoup plus longtemps, qui lui aussi arrivait souvent en tête des résultats ( il arrivait pratiquement toujours en tête quand je tappais "real name" + quelque chose...)

Sans transition, si vous vous ennuyez pendant les vacances, vous pouvez vous amuser à analyser ce que retourne la fonction "related:" (pages similaires) de Google. Il y a vraiment des cas très... étranges ^^ J'en ai fait la propre expérience ici :-)).

Bonnes vacances !

22 décembre, 2005 18:25  
Anonymous Anonyme a écrit...

Jean, trés bon article merci beaucoup.
Vous dite : En résumé, selon ce que vous cherchez, il faut bien choisir votre moteur! Etudiez avec Yahoo, soignez-vous avec MSN, achetez vos DVD et allez au ciné grâce à Voilà... Ou alors, prenez Google (ou, bien sûr, un de ses clones)
Je vous repondrais que c'est pour cela que j'aime bien les métamoteurs car ils facilitent la vie de l'internaute chercheur : pour mes recherches en anglais j'aime utiliser www.myway.com et pour la recherche française j'utilise www.franceevasion.com . Ces deux metamoteurs me permettent :
1 - d'avoir une synthése de recherche sur plusieur moteurs (yahoo, google, msn, et autres) mais en plus (et c'est génial), me permettent d'avoir mes résultats de recherche depuis un seul des moteurs cités au-dessus si je le désire ....
La vie est belle non ?
Ah ! une remarque : ils n'offrent pas de résultats depuis 'Voila" . :-)

22 décembre, 2005 18:53  
Blogger Jean Véronis a écrit...

dimitridf> Oui, ces graphiques existeent depuis longtemps, et sont très intéressants (bien que trop rares). Mais la différence c'est qu'ils donnent la chronologie des reqûetes, mon outil donne la fréquence sur les documents Ce serait intéressant d'ailleurs de voir d'il y a corrélation...

23 décembre, 2005 10:26  
Blogger J2J2 a écrit...

CQFD
Bravo Jean...

23 décembre, 2005 11:23  
Anonymous Anonyme a écrit...

Merci pour cette confirmation. Comme on en demande tjrs plus, serait-il possible de faire la même étude pour le rang des blogs selon l'hébergeur..

Il me paraît vraiment important, aussi bien pour la démocratie que pour l'efficacité de l'organisation collective de nos connaissances et aussi pour un fonctionnement correct des marchés, qu'un observatoire indépendant, mais démocratiquement contrôlé, fasse régulièrement ce genre d'analyse, produise des indicateurs fiables qui permettent des comparaisons et donc des choix.

Il y en a en France pour le cinéma, la presse, la TV.. où souvent on trouve des acteurs du privé et du public. Cela devient urgent pour le Web.
Je propose J Véronis comme directeur ;-)

23 décembre, 2005 12:57  
Blogger Jean Véronis a écrit...

JM> Je propose J Véronis comme directeur -- euh c'est gentil, mais je suis un dilettante: au bout d'un mois ça m'emmerderait à mourir ;-)

Mais je suis bien d'accord sur le fait que la démocratie a quelque chose à voir sur les moyens d'accès à l'information et leur fonctionnement!

23 décembre, 2005 13:02  
Anonymous Anonyme a écrit...

Jean> autant pour moi, la différence entre votre travail et celui de Zeitgeist est importante m'avait échappé. Je répondais à Vicnent31415 qui pensait voir dans le Zeitgeist 2005 une copie du Chronologue. Cela dit, additionnés, ces deux "indices" peuvent donner une belle idée des variations de l'actualité sur le web. D'un côté, on a des producteurs d'information (blogs, sites web etc) et de l'autre, des chercheurs d'information. Considérant l'immense succès des blogs, l'on pourrait discuter de la pertinence actuelle de diviser les deux types d'acteurs de l'actualité web, mais ils correspondent chacun à une position particulière face au web qui dans son addition nous fournisse une très belle image des réactions face à l'actualité. Quelqu'un qui étudierait par exemple le cas de la solidarité internationale autour du tsunami de l'année dernière aurait là un bien bel outil. Cependant, je n'ai pas vu d'outil de recherche permettant de sérialiser/temporaliser les requêtes de utilisateurs de Google et consorts. En connaissez-vous un?

23 décembre, 2005 18:28  
Anonymous Anonyme a écrit...

Personellement, j'aurais tendance à interpreter les resultats de cette etude differement et a dire plutot qu'on voit là les differences entre algorithmes. Je pense qu'il n'y a pas de decisions editoriales chez les moteurs a part peut etre pour Wikipedia (en tous cas c'est assez clair qu'il est traité differement sur Ask Jeeves).
Les "partenariats" que Jean evoque se font à travers l'achat de liens commerciaux c'est tout je pense.

23 décembre, 2005 23:38  
Anonymous Anonyme a écrit...

Voici un article vu sur silicon.fr traitant de l'éthique des moteurs Google, Microsoft et Yahoo qui nous démontre le sérieux de "l'affaire" :-) :
"Margo Wallstroems, vice-présidente de la Commission européenne, accuse Google, Microsoft et Yahoo d'adapter leur éthique à leur cible"
Voir l'article : http://www.silicon.fr/getarticle.asp?ID=12961

24 décembre, 2005 18:33  
Blogger Jean Véronis a écrit...

Olivier> C'est tout à fait ça... La conclusion de l'article est sans équivoque: La morale a ses limites, celle des actionnaires... Merci pour le lien.

24 décembre, 2005 18:40  
Anonymous Anonyme a écrit...

Bonjour,
Tout d'abord bravo pour votre étude et bonne chance aux étudiants...

C'est juste pour parler de l'incompatibilité d'humeur entre wikipédia et voilà.
Au moment de la disparition du pape Jean Paul II et de l'arrivée de Benoît XVI, on avait vu que le nombre de personnes visitant wikipédia pour ces pages étant très important.
Sachant que pour la France (principalement pour les abonnés de wanadoo), voilà est le moteur par défaut, j'ai été voir le site et le Top Voila.fr (les demandes revenant le plus souvent). Le même constat, dans les premières demandes, il y a Jean Paul II, Benoît XVI, Vatican et Concile. je regarde si wikipédia est aussi bien représenté que sur Goggle ou Yahoo, mais non, rien du tout. Je regarde Vatican + wikipédia (pour être sûr) et je vois des sites miroirs, mais pas de wikipédia.

Je me décide d'écrire un mail à Voilà pour faire part de mon étonnement et la réponse fut sans appel.
" L'algorithme de Voila est très bien fait mais n'inclut pas wikipédia, c'est un choix de Voila. De plus, nous ne pouvons rien faire manuellement."
Je répond donc en demandant si les sites publicitaires (bouquins, tours opérateurs), le site humoristique (sans références au Vatican) ou encore le portail pour Senior (sans autre référence que le voyage (en 2002) de Jean Paul II je sais plus où) qui se trouvaient en première page répondaient efficacement à la recherche des personnes et même plus que l'article Vatican sur wikipédia.
Le lendemain, ces sites avaient disparu de la recherche Vatican mais wikipédia n'y était toujours pas...

Depuis, je déconseille fortement l'utilisation de voila.fr en disant que le site est vendu à des sociétés et que son seul but est de donner des liens commerciaux... (ça vous plombe une réputation ces affirmations, c'est pas croyable)
je le dis donc ici aussi, utilisez n'importe quel moteur de recherche mais surtout pas voila.fr...
Ce qui paraît bizarre, c'est que voila.fr n'a plus d'encyclopédie en ligne et que par conséquent, wikipédia n'est plus une menace pour Voilà.

@ bientôt et encore bravo pour votre étude.
David (un wikipédien bien entendu)
Ps:J'utilise généralement Yahoo et Google à cause d'une allergie chronique à Microsoft (µ$)...

26 décembre, 2005 21:24  
Blogger Jean Véronis a écrit...

David> Merci pour ce témoignage (j'ai ajouté un petit commentaire dans le corps du billet). L'argument de Voilà est évidemment bidon : il a bien fallu intervenir manuellement pour interdire Wikipedia, qui sinon, ne manquerait pas d'être crawlée! D'autant qu'ils vous ont donné la preuve le lendemain de votre intervention qu'ils corrigeaient manuellement la base de donnée (ce que font d'ailleurs tous les moteurs). C'est très dommage que Voila soit parti en déshérence. C'étaient les seuls avec le groupe Illiad (Dir.com) qui avaient les reins assez solides pour contrer les moteurs américains, s'ils l'avaient voulu. Exalead fait un travail superbe, mais c'est un peu David et Goliath...

27 décembre, 2005 08:40  
Anonymous Anonyme a écrit...

Bonjour,

Grâce à vous (comme je suis juste un étudiant, je préfère vouvoyer), j'ai découvert Exalead et je dois dire que je suis très agréablement surpris...
Très bonne qualité (rendu graphique et pertinence), de bon outils et une excellente intégration avec firefox (tout pour me plaire en fait ^^)

Maintenant, je vais utiliser Google, Yahoo et Exalead. (j'aime bien le fait de mettre des sites important sur la page d'acceuil).
Seul défaut (mais le site est encore jeune et trop peu connu), il n'intégre pas encore les flux informations...

David
Ps:Votre Blog représente bien ce que doit être les blogs à mon sens, un lieu d'échange organisé par quelqu'un d'important (ici, un professeur) pour mener une réflexion.

27 décembre, 2005 11:51  
Anonymous Anonyme a écrit...

Bonjour,

Google a déposé un brevet au moment de la mise en route de Google News qui affirme clairement que les sites ont une notoriété qui peu découler d'une sélection humaine.

Il s'agit en l'occurence d'établir une métrique complexe pour classer les sources de news, mais on peut évidemment penser que des éléments de cet métrique se retrouvent dans l'ensemble des activités de Google (et vraisemblablement de tous les autres moteurs compte tenu de la généralité des éléments mis en oeuvre).

Le brevet "Systems and methods for improving the ranking of news articles" (United States Patent Application 20050060312, publié le 17 mars 2005) est disponible sur le site de l'USPTO : http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PG01&p=1&u=%2Fnetahtml%2FPTO%2Fsrchnum.html&r=1&f=G&l=50&s1=%2220050060312%22.PGNR.&OS=DN/20050060312&RS=DN/20050060312

Le résumé dit clairement l'objectif :
"A system ranks results. The system may receive a list of links. The system may identify a source with which each of the links is associated and rank the list of links based at least in part on a quality of the identified sources.".

Et les méthodes pour classer les "sources" (et non seulement les "articles" ou les "documents" ce qui est le propre du google rank) sont revendiquées :
"The method of claim 1 wherein the ranking includes: retrieving a source rank value for each identified source, the source rank value being based at least in part on one or more of a number of articles produced by the identified source during a first time period, an average length of an article produced by the identified source, an amount of important coverage that the identified source produces in a second time period, a breaking news score, network traffic to the identified source, a human opinion of the identified source, circulation statistics of the identified source, a size of a staff associated with the identified source, a number of bureaus associated with the identified source, a number of original named entities in a group of articles associated with the identified source, a breadth of coverage by the identified source, a number of different countries from which traffic to the identified source originates, and a writing style used by the identified source.

Le critère "human opinion of the identified source" est précisément inclus dans l'algorithme.

Le brevet ne précise pas la pondération entre les 10 métriques utilisées... Les expériences de "reverse googling" menées par Jean et son équipe peuvent en revanche nous éclairer. Sur Google et sur les autres, évidemment.

Hervé Le Crosnier

27 décembre, 2005 23:48  
Anonymous Anonyme a écrit...

"Votre Blog représente bien ce que doit être les blogs à mon sens, un lieu d'échange organisé par quelqu'un d'important (ici, un professeur) pour mener une réflexion."

Malheureusement les "importants" se font trop rares dans les systèmes d'échange en ligne:
http://groups.google.com/group/fr.misc.cryptologie/msg/7a2a35d3497f0b0e
http://groups.google.com/group/fr.education.superieur/msg/58112383da19c07d
http://www.mmt-fr.org/article49.html

-- apokrif1@yahoo.com

29 décembre, 2005 00:39  
Blogger Jean Véronis a écrit...

David, Anonymous> Quelqu'un d'important... -- vous êtes gentils, mais je vais finir par avoir la grosse tête ! J'essaie juste de partager ce que je fais avec d'autres. Ce qui est fantastique sur la blogosphère (et le Web en général), c'est que l' "importance" ne dépend plus du statut social, mais de ce qu'on dit (et sans doute quelque peu de la façon dont on le dit)...

29 décembre, 2005 09:55  
Blogger Jean Véronis a écrit...

Hervé> J'en ai parlé ici. Le brevet concerne plutôt les News, mais de toutes façons je crois que les moteurs n'ont pas attendu ce brevet pour faire des réglages manuels (et certains choix de pondérations dans les algorithmes sont de toutes façons déjà des choix éditoriaux).

29 décembre, 2005 10:00  
Blogger TOMHTML a écrit...

hervé > c'est justement pour cela qu'existe eval.google.com , dont le but est de vérifier par des humains la pertinence des résultats. Donc dans Google aussi, les sites peuvent être classés non pas par des algorithmes, mais par des humains.

29 décembre, 2005 14:51  
Anonymous Anonyme a écrit...

Serait-ce pour ceci qu'un certain site nommé Gahooyoogle (comprenez Yahoo & Google) en aurait tiré certaines conclusions permettant de faire de recherches croisées pour des résultats plus ciblés ?

J'utilises moi-même ce "moteur" alternatif qui renvoie effectivement un nombre impressionnant de résultats en rapport avec mes diverses recherches sur le net sans avoir à passer de l'un à l'autre.

PS : Bonne année 2006 à tous.

Zef

31 décembre, 2005 14:04  
Anonymous Anonyme a écrit...

Serait-ce pour ceci qu'un certain site nommé Gahooyoogle (comprenez Yahoo & Google) en aurait tiré certaines conclusions permettant de faire de recherches croisées pour des résultats plus ciblés ?

J'utilises moi-même ce "moteur" alternatif qui renvoie effectivement un nombre impressionnant de résultats en rapport avec mes diverses recherches sur le net sans avoir à passer de l'un à l'autre.

PS : Bonne année 2006 à tous.

Zef

31 décembre, 2005 14:05  
Anonymous Anonyme a écrit...

Encore mieux: http://yahoogooglemsn.com/

01 janvier, 2006 00:25  
Anonymous Anonyme a écrit...

tomhtml> "c'est justement pour cela qu'existe eval.google.com dont le but est de vérifier par des humains la pertinence des résultats. Donc dans Google aussi, les sites peuvent être classés non pas par des algorithmes, mais par des humains."

tu commets ici une petite erreur de demonstration. l'interface derriere l'url eval.google.com ne permet pas d'influencer directement les SERPs. Ce subdomain sert aux "agents" de google (qui ne sont pas des employes) pour evaluer et noter la qualite des resultats (), et de determiner le "user happiness" (sic). on parle ici des SERPs, et non de sites isoles. Cette evaluation est donc toujours relative a une requete et est 'passive'

ce qui ne veut pas dire que ta conclusion est fausse ;)

03 janvier, 2006 15:30  
Anonymous Anonyme a écrit...

Je lis votre blog avec plaisir (aie, si c'était rude, je ne le ferais pas, la langue m'emporte... scusez) enfin bref, je cherchais des renseignements sur une initiative japonaise, (http://www.cio-today.com/news/Japan-Plans-Search-Engine/story.xhtml?story_id=110003OVHVEK et http://www.timesonline.co.uk/article/0,,25689-1943855,00.html) alors votre blog m'est revenu à l'esprit.
Rien à priori sur ce sujet, mais une bonne occasion pour vous remercier de votre blog. Je n'y post pas (comme usque 228 000 personnes) mais je vous lis avec intérêt, alors; merci.
(Je viens de passer LA semaine de l'année en ma langue maternelle, excusez aussi mon français désastreux qui s'en suit.)

04 janvier, 2006 21:28  
Anonymous Anonyme a écrit...

Bonjour,

Je viens de lire votre article sur les soi-disant connivence entre les moteurs et quelques sites.

Mais très sérieusement votre expérience ne fait que prouver que certains site sont mieux référencés que d'autres sur certains moteurs.

Ces moteurs utilisant tous des technologies différentes, cela me semble tout à fait logique.

Maintenant, que les sites les mieux référencés sur le web soient amazon, ebay, wikipedia ou encore d'autres que vous citez, si cela vous étonne, moi je trouve cela tout à fait normal étant donné la notoriété de ces sites mais surtout le nonmbre de documents qu'ils présentent.

Enfin, je doute que votre "expérience" ait été méner avec une véritable impartialité. A mon avis, vous cherchiez à démontrer quelque chose et vous avez fait en sorte de ne relever que les résultats qui allaient dans le sens de votre démonstration.

Ce qui m'inquiéte le plus, la dedans, c'est que certains considère cela comme "la preuve irréfutable".

Cette espérience n'apporte absolument pas la preuve d'une connivence entre les moteurs et certains sites.

05 janvier, 2006 18:29  

Enregistrer un commentaire

dimanche, décembre 18, 2005

Moteurs: Liens ressuscités

Jerôme Charron a rebondi sur l'idée que le crawling est un art du compromis (en commentaire sur mon dernier billet, puis sur le blog Motrech). Remarques très intéressantes, à lire! Mais Jerôme va plus loin: surpris par mes résultats, il relance l'expérience sur Google avec son propre ensemble de requêtes, et obtient bien moins de liens morts. J'étais en déplacement quand j'ai vu ses résultats; je n'avais pas mes données sous la main, mais cela m'a tracassé: bug (toujours possible!) dans mes scripts? différents réglages de nos requêtes (j'ai limité aux parges francophones avec SafeSearch, pas Jérôme), différence de time-out? Problèmes de proxy?

Aussitôt rentré, j'ai examiné mes résultats en détail, et ma surprise a été assez grande: aucune de ces hypothèses n'était la bonne. Le coupable était Amazon! Pour une raison inderterminée, www.amazon.fr renvoyait un code d'erreur au moment où j'ai lancé mon expérience, la semaine dernière, et comme c'est un des sites les plus retournés par les requêtes sur Google, ce problème a eu un impact dramatique sur les résultats: sur les 26 erreurs que j'avais comptabilisées concernant Google, 17 étaient dues au seul site www.amazon.fr! Même chose chez Yahoo: 23 erreurs sur 33. Pour les autres moteurs, l'impact était plus limité: il y a visiblement des stratégies d'alliances commerciales différentes chez les uns et chez les autres...

Aujourd'hui, les mêmes URL chez Amazon répondent... J'ai donc relancé mes requêtes et voici les nouveaux résultats (sont toujours comptabilisés comme erreurs les codes HTTP 4xx et 5xx). Google et Yahoo passent en tête, le reste est quasiment inchangé.



Je faisais part l'autre jour de ma surprise de voir MSN et Voila en tête. Le nouveau diagramme correspond bien plus à mon intuition initiale. Pour autant, cette estimation est-elle meilleure? Ce n'est pas si évident: après tout, la situation de l'autre jour a bien existé, et un internaute qui aurait interrogé les moteurs à ce moment précis aurait eu un taux d'erreurs bien plus élevé chez Google et Yahoo. Le tout est de savoir si de tels incidents ont des chances d'apparaître fréquemment. Si l'on regarde la distribution des domaines des différentes URL uniques de mon enquête, on s'aperçoit qu'ils ont un comportement en loi de puissance, comme beaucoup de choses sur le Web:


Quelques domaines se taillent la part du lion dans les résultats. Amazon n'est que second. Le site le plus cité est Wikipedia. On trouve ensuite des sites de pages personnelles (Wanadoo, Lycos, Chez) , des sites spécialisés (Allocine, Doctissimo), des sites de forums (Aceboard), etc. Lorsque des problèmes affectent les sites de la queue de la distribution, l'incidence globable est négligeable; par contre lorsqu'un site de tête est touché, l'incidence sur les résultats est très importante. Bien sûr, on peut penser que le taux d'incidents est faible sur les sites très populaires, mais il n'est certainement pas nul (et Wikipedia a justement connu bien des difficultés, même si la situation semble s'être considérablement améliorée depuis quelque temps).

Globalement, l'instabilité des résultats est plus grande que ce à quoi je m'attendais. Même en ne comptant pas le cas Amazon, près du quart des URL mortes dans ma deuxième expérience étaient vivantes l'autre jour, et inversement près du quart des URL mortes l'autre jour se sont réveillées:


[URL uniques hors Amazon.fr]

Tout ceci montre la difficulté de l'exercice... Pour estimer de façon sérieuse la proportion de liens morts dans les résultats, il faudrait faire une moyenne sur un nombre suffisant de relevés à quelques jours d'intervalle. Mais entre temps, les résultats retournés par les moteurs changeraient: il faudrait donc relancer tout le processus de requête à chaque fois (ce que je n'ai pas fait ici: j'ai conservé les résultats retournés l'autre jour).

En tous cas, merci à Jérôme de nous avoir donné l'occasion de réfléchir au problème (et en plus j'ai un bien bel exemple pour expliquer à mes étudiants la difficulté de l'estimation lorsque les événements ne sont pas aussi indépendants qu'on croit et lorsque les distributions sous-jacentes sont extrêmement asymétriques!).

Libellés :


9 Commentaires:

Anonymous Anonyme a écrit...

Des liens "morts" ? Certes, vous en donnez la définition : somme des url renvoyant un code d'erreur 4xx ou 5xx. Le choix du mot est-il bien pertinent ?

Une erreur m'agace, la 500 : Internal server error. J'en ai en gros 1%. Systématiquement je clique le bouton "Actualiser" ; et presque toujours la page s'affiche ; c'était juste un bit qui avait mal tourné !

Le serveur qui ne réponds pas ? Celui du ministère des finances me fait couramment le coup (en intranet). Le jour où il sera réellement mort, nous ne serons plus payés ;-(

Reste la fameuse 404 : Page not found.
Vendredi dernier, sur typepad.com (un hébergeur de blogs), la dernière semaine avait disparu pour 2 blogs que je visite régulièrement. Ce matin, tout est rentré dans l'ordre ; ils n'étaient pas morts, juste en réa (de leur disque dur).

Il existe bien des liens morts ; de deux sortes.
- les pages mortes (voire les sites). Effacées par leur auteur ; parfois leur fantôme rode sur les sites d'archivage du Web. Quelle est l'espérance de vie d'une page ?
- les pages "déménagées". Par réorganisation du site, archivage ... On peut les retrouver (pas toujours facilement) en repartant de la page d'accueil du site.

La statistique est la science du flou.

19 décembre, 2005 12:44  
Anonymous Anonyme a écrit...

Bonjour,

Tout d'abord bravo pour vos commentaires toujours tres pertinents dans leur impertinence.
J'avais une question de méthode :
Quels sont les liens testés ?
Tous les liens réponses à une requete ? seulement les 10 premiers ?
Dans tous les cas, n'avons nous pas envie de séparer le fait que le premier resultat soit mort du fait que ce soit le 10eme qui soit mort ?

19 décembre, 2005 14:42  
Anonymous Anonyme a écrit...

L'esprit de l'escalier ... Il me semblait bizare que des sites puissent apparaitre avec une fréquence si élevée ; juste bizare. Un moment me vint l'idée que les requêtes d'un groupe d'étudiants puisse ne concerner qu'un sous-ensemble restreint du domaine de la connaissance.
Puis l'illumination : votre échantillon de sites est complètement biaisé ! Et pour qu'un statisticien mette 3 heures à découvrir un biais, faut qu'il soit subtil :o)

La probabilité qu'un site soit cité est égale au nombre de pages qu'il contient sur le nombre total de pages indexées (20 milliards ?). Wikipedia a 10.6 millon de pages selon Google, 1.4 selon Yahoo ; Chez en a 3.8 selon G, 9.8 selon Y . A la casserole (la louche ne contenant pas l'approximation), les sites que vous citez devrait se trouver 1 ou 2 fois parmi les 4200 liens ; 5 pour celui se situant à 3 écarts-type au dessus de sa proba moyenne ; Pas 50 fois.

Vous ne voyez pas ce que nous (vous et moi) venons de découvrir ?
La valeur du coefficient multiplicateur du PageRank !!! Un des gros secrets commerciaux des moteurs.
Parceque vous prenez les 10 premiers résultats sur des requêtes en donnant des milliers (millons parfois). Choisiriez-vous les résultats de 51 à 60, ces sites seraient moins présents (absents ?) et vous n'auriez plus cette instabilité.

Toutefois la meilleure solution consiste à passer des requêtes apparement farfelues, ramenant moins de 1000 pages (idéalement moins de 50). Si Amazon et Wikipedia ne sont pas dans l'ensemble des réponses, ils ne pouront pas être remontés dans les 10 premiers.

Sur {kennedy confiture} on a moins de 1000 réponses.
Et Google a www.jfk-fr.com en 10 ; damned ! Yahoo ne le connait plus ; ouf.

La correspondance entre les 2 moteurs me semble encore plus faible, mais à la main, ce n'est pas çà.

PS: pour les sites en "réa" vendredi sur typepad.com, j'en ai repéré un autre : Affordance :-(

19 décembre, 2005 17:31  
Blogger Jean Véronis a écrit...

Pilou> choix du terme "lien mort" -- oui, on peut discuter: la preuve, il y a des liens morts qui ressuscitent. Pour diminuer les problèmes temporaires, mon scripts fait plusieurs essai avec un intervalle avant de déclarer que le serveur ne répond pas.

19 décembre, 2005 18:11  
Blogger Jean Véronis a écrit...

Sébastien> J'ai décrit plus en détail la méthode dans le premier billet de cette mini série: ici.

Les liens considérés ici sont les 10 premières réponses à une requête. J'ai regardé aussi ce que donnait le premier résultat, mais j'ai trop peu de données pour en tirer grand chose de significatif. Il faudrait faire l'étude non pas avec 70 requêtes, mais avec plusieurs centaines...

19 décembre, 2005 18:16  
Anonymous Anonyme a écrit...

Bonjour,
Pour continuer les questions de "méthode" lancées par Sébastien, je me demandais quels sont les types de requêtes utilisées pour cette étude? S'agit-il de phrases en langue naturelle, de mots clés, de liste de mots clés? Serait-il possible d'avoir un petit exemple? Ma question est en fait suscitée par la mention de "Doctissimo" comme site spécialisé revenant fréquemment en réponse à certaines requêtes, relevant du domaine de la santé je suppose (ou pas spécialement?). Une étude des sites les plus fréquemments retournés par les moteurs en fonction du domaine ciblé par les requêtes me parait intéressant. Peut-être aurai-je le temps de me pencher là-dessus pendant les vacances...

21 décembre, 2005 09:34  
Blogger Jean Véronis a écrit...

Aurélie> Les 14 domaines choisis sont:

actualites
animaux
cinema
divertissements
histoire
litterature
musique
nature
personnages
politique
sante
sport
surnaturel
voyages

Chaque thème était attribué à un étudiant différent, qui choisissait 5 requêtes à sa façon, c'est-à-dire comme il interrogerait normalement le moteur de recherche. Cela me paraissait important, de façon à avoir un panel diversifié (si ce n'est représentatif...) des pratiques des utilisateurs.

Par exemple pour "santé", les requêtes choisies par l'étudiante concernée étaient:

Obesite jeunes adolescents
"Grippe aviaire"
cholesterol
euthanasie
conseils "arreter de fumer"

Quand on aura fini, je ferai un texte avec tous les détails. Pour l'instant on a le nez dans le guidon...

21 décembre, 2005 10:19  
Anonymous Anonyme a écrit...

Jean> merci pour ces précisions!

21 décembre, 2005 11:18  
Anonymous Anonyme a écrit...

c'est clair que je remarque de plus en plsu d'erreur dans google, dans yahoo je te raconte meme pas, mais le pire c 'est dans les pages en caches, maintenant une fois sur 2 t'as plus rien du tout, je crois que la nouvelle revolution sur google a interet a etre plutot portés sur ce probleme

27 décembre, 2005 21:41  

Enregistrer un commentaire

jeudi, décembre 15, 2005

Moteurs: Liens morts-vivants

Il me semble qu'il y a quelques années, les moteurs retournaient plus souvent des liens morts dans leurs résultats de requêtes. Ces temps-ci, cela arrive encore, mais c'est bien rare... Pour en avoir le coeur net, j'ai vérifié les 4200 résultats retournés par les 70 requêtes sur les six moteurs que je suis en train d'analyser avec mes étudiants [voir début de l'enquête: 1 et 2], et effectivement, cette impression se confirme: pas plus de quelques pourcents d'erreurs (codes d'erreur 4xx, dont le célèbre 404, "Page not found", et 5xx). La situation est toutefois assez différente selon les moteurs, puisque le taux d'erreurs varie du simple au triple, comme le montre le diagramme suivant:



J'avoue que je ne m'attendais pas à ce classement. On voit que le leader, Google, est dans une bonne moyenne (3,7%), avec son challenger immédiat Yahoo (4,7%). Les meilleurs sont MSN et Voila (contre toute attente, étant donné l'état de relatif abandon de ce dernier que je dénonçais dans un précédent billet), avec 1,9% d'erreurs. Exalead et Dir sont moins bons, avec respectivement 6,1% et 6,6% d'erreurs: en gros un lien mort pour chaque écran et demi de résultats, mais ça n'est pas, somme toute, catastrophique (surtout avec des moyens bien plus limités que les "grands").

Ces écarts révèlent sans doute des stratégies différentes de crawling (et notamment la fréquence de rafraîchissement). La position relativement moyenne de Google et Yahoo peut sans doute s'expliquer par le fait que leurs bases sont de loin les plus importantes à l'heure actuelle, et qu'elles sont évidemment plus difficiles à maintenir. Tout l'art du crawl consiste à trouver un compromis acceptable entre la fréquence de rafraîchissement et les ressources informatiques disponibles...

De toutes façons, le 0% d'erreurs est impossible à obtenir: il y aura toujours ici ou là un serveur en panne ou un problème réseau quelconque, même si la page existe toujours. De plus, Philippe Develter (Dir.com) me fait remarquer qu'il n'est pas inintéressant de conserver des pages qui retournent une erreur 404 puisque les liens morts sont toujours vivants dans le cache et que l'information en question est même datée: les moteurs jouent quelque peu le rôle de mini Wayback Machines. Je reconnais que j'utilise moi-même cette fonctionnalité assez souvent. Donc, c'est peut-être paradoxal, mais le nombre de liens morts n'est peut-être pas un bon indicateur de qualité!


Lire la suite



14 Commentaires:

Anonymous Anonyme a écrit...

Bonjour
La lecture de votre blog est décidemment passionnante! Il semble en effet que le nombre de liens morts soit une conséquence immédiate de la fréquence de rafraichissement des moteurs. A ce propos, a-t-on une idée de la durée de vie moyenne d'une page web? Vous pourriez l'estimer à partir de vos résultats si vous connaissiez les dites "fréquences"! Quelle loi suit la durée de vie d'un lien?
Au plaisir de vous lire (et relire)

15 décembre, 2005 09:35  
Anonymous Anonyme a écrit...

Pour le faible taux de liens morts de Voila j'ai peut être une explication : Voila retourne dans ses résultats un mix de ses résultats moteurs (des pages individuelles donc) et annuaire (des domaines). Hors les noms de domaines ont une durée de vie plus longue que les pages individuelles et retournent donc moins d'erreurs 404.

15 décembre, 2005 09:38  
Anonymous Anonyme a écrit...

J'avais lu récemment une étude Peer Factor sur le sujet des pages en erreur 404 dans les index des moteurs.

Figurez vous que la page en question est maintenant en ... erreur 404.

Mais toujours disponible dans le cache de Google

15 décembre, 2005 12:23  
Anonymous Anonyme a écrit...

Bonjour,
Il semble y avoir un léger problème de copier/coller dans votre texte, au passage :
"puisqu'on peut les liens mots sont toujours vivants dans le cache".
Cdt

15 décembre, 2005 12:31  
Blogger TOMHTML a écrit...

J'allais dire la même chose que Sébastien Billard, en effet le résultat pour Voila ne me surprend pas ;)


N'empêche, au maximum 6% de 404, c'est pas mal comparé à il y a quelques années, où je me souviens surtout de Hotbot (si si, souvenez vous !) qui renvoyait une fois sur deux une page d'erreur...

PS pour toi, fidèle lecteur d'Aixtal : n'hésite pas à voter pour ce blog sur Blogsdelannee.com !

15 décembre, 2005 13:49  
Blogger J2J2 a écrit...

Jean, tu viens de mettre les pieds dans un sujet, qui contrairement aux idées reçues est assez complexe: le crawling.

Le crawling, est un art délicat de compromis:

1. Compromis de politesse: ne pas lancer trop de requêtes simultanées vers un même serveur, et respecter un temps minimum entre chaque salve de requêtes (sans quoi votre téléphone va très rapidement se mettre à sonner).

2. Compromis de planification: Adapter la fréquence de crawl d'un site en fonction de sa fréquence de mise à jour, sans pour autant ne repasser qu'une fois tous les ans sur un site qui est rarement modifié.

3. Compromis de défense: Eviter les pièges (redirections infinies, fichiers de taille infinies, liens infinis), tout en ne passant pas à côté de choses "intéressantes"

4. ...

[Viennent ensuite de nombreux autres compromis permettant de pallier à la fois la mauvaise configuration des serveurs HTTP (et ils sont nombreux) afin de tout simplement détecter le type d'un fichier par exemple (ce qui permet d'appeler le parseur adéquate), etc... mais ce n'est plus une affaire de crawling]

Bref, un moteur de recherche, d'un point de vue technologique, ce n'est pas si simple. Et les chiffres donnés ici me semblent plutôt honorables.

Il serait cependant intéressant de voir dans ce billet:
1. la répartition des liens morts de chaque moteur en fonction de code de retour HTTP (4xx, 5xx).
2. De mentionner quels sont les codes de retour comptabilisés comme des erreurs.

Enfin il est à noter également que dans les liens non-morts se glissent un certain nombre de liens réellement mort-vivants: Des pages ne contenant qu'un simple message "Cette page n'existent pas", ou bien "Ressource non trouvée" mais qui ont la mauvaise idée de ne pas être associé à un code d'erreur 404, mais à un code de succès 200. Dans une telle situation le crawler ne peut rien faire. C'est indétectable d'un point de vue protocolaire (analyse linguistique vas tu me dire? Pourquoi pas, mais ce n'est pas l'affaire du crawler)!

La période des fêtes de noël te rendrait-elle plus "coolant" Jean?
Parce que voir les liens morts comme une fonctionnalité: très fort!

;-)

15 décembre, 2005 15:04  
Blogger Jean Véronis a écrit...

Merci Aurelien, j'ai corrige le bug de copier-coller. Et merci a tous: vos commentaires sont passionnants aussi. Je suis dans de mauvaises conditions pour repondre: je suis en deplacement, mon portable est kaput et je squatte l,ordinateur de l'hotel avec un clavier QWERTZ a peu pres impraticable... Mais je vous lis avec interet, je repondrai dimanche (jerome, des commentaires aussi longs, il faut les garder comme billets sur le blog motrech! ;-)

15 décembre, 2005 17:33  
Blogger J2J2 a écrit...

Oui, je sais Jean, mais en ce moment je n'ai vraiment pas le temps... un commentaire reste plus rapide qu'un billet à rédiger...

15 décembre, 2005 18:01  
Anonymous Anonyme a écrit...

Bonjour,

"Le crawling, est un art délicat de compromis"
je confirme tout à fait.
Quand je me suis "attaqué" à ce problème il y a 4 ans dèjà ! les considérations portaient sur le nombre de machines, et la bande passante ...
depuis je me suis rendu compte que le nombre
de pages sur la toile est quasiment infini étant donné le nombre de "pièges à robots" volontaire ou la pluspart du temps involontare qui s'y niche ...
Philippe.

16 décembre, 2005 10:38  
Anonymous Anonyme a écrit...

Bonjour,
http://affordance.typepad.com/mon_weblog/2005/12/loi_du_march_et.html
j'ai toruvé ce lien juste au dessous de votre dernier message : et bing
404
c'est sans doute une blague ;)
j'apprécie beuacoup votre site, et le visite à chaque nouveauté!
cordialement,
Ceci dit j'aurais aimé voir ce qu'il y avait derrière ce titre Loi du Marché et loi d'inertie
Philippe

16 décembre, 2005 16:26  
Blogger J2J2 a écrit...

Voilà Jean, c'est chose faite... "Liens morts-vivants: Ca diverge dur!

17 décembre, 2005 01:49  
Anonymous Anonyme a écrit...

On n'entend plus parler d'Altavista, qui était je crois un moteur réputé à l'époque (c'était du moins au départ mon moteur préféré quand j'ai découvert Internet en 1997).

J'attends avec impatience une éventuelle analyse plus poussée des différents moteurs !

17 décembre, 2005 05:40  
Anonymous Anonyme a écrit...

Au fou !!!
Vous voulez réduire les liens brisés dans les résultats renvoyés par les moteurs de recherches ? Mais c'est justement l'inverse qui m'intéresse !
J'utilise très souvent Google pour retrouver dans son cache un lien brisé qui m'a été donné par un autre site. Commence alors un exercice difficile consistant à trouver comment la page (dont je ne connais a priori que très mal le contenu, mise à part l'URL) peut-être obtenue par une requête Google !

Au dela de cette remarque "un peu" provocatrice, on peut vraiment regretter que la mise à jour des index supprime les liens inaccessibles. Il serait intéressant d'avoir une fonction permettant de conserver la référence de la page dans le cahce, en mentionnant toutefois que la page est connue comme inaccessible...

PS: croyez moi ou pas, le mot de contrôle que me propose tout de suite blogger pour vérifier que je ne suis pas un robot spammeur est "sarkozi": l'UMP aurait-elle également investi de ce côté ? ;-)

18 décembre, 2005 00:10  
Anonymous Anonyme a écrit...

L'étude Peer Factor que j'évoquais plus haut est disponible dans la newsletter de décembre de Moteurzine.

http://www.moteurzine.com/index.html#8

27 décembre, 2005 15:38  

Enregistrer un commentaire

mardi, décembre 13, 2005

Moteurs: Ca diverge dur! (2)

Bonjour à tous! Voici quelques diagrammes supplémentaires, en réponse aux nombreux commentaires à mon billet d'hier (dont je vous remercie!).

Tout d'abord, le nombre de moteurs qui retournent une URL donnée. Bien sûr, la plupart des URL sont retournées par un seul moteur, ce qui reflète la divergence que je décrivais hier. Moins de 10% des URL sont retournées par au moins deux moteurs...



C'est assez étonnant de voir que sur 4200 résultats (3515 URL uniques), seules deux URL sont retournées par les 6 moteurs. Les heureuses gagnantes sont :
Encore plus étonnant, si la première est relativement pertinente (elle parle de l'assassinat de JFK), la seconde ne l'est strictement pas pour apprendre quoi que ce soit sur la métaphore...

Autre petit calcul du matin: la concordance entre positions pour les résultats retournés par deux moteurs différents (évidemment dans les rares cas où les résultats sont communs). Je n'ai pas traité les 15 couples, ce serait fastidieux, mais j'ai comparé les positions des résultats des cinq autres moteurs par rapport au "leader", Google, sous forme de diagramme à bulles (les bulles sont d'autant plus grosses que les positions X, Y concordent sur l'ensemble des requêtes):


On voit clairement apparaître une coherence pour quatre des moteurs par rapport à Google: Yahoo, MSN, Exalead et Dir. La concordance n'est évidemment pas parfaite, mais il y a une tendance prononcée à retourner des positions qui se ressemblent: si les autres moteurs n'implémentent pas exactement le PageRank, ils ont manifestement quelque chose qui y ressemble! Par contre, Voila donne des positions bien peu corrélées à celles de Google (et en fait de tous les autres moteurs) sur les quelques résultats qu'il donne en commun: cela pourrait être l'indice d'un comportement novateur et génial, mais j'ai le sentiment que cela reflète plutôt un sérieux besoin de serrer quelques boulons algorithmiques!

Libellés :


8 Commentaires:

Anonymous Anonyme a écrit...

Intéressant.
Signalons au passage ce qui me semble un biais : le site sur kennedy appartient à aK, qui sévit sur le forum webrankinfo, forum dédié au... référencement ! Pas tellement étonnant donc de le retrouver sur tous les moteurs : il y, à cet effet, du travail en amont.

13 décembre, 2005 11:55  
Anonymous Anonyme a écrit...

J'apprécie beaucoup ce que vous faites ; aussi vais-je me permettre un commentaire méchant ; incluant un maximum de mauvaise foi ;-))

«sur "métaphore": http://www.aph-metaphore.com.fr/ {n'est pas pertinent} pour apprendre quoi que ce soit sur la métaphore»
Pas pertinent ? alors que le mot se trouve dans l'URL. Comment le moteur eut-il pu deviner que ce n'était pas le site (consacré à l'hypnose) que vous cherchiez, ne vous souvenant que d'une partie de son nom ? Car si c'est la définition du mot qui vous faisait souci, il se serait attendu à : define:métaphore
Et parmi les réponses de Google, vous eussiez eu :
mot, phrase, anecdote ou histoire complète activatrice de processus de Changement*.
www.hypnose-ericksonienne.com/lexique.htm
C'est ainsi que j'ai appris que le mot "métaphore" avait un sens technique particulier dans le domaine de l'hypnose :-)

«sur "Kennedy" : http://www.jfk-fr.com/ est pertinente (elle parle de l'assassinant de JFK)»
Ah, bon ? Et Nigel Kennedy, vous connaissez pas ? Car on peut bien préférer un grand violoniste vivant à un président assassiné, tout de même ! Mais je dois le chercher en position 23 (par paresse je n'ai utilisé que Google), alors que dans les 10 premiers sortent un motel, une polyclinique et un agent immobilier (pertinents, le mot est dans l'URL). Certes seules 1% des 1 810 000 pages "Kennedy" lui sont consacrées.
1,8 million ? Et vous avez révé que quelques-uns pourraient se retrouver dans les meilleurs, quel que soit le moteur de recherche ? Avec un scoring combinant notoriété du site, pagerank de la page, poids du mot selon sa présence dans l'URL, le titre, la page, sa répétition... Celà aurait un sens pour une requête précise, renvoyant queques centaines de pages ; mais là !

Elève Jean, un petit exercice pour apprendre qu'un moteur de recherche sert à fournir des réponses à des questions difficiles : trouvez quelques "John Kennedy" ayant acquis de la notoriété sans être président des Etats-Unis. Je vous en donne deux :
- John Kennedy Toole, auteur de "La conjuration des imbéciles"
- et celui-çi qui devrait vous plaire :
Agent John Kennedy GRC, Détachement de Stellarton ...
www.justice.gc.ca/fr/ps/yj/awards/2001/jk.html

13 décembre, 2005 15:15  
Blogger Jean Véronis a écrit...

Bien vu, Pilou -- et merci pour cet exercice de "mauvaise foi" salutaire!

13 décembre, 2005 15:34  
Blogger Jean Véronis a écrit...

Pasdispo> Effectivement, Exalead fait un très beau travail d'organisation de l'information. Il a fait d'immenses progrès sur la zone "termes associés", en particulier. Je suis ça de très près (on est en plein dans la linguistique, n'est-ce pas?) et j'en parlerai certainement un de ces jours!

13 décembre, 2005 21:54  
Anonymous Anonyme a écrit...

tiens au passage, Ask Jeeves arrive en France (annonce sur le blog Moteurs )http://moteurs.blogs.com/mon_weblog/2005/12/ask_en_fr.html

il faudra bientôt l'inclure dans les tests :-)

14 décembre, 2005 19:20  
Anonymous Anonyme a écrit...

suis je le seul a lire un jeu de mot graveleux dans ce titre de post ?

:)

19 décembre, 2005 11:50  
Anonymous Anonyme a écrit...

Le meta-moteur de recherche dogpile a collabore a la realisation d'une etude sur la divergence des resultats entre les SE. Evidemment plus les resultats sont divergents, plus il y a d'interet a utiliser un meta-moteur si on souhaite approcher de l'exhaustivite.

"Different Engines, Different Results
Web searchers not always finding what they're looking for online

A research study by Dogpile.com
In collaboration with researchers from
the University of Pittsburgh and
the Pensylvania State University"

URL: http://comparesearchengines.dogpile.com/OverlapAnalysis.pdf

19 décembre, 2005 12:10  
Blogger Jean Véronis a écrit...

Hermes> Jeu de mots -- eh eh ;-) Ca m'étonnait aussi que personne ne relève!

Merci pour le lien. Je vais regarder ça en détail!

19 décembre, 2005 12:14  

Enregistrer un commentaire

dimanche, décembre 11, 2005

Moteurs: Ca diverge dur!

Vous avez sans doute comme moi comparé occasionnellement les résultats que retournent différents moteurs... Ces résultats se ressemblent-ils? Divergent-ils complètement? Gagne-t-on quelque chose à interroger plusieurs moteurs? Cela m'intriguait depuis quelque temps: je ne connais pas d'étude récente qui analyse systématiquement les résultats retournés par les moteurs francophones (vous me détromperez peut-être). Alors, comme on n'est jamais si bien servi que par soi-même, j'ai entrepris une petite évaluation avec l'aide de mes 14 étudiants de la licence MASHS à Aix. Chacun a choisi un thème (Divertissement, Histoire, Politique, etc.), et m'a proposé cinq requêtes à l'intérieur de ce thème, soit un total de 70 requêtes en tout. Je les ai lancées cet après-midi sur six moteurs avec les mêmes réglages (pages francophones, site parental activé), et j'ai calculé le nombre d'URL communes aux différents moteurs sur la première page de 10 résultats (soit 4200 URL en tout). Le détail est étonnant:

% communGoogleYahooMSNExaleadDirVoila
Google--25.118.912.16.47.0
Yahoo25.1--16.611.96.76.7
MSN18.916.6--10.15.75.7
Exalead12.111.910.1--5.96.4
Dir6.46.75.75.9--2.9
Voila7.06.75.76.42.9--

Le tableau ci-dessus montre que, quel que soit le couple de moteurs considéré, bien peu de résultats sont identiques sur la première page. La meilleure correspondance est entre Yahoo et Google, qui partagent en moyenne un quart des résultats, ce qui est tout de même peu. Les résultats sont bien plus faibles encore pour les autres moteurs. Je m'attendais à des divergences, mais je dois dire que j'ai été assez surpris qu'elles soient aussi massives!

On peut représenter la similarité entre moteurs sous forme d'arbre, à l'aide d'une technique qui s'appelle classification hiérarchique ascendante -- je n'entre pas dans les détails pour ne pas plomber l'audimat ;-) L'idée générale est simple à comprendre: deux moteurs sont d'autant plus distants dans l'arbre (ou "dendrogramme") qu'ils ont moins de résultats en commun.




Je ne sais pas ce que vous en pensez, mais ce diagramme reflète bien mes intuitions: Yahoo et Google sont les plus proches (encore qu'ils diffèrent à 75%!) ; MSN n'est pas trop loin du tandem. Les moteurs français sont plus loin, avec Voila très distant de tous les autres. Ceci ne dit rien sur la qualité, bien sûr: on peut être éloigné des autres et être le meilleur (mais dans le cas de Voila, honnêtement, j'en doute: on sent clairement que le moteur est laissé plus ou moins à l'abandon...).

Reste à savoir quel est le moteur le plus pertinent, mais ça c'est une autre histoire. On va y travailler avec mes étudiants, et nous aurons l'occasion d'en reparler...

16 Commentaires:

Anonymous Anonyme a écrit...

La technique utilisée pour les représenter sous forme d'arbre se rapproche-t-elle de celle utilisée pour faire des cladogrammes entre différentes espèce en biologie? Merci

11 décembre, 2005 20:09  
Blogger Jean Véronis a écrit...

Alphoenix> Presque... Je crois que ce type de méthode se rapproche plus des méthodes dites "phénétiques" basées sur un degré de similarité entre séquences génétiques et qui produisent justement des dendrogrammes ou phénogrammes --mais je ne suis pas spécialiste! Y a-t-il des biologistes dans la salle?

11 décembre, 2005 20:22  
Anonymous Anonyme a écrit...

J'ai essayé avec mon titre de blog et on voit bien que certains moteur de recherches ont arrêté leur travail il y a un certain temps, où alors elle se limitent à des liens non-commerciaux.Je n'en sait rien toujours est-il que les meilleurs sites, ceux qui me renvoient à mon blog crée il y a moins d'un mois sont: Google, Yahoo, Altavista et AskJeeves ont répondu à ma requète. Je n'ai pas tout essayé, contrairement à L. Ruquier. Mais il faut dire que dir.com marche également et que sa fonction de http://*recherche*.dir.com est intéressante.

11 décembre, 2005 20:46  
Blogger tobi a écrit...

Yahoo et MSN utilisent tous les deux les données Inktomi ( propriete de Yahoo ).
Ce qui fait la difference, ce sont les regles de scorage, vaste sujet !

11 décembre, 2005 20:50  
Anonymous Anonyme a écrit...

A tout hasard, voilà un site permettant de comparer les premiers résultats de recherche entre Yahoo et Google : http://www.langreiter.com/exec/yahoo-vs-google.html
Je trouve la représentation graphique des résultats intéressante.

11 décembre, 2005 22:56  
Anonymous Anonyme a écrit...

Bonjour,
Je peux me tromper, mais je pense que MSN n'utilise plus Inktomi depuis quelque temps. En fait, le moteur utilisé sur le site français de MSN est une déclinaison (laquelle ?, c'est ce que j'aimerais découvrir) de la version américaine d'un "nouveau" moteur "maison".
(Thea)

12 décembre, 2005 00:01  
Anonymous Anonyme a écrit...

Bonjour,

Je confirme ce que Théa écrit: MSN a maintenant son propre moteur, développé en interne et lancé il y a quelques mois (avec entre autres l'accès aux articles de l'encyclopédie Encarta).
Et bravo pour cette étude passionnante, Jean! Je me réjouis de lire la suite, sur la pertinence des réponses...

Thierry Fontenelle [MSFT]

12 décembre, 2005 06:13  
Blogger Jean Véronis a écrit...

Phlippe> Merci de citer le lien vers cet outil qui compare visuelment Google et Yahoo -- et qui confirme grosso modo les proporitions que j'indique. Seul inconviénient, il ne permet pas de restreindre la recherc au français...

12 décembre, 2005 07:33  
Anonymous Anonyme a écrit...

Voici deux liens vers des pages où j'ai orienté vers des outils de comparaison de résultats entre moteurs qui montre que (par exemple) pour 10316 recherches qui ont ramené 336232 résultats uniques, seulement 3% étaient communs aux trois moteurs, 12% communs à deux d’entre eux et 85% spécifiques à l’un des moteurs.
http://www.activeille.net/index.php/archives/2005/05/10/comparaison-des-resultats-de-recherche-sur-differents-moteurs/
ou http://minilien.com/?zr12pgRQNr
http://www.activeille.net/index.php/archives/2005/05/18/comparaison-des-resultats-de-recherche-sur-differents-moteurs-2/
ou http://tinyurl.com/b2x3t

12 décembre, 2005 08:28  
Blogger J2J2 a écrit...

En voyant les résultats de ce bilet, mon intuition première fut que ces divergences provenaient simplement d'une différence de scoring des moteurs. Le fait de ne retenir que les 10 premiers résultats me semblant assez limitatif je supposais que cela laissait beaucoup de place à de grandes divergences de résultats à cause des algorithmes utilisés.
Or, l'outil sité par Philippe (que je ne connaissais pas et qui est une très bonne approche visuelle), en nous montrant les 100 premiers résultats nous suggère que les divergences des moteurs sont plus de l'ordre du contenu de l'index que de la méthode de scoring. Il est également intéressant de remarquer que très souvent les trois ou quatre premiers résultats sont très proches mais qu'ensuite les divergences sont de plus en plus grandes.
A suivre.

12 décembre, 2005 12:06  
Anonymous Anonyme a écrit...

Bonjour

Très intéressant comme première analyse! Avez-vous regardé (j'imagine que oui) quel taux d'URL sont présents dans TOUS les moteurs? Déjà y en a-t-il? Si oui, ceux ci représentent assurément les résultats les plus pertinents. D'autre part sommes nous capables de quantifier la performance d'un moteur par sa similitude aux autres moteurs? Je fais un parallèle un peu grossier: vous qui êtes enseignant, donnez une recherche bibliographique à faire à 6 étudiants. Quelle est la meilleure recherche? Celle de l'étudiant qui a le plus de références communes aux autres? Diversité ne fait-elle pas richesse? Pardonnez mon esprit tordu et encore merci pour votre blog!

12 décembre, 2005 15:42  
Blogger Nicolas a écrit...

Dogpile permet de comparer 6 moteurs de recherches et affichent les résultats des 6 moteurs en colonne, en surlignant les résultats identiques.

12 décembre, 2005 15:42  
Anonymous Anonyme a écrit...

Je me demande si ce résultat n'est pas après tout normal. Il serait simplement la manifestation des lois bibliométriques. Les requêtes se concentrent très forts sur quelques items très peu nombreux et se dispersent sur un très grand nombre. Comme les résultats sont classés par rapport aux requêtes, il serait logique que l'on n'en retrouve que quelques uns en commun, ensuite cela devient très vite aléatoire.

12 décembre, 2005 23:52  
Blogger Jean Véronis a écrit...

Jérôme> Ca me semble bien difficile de savoir si les divergences sont dues au scoring ou au contenu de l'index. Après tout, l'outil yahoo/google ne donne que les 100 premiers résultats. C'est mieux que 10, mais ça ne nous dit pas si les mêmes URL ne figurent pas plus loin dans l'index...

13 décembre, 2005 21:58  
Anonymous Anonyme a écrit...

Je voulais juste signaler un petit travail que j'ai fais suite à ce billet. J'ai voulu aussi comparer les résultats de 5 moteurs. Et notamment leur ordre d'apparition, le classement des résultats. Par contre je n'ai certainement pas le niveau de Jean Véronis, tout a été développé sous Excel, ce n'est pas très "propre" comme programmation, mais si ça intéresse quelqu'un d'essayer des requêtes ou tester par lui même. Le fichier est disponible avec un peu plus d'explication a cette adresse :
http://veilleauto.jot.com/exp%C3%A9rience#ComparMoteur

15 janvier, 2006 17:04  
Blogger Jean Véronis a écrit...

Modo> Bravo! Les résultats sont du même ordre: faible recouvrement, sauf Yahoo/Altavista mais ça s'explique: c'est la même base de données (Overture).

15 janvier, 2006 18:59  

Enregistrer un commentaire

mercredi, décembre 07, 2005

Web: La grippe aviaire a disparu

Vous avez remarqué qu'on ne parle plus tellement de grippe aviaire? Pourtant, on a frisé la panique planétaire, on stockait (on stocke toujours?) des dizaines de millions de doses de médicaments, on parlait de centaines de millions de morts si jamais... Et puis, plus rien ou presque. Pourtant, l'épizootie touche l'Ukraine, on détecte de nouveaux cas en Roumanie, le bilan (humain) s'alourdit en Indonésie et au Viêtnam. Que s'est-il passé? a-t-on prouvé qu'il n'y avait finalement aucun risque pour l'homme? J'ai dû avoir un moment d'inattention: je n'ai pas vu passer la nouvelle. Il faut dire qu'entre temps la crise des banlieues a détourné nos regards... à moins que ce ne soit un coup du lobby des producteurs de foie gras à l'approche des fêtes!

Je rêve depuis longtemps d'un outil qui me permettrait de suivre au jour le jour l'évolution d'un terme sur le Web: ne serait-il pas fantastique de pouvoir suivre exactement la montée et le déclin d'expressions comme grippe aviaire, banlieues, violences urbaines et bien d'autres, comme on suit la progression du CAC 40 (ou, hélas, du nombre de chômeurs)?

Eh bien, je suis heureux d'annoncer la naissance d'un tel outil: Le Chronologue, auquel je travaille depuis quelques jours, en collaboration avec Philippe Develter du moteur Dir.com. Cela ne vous dit rien? Ce moteur, créé par Fabien Menemenlis et Philippe Develter, a été lancé début 2003 par le groupe Iliad (qui possède notamment Online et Free). Si Dir.com n'est pas devenu le "concurrent français" de Google que l'on pouvait espérer (Free a hélas préféré, du moins pour l'instant, installer tout bonnement Google), il n'en suit pas moins son petit bonhomme de chemin, avec de jolies petites choses, sur lesquelles je reviendrai peut-être un de ces jours...



Philippe a mis au point récemment une fonction qui permet de restreindre la recherche à une période donnée, exprimée en nombre de jours (exemple: banlieues dd>60 dd<120) ou en nombre de mois (exemple: banlieues mm>1 mm<2). Cela ressemble un peu à la fonction daterange de Google, sauf que celle-ci semble marcher de façon complètement erratique et retourne de toutes façons le même compte quelle que soit la période donnée.

Quelques jours d'interaction avec Philippe ont permis d'affiner l'outil, sur lequel j'ai greffé quelques petites statistiques maison. En effet, le simple compte de pages pour chaque jour sur une requête donnée est assez "bruité". Des tas de paramètres entrent en jeu, comme les variations hebdomadaires (moins de pages créées ou modifiées les week-ends!) ou à plus long terme (moins de pages pendant les vacances), ou bien liées au moteur lui-même (changement de stratégie ou de fréquence de crawling, etc.). Mais ces paramètres affectent (grosso modo) tous les mots de la même manière...

L'astuce que j'utilise est un peu analogue à celle des statisticiens qui corrigent la courbe de chômage en fonction des "variations saisonnières". J'étalonne mon système en calculant (automatiquement!) toutes les nuits les variations journalières du compte de pages sur un certain nombre de mots fréquents, ce qui me donne les fluctuations globales, non liées à une requête donnée. Il suffit alors de les "soustraire" à chaque requête, et on obtient par exemple ceci, pour grippe aviaire (la ligne horizontale représente la moyenne du terme sur la période du graphique):



Étonnant, non?

Voici quelques autres "pics" intéressants:










On peut également superposer des courbes. Par exemple, on voit très clairement ci-dessous que le "déclin" de grippe aviaire avait commencé avant la montée en puissance du terme banlieues. Donc j'étais sans doute mauvaise langue: ce n'est apparemment pas la crise des banlieues qui a détourné notre attention de la grippe aviaire! [Mise à jour: Mopt fait remarquer dans un commentaire ci-dessous que grippe aviaire commence à décliner juste au moment où banlieues commence à monter. Je me suis fait avoir comme un débutant en regardant bêtement les pics -- j'aurais dû reprendre un café moi, ce matin! Et la relation est d'autant plus évidente que (comme le montre le diagramme suivant) le déchaînement médiatique a commencé quelques jours avant avec l'affaire Sarko-Racaille et la mort des deux jeunes à Clichy, donc en plein dans le pic grippe aviaire. Je ne ferai pas une deuxième erreur en affirmant qu'il y a relation de cause à effet, et que la crise des banlieues a effacé la grippe aviaire, mais c'est bien troublant. Merci Mopt!]



Cet autre exemple est assez instructif:



On voit clairement apparaître la chronologie des événements: Nicolas Sarkozy fait parler de lui, deux jeunes meurent électrocutés à Clichy quelques jours après, puis les banlieues s'embrasent... Pour finir, tout rentre dans l'ordre: parlons d'autre chose.

Voici un autre exemple... que je vous laisse commenter!



A vous de vous amuser (vous pouvez copier-coller les images dans vos blogs)! Le Chronologue est ici.

44 Commentaires:

Anonymous Anonyme a écrit...

Génial comme truc... Les secrets des internautes n'en sont plus... ça me rapelle une fonction sur Yahoo! à l'époque. Ils montraient les images les plus recherchées... Que dire si ce n'est "Merci" pour cet outil permettant de comprendre un peu mieux les mystères de la toile...

07 décembre, 2005 09:54  
Anonymous Anonyme a écrit...

Excellent outil Jean :)

Je ne sais pas si tu connais, mais blogpulse propose un service similaire, mais pour les blogs.

Exemple :
http://www.blogpulse.com/trend?query1=%22grippe+aviaire%22&label1=&query2=&label2=&query3=&label3=&days=180&x=22&y=14

07 décembre, 2005 09:55  
Anonymous Anonyme a écrit...

Une petite question sur le graphique avec les courbes "grippe aviaire" et "banlieues", n'y voit-on pas au contraire que la fin du pic "grippe aviaire" correspond exactement au début de la montée de la courbe "banlieues" ? Mes cours de stats sont bien loin, je l'avoue, mais j'y vois quand même une certaine corrélation.

07 décembre, 2005 09:58  
Blogger all a écrit...

C'est formidable ! On voit, et on la preuve, de chocs medatiques sur la toile. On peut aussi mesurer l'impact d'une campagne de pub.

07 décembre, 2005 10:01  
Blogger Jean Véronis a écrit...

Mopt> Mais vous avez raison!!! J'ai écrit trop vite. "Grippe aviaire" commence à décliner au moment où "banlieues" apparaît. Et le diagramme avec "Clichy" montre que nos regards ont commencé à se détourner quelques jours avant, donc en plein au moment du début de la pente descendante de "grippe aviaire". Je vais intégrer cette remarque dans le texte. Merci!

07 décembre, 2005 10:14  
Anonymous Anonyme a écrit...

Comme j'aime bien tester les nouveaux outils, j'ai essaye des mots relativement neutres, qui devraient apparaitre avec la meme frequence quelle que soit la date, et donc donner des lignes horizontales. Par exemple "football", "foot", "basket", "volley". J'ai aussi essaye "printemps", "ete", "automne, "hiver", m'attendant a une sur-representation de automne-hiver par rapport a printemps, vu l'epoque de l'annee. Or, sauf pour le mot "ete", j'obtiens un pic qui demarre vers le 20 Octobre et atteint son maximum autour du 1er novembre. Le tout est assez similaire au graphe presente pour "seisme". Serait-ce un artifact lie au lancement du chronogue ?
Compliments pour ce blog, c'est une source d'informations unique en son genre !

07 décembre, 2005 10:53  
Anonymous Anonyme a écrit...

Joli outil, mais il me semble observer quasi systématiquement un pic en novembre, quel que soit le mot qu'on choisit. Il y a un raison statistique à ça ?
Une recherche sur mon pseudo "Merome", par exemple, ou sur "Apple", ou encore sur "légume", retourne toujours une courbe de la même forme, ou presque alors que ces mots n'ont rien à voir avec l'actualité...

07 décembre, 2005 10:54  
Blogger Jean Véronis a écrit...

Jeannot Lapin et Merome> Il y a certainement des tas de réglages à faire. Ca n'est qu'une version 0.0.0.0.1 ! Ceci étant, il y a des des choses auxquelles on ne pense pas: le mot "printemps" a été très utilisé en novembre, justement, parce que tous les créateurs de mode ont présenté leur collection printemps 2006! En même temps sur des mots vraiment indépendant du temps (enfin, normalement...) comme beaucoup, quand, avec, etc. la courbe est quasi plate. Il ya des effects indirects, aussi: beaucoup de gens (de bloggeurs en particulier) se sont par exemple mis à écrire plus pendant la période des banlieues (c'était le cas aussi pendant le référendum sur la constitution). C'est peut-être votre cas, Mérome? A suivre...

07 décembre, 2005 11:10  
Anonymous Anonyme a écrit...

Bon, j'ai essayé "halloween" et "banlieues" et on voit aussi une corrélation évidente !!!

07 décembre, 2005 11:38  
Blogger Jean Véronis a écrit...

Denis> Absolument (et aussi entre vendanges et Sarkozy!). C'est pourquoi il faut se garder de voir nécessairement des relations de cause à effet!

07 décembre, 2005 11:46  
Anonymous Anonyme a écrit...

Jean Véronis > En tous les cas, l'idée est excellente et la réalisation aussi !
Avez vous une idée d'explication pour les pics apparement nombreux en novembre ? Quelle est l'unité de l'axe des ordonnées ?
Merci pour ce travail !

07 décembre, 2005 11:54  
Blogger Jean Véronis a écrit...

Denis> Le système est manifestement moins "sensible" quand on remonte dans le temps. Philippe a fait d'important correctifs à partir de novembre sur le moteur, et cela se sent. Il y a peut-être aussi une perte de sensibilité naturel de ce genre d'outil avec le temps: bien des pages sont remises à jour au fil des jours (parfois de façon triviale, mais un petit changement suffit). C'est à étudier sur une plus longue période...

Unité de l'axe des ordonnées = nb de fois la moyenne. La moyenne est, elle, représentée par la ligne horizontale d'ordonnée 1. Si un pic monte jusqu'à 4, cela veut dire que le mot apparaît 4 fois plus que sa moyenne à ce point-là du temps.

07 décembre, 2005 12:00  
Anonymous Anonyme a écrit...

Il est possible que j'aie blogué plus que de raison en novembre, mais je doute que cela soit la raison. Raisonnons par l'absurde : y a-t-il des requêtes qui produisent un pic en Septembre ? j'ai testé, "rentrée", "école" et "septembre", si on ne constate effectivement pas l'érection de novembre, il n'y a pas non plus de frémissements en septembre...
Est-ce possible que le nombre pages indexées par le(s) moteur(s) de référence ait augmenté d'un coup et qu'il fausse les stats ?

07 décembre, 2005 12:06  
Blogger Jean Véronis a écrit...

Mérome: Nos messages se sont croisés. Dans ma réponse à Denis ci-dessus, je donne deux pistes: (1) amélioration notable du moteur au niveau de la datation des pages à partir de novembre (2) perte possible de la sensibilité dans le temps à cause de la remise à jour progressive des pages qui produirait une sorte de "flou" progressif dans la définition comme sur une photo. Je vais étudier la question...

Le nombre de pages indexées change effectivement assez fréquemment, mais c'est pris en compte dans mon étalonnage quotidien (et ça marche bien sur des mots comme beaucoup, avec, etc. qui montrent peu de variations après correction).

07 décembre, 2005 12:15  
Blogger Jean Véronis a écrit...

version 0.0.0.0.2! j'ai fait une petite modif qui semble améliorer les choses sur septembre-octobre... Ca n'est pas encore tout à fait idéal. Mais, bon, il y aura peut-être un jour une 0.0.0.0.3...

07 décembre, 2005 13:27  
Anonymous Anonyme a écrit...

Concernant la grippe aviaire, il est intéressant de voir que les recherches "grippe aviaire" et "bird flu" donnent des courbes assez proches...
Par contre, "influenza aviar" donne une courbe décevante, même si on peut encore reconnaître certains pics.
En tout cas, l'outil est vraiment intéressant !

07 décembre, 2005 17:05  
Anonymous Anonyme a écrit...

Je n'ai pas vraiment compris comment fonctionnait le petit programme... Il décrit le nombre d'occurence du mot entré par rapport aux pages crées? Aux recherches faites? Aux pages existantes à ce moment? J'ai par exemple tapé "Georges Bush" et "George Bush" et les deux courbes semblent symétriques... Je pense ne pas tout avoir compris...

07 décembre, 2005 17:32  
Anonymous Anonyme a écrit...

Je remarque que si je tape juppé hendrix raffarin il ya une corrélation avec un pique pour juppé. Ce serai pas un peu bidon comme truc ?

07 décembre, 2005 17:33  
Anonymous Anonyme a écrit...

Assurément, ce n'est pas encore au point. Il faut prendre avec d'énormes pincettes les courbes...
Mais qu'importe ! C'est indéniablement prometteur ! Je suis très emballé à l'idée de voir l'outil évoluer.
Beau travail ^^

07 décembre, 2005 18:00  
Anonymous Anonyme a écrit...

Comme l'outil est encore en période de développement, je ne ferai pas de commentaires du même ordre de ceux déjà mentionnés (problèmes de fiabilité de l'index, dépendance aux mises-à-jour etc). J'aimerai suggérer de travailler les cooccurrents (contextes de phrase par exemple ou contextes numériques). Il serait intéressant de pouvoir établir sur un graphe les variations dans le temps des cooccurrents (pleins de sens ou pas) des mots sélectionnés. À mon avis, une périodisation des cooccurrents apporterait bien plus à l'analyse et transformerait un gadget (pardonnez moi le qualificatif) en outil. Il serait très utile également de documenter le mode de calcul. Un outil bien documenté est un outil utile. Bon travail et je vais suivre avec beaucoup d'attention les développements à venir!

07 décembre, 2005 18:40  
Blogger Jean Véronis a écrit...

Dimitri> influenza aviar : L'outil ne cherche que les pages francophones. Les pages qu'il trouve avec "influenza aviar" sont soit quelques accidents, soit des pages françaises où l'expression ""influenza aviar" apparaît, mais elles sont sans aucun doute peu nombreuses et le résultat est peu fiable.

07 décembre, 2005 19:27  
Blogger Jean Véronis a écrit...

Alphoenix> L'outil donne la variation journalière du nombre de pages qui contiennent un mot donné en se basant sur la date de modification des pages.

Les courbes "georges bush" et "george bush" sont à peu près identiques, et c'est normal: cela montre que la présence du "s" n'est pas influencée par le temps...

07 décembre, 2005 19:32  
Blogger Jean Véronis a écrit...

Anonymous et autres> Il y a manifestement une instabilité en septembre... Le crawler n'avait pas encore reçu les modifications adéquates. Les résultats sont meilleurs à partir de mi-octobre.

07 décembre, 2005 19:37  
Blogger Jean Véronis a écrit...

Dimitridf> travailler sur les cooccurrents: oui, absolument, c'est dans mon agenda (mais le temps étant ce qu'il est, je ne sais pas quand cela pourra voir le jour!). Vous avez complètement raison sur l'intérêt que cela aurait pour l'analyse.

Documenter. Oui (le temps toujours...).

07 décembre, 2005 19:39  
Blogger TOMHTML a écrit...

en un mot : EXCELLENT !
je suis très très très surpris qu'une idée aussi originale ait été réalisée.
Sincèrement, bravo :-)



juste une petite remarque : c'est normal que la requête "Google" ne retoune absolument aucune page ?

07 décembre, 2005 20:09  
Anonymous Anonyme a écrit...

Très intéressant en effet comme outil. Je pense cependant qu'une autre donnée, qui n'est pas vraiment chifrable, et celle de la durée de vie d'une information : le sujet est encore d'actualité, mais les journalistes n'en parlent plus parce qu'ils en ont assez parlé et que les auditeurs n'aiment pas qu'on leur parle trop souvent de la même chose.

Je dis cela, car je porte sur l'actualité un regard outre-atlantique puisque je réside au Québec. Ici, la grippe aviaire a survécu aux banlieues (on a regardé la fumée qui s'élevait au loin) mais a fini tout de même par disparaître.

Nous avons aussi eut nos sujets d'actualités pour parler d'autre chose : je pense que des recherches sur chefferie, André Boisclair, Paul Martin ou encore libéraux sur des pages québecoises permettraient de voir qui sont les coupables de la disparition de la grippe aviaire. Mais je pense que, comme dans la plus part des décès, le temps est le principal responsable...

Sur ce, je vais tenter également mes petites expériences, en espérant que l'option existe également pour les québecois !

07 décembre, 2005 23:32  
Anonymous Anonyme a écrit...

Merci de votre réponse... Juste une petite remarque... Le problème de l'échelle à dimension varible... Comme le chiffre en ordonnées n'est pas très clair... Ainsi, si l'on tape seulement "Miss France" on voit une variation au cours du temps... On se dit que l'on en parle tout le temps. Mais si l'on tape "Miss France" et "Alexandra Rosenfeld" on voit que les petites variations étaient négligeables...

07 décembre, 2005 23:35  
Anonymous Anonyme a écrit...

je viens de faire quelques tests, et le résultat est assez intéressant en effet. Ça marche bien pour l'actualité québecoise francophone semble-t'il... même si là aussi il y a encore du bruit, les débuts sont très prometteurs et les applications peuvent être très intéressantes. Je pense, par exemple, à la possibilité de surveiller la popularité des candidats lors d'une campagne électorale. Le point de vue francophone des élections canadiennes (le 23 janvier) est fot intéressant (à prendre avec des pincettes évidemment).

http://www.up.univ-mrs.fr/cgi-veronis/chronologue?mot1=%22Paul+Martin%22&mot2=%22Gilles+Duceppe%22&mot3=%22jack+layton%22&mot4=%22Stephen+Harper%22&mot5=&mot6=&Soumettre=Soumettre


Autre chose aussi : quand il y a plus d'une courbe, il faut faire attention, puisque un sujet populaire peut complètement écraser la courbe d'un sujet moins populaire...

08 décembre, 2005 00:05  
Anonymous Anonyme a écrit...

merci jean pour cette nouvelle expérimentation. comme d'autres avant moi, je te laisse le temps et le soin d'améliorer la moulinette avant de trancher sur l'utilité à moyen terme ; pour l'intérêt c'est tout de suite gagné !

je t'invite à admirer le résultat sur veronis+aixtal où le pas de deux est tout simplement étonnant.

sinon, j'ai dû rater une étape dans l'explication : pourquoi toutes les courbes plongent-elles en décembre ?

]m[

08 décembre, 2005 03:59  
Blogger Jean Véronis a écrit...

Sébastien> durée de vie d'une inforamtion -- oui, c'est humain. S'il n'y a rien de nouveau, on n'a plus envie d'en parler, ni de l'entendre, même quand c'est grave. C'était assez net sur les prises d'otages de journalistes, par exemple pour Florence Aubenas: bien que ses collègues aient eu particulièrement à coeur, évidemment, d'en parler, on sentait que c'était de plus en plus difficile au fil des jours, puisque rien ne se passait...

08 décembre, 2005 08:26  
Blogger Jean Véronis a écrit...

Michaël> pas de deux veronis/aixtal -- oui, amusant, n'est-ce pas : cela montre que j'ai été cité par des communautés différentes, qui m'appellent par l'un ou l'autre nom!

toutes les courbes plongent en décembre: non, pas toutes: voir "miss france 2006" par exemple.

08 décembre, 2005 08:29  
Anonymous Anonyme a écrit...

Jean, vous m'impressionnez tous les jours !

à quand l'aboutissement et la mise en ligne "définitive" de cet outil ?

08 décembre, 2005 15:44  
Anonymous Anonyme a écrit...

A propos de la grippe aviaire: appeler "Bird flu" chez nos voisins britanniques.
Ici en Grande-Bretagne le sujet a lui aussi disparu ou presque des medias, et pourtant on a pas eu d`emeutes!
Peut etre que c`etait un coup des eleveurs de boeuf et de moutons apres les crises de la dernieres decennies pour leur permettre de relancer leur ventes.
Ou alors c`est un peu comme les terroristes et les medias veulent que les populations soit toujours alertes sous l`effet de la peur de tout?

08 décembre, 2005 17:33  
Anonymous Anonyme a écrit...

Pour la grippe aviaire, la première identification du virus H5N1 sur le sol Européen a affolé tout le monde. Maintenant, au moins une nouvelle identification est faite chaque semaine et se rapproche doucement de l'ouest, mais c'est comme les 30 morts journaliers dans les attentats de Baghdad, plus personne n'y prête attention. 0n ne peut pas maintenir l'attention du monde entier sur le même sujet plus de quelques jours...même sur le pire...alors les volatiles, pensez donc !

Je n'ai pas pu essayer votre Chronologue, j'arrive un peu tard, mais j'y vois un possible fantastique outils de surveillance des rumeurs pour l'alerte épidemiologique....déformation professionelle.

Réparez nous cela vite, j'ai hâte de faire quelques petits essais aussi !!! je suis une fan des series chronologiques.

09 décembre, 2005 14:20  
Anonymous Anonyme a écrit...

Mon commentaire concerne uniquement la gravité de la grippe aviaire pour les humains:
A ma connaissance , environ 60 morts en trois ans dans le sud-est asiatique (2 milliards d'habitants, hygiène douteuse...) soit ==> probabilité de décès de 10 puissance -8 / par habitant /par an. ... à comparer au risque de reçevoir un météorite sur le crâne en déambulant dans les rues d'une ville.
D'autre part, toujours si j'ai bien compris, il y a un risque de mutation du virus en une forme dangereuse pour l'homme, ce qui n'est pas le cas des souches actuelles; ce qui fait que les vaccins que l'on achète actuellement au groupe pharmaceutique Roche aux frais du contribuable enrichissent les actionnaires de Roche mais semblent d'une utilité douteuse pour les humains.
Quand aux sujets d'"actualité" mis en avant dans la presse, qu'il s'agisse des banlieues ou de la grippe aviaire, il s'agit à mon sens de mettre en avant des sujets qui détournent les peurs économiques et sociales des dominés vers des peurs alibi tout en montrant que les dominants au pouvoir s'occupent d'eux.

13 décembre, 2005 10:33  
Anonymous Anonyme a écrit...

Concernant la grippe aviaire, c'est un sujet dont j'ai entendu parler pour la première fois il y a environ un an. Ce n'était pas dans les grands média mais une alerte de l'OMS.

Le problème de ce virus, c'est qu'il est mortel dans une très grande majorité des cas (tu l'attrapes, tu es mort, enfin la probabilité est de l'ordre de 0,7 (je cite ce nombre de mémoire)). Heureusement, pour le moment, les cas de contamination humaine sont rares.
La crainte, c'est qu'une mutation du virus réussisse à nous contaminer plus facilement.

En ce qui concerne les médicaments potentiels (celui de Roche ou de GSK), ce sont (il me semble) des produits antiviraux qui sont actifs contre une famille de virus. Le vaccin lui n'est efficace que contre certaines souches (celles contenues dans le vaccin). Le fait d'avoir un rayon d'action plus large n'empêche pas que le virus mute et que le médicamnet ne soit plus efficace.

Pour terminer, la grippe aviaire est passée de mode dans les média. Ils sont passés à autre chose. Et en ce moment, il ne faudrait pas gâcher les fêtes de fin d'année (foie gras, dinde, chapon, ...).

14 décembre, 2005 09:12  
Anonymous Anonyme a écrit...

Bonjour,

Je viens de découvrir votre site et vos recherches grâce au blog d'un ami qui fait des recherches en littérature.
Je découvre aussi dir.com, le moteur de recherche que vous recommandez et j'y ai cherché le site que je gère depuis 5 ans (assez connu maintenant). Mais dir.com ne le référence pas! Bizarre... Je me demande donc quels sont ses critères et si vous pouviez m'indiquer une page d'explication, je vous en serais très reconnaissant.
Mon adresse de courriel est: info@
suivi de: france-japon.net

Bravo pour vos recherches! Et merci de nous en faire profiter!

01 janvier, 2006 15:21  
Blogger Jean Véronis a écrit...

Christian> Si c'est le site france-japon.net, il est bien référencé: exemple. Je n'en sais pas plus: je ne suis pas associé personnellement à dir.com, et je n'ai pas plus d'info...

01 janvier, 2006 16:09  
Anonymous Anonyme a écrit...

Merci, Jean.
Mon commentaire était incomplet. En recherchant le seul mot "Japon" le site n'apparaît pas alors qu'il est en 4e position sur Google.

03 janvier, 2006 01:50  
Blogger Jean Véronis a écrit...

Christian> Ah oui, je comprends mieux. Ce sont les mystères du référencement... Le site n'apparaît pas non plus sur Yahoo et MSN (en tous cas pas dans la première page de résultats). Cela révèle des différences dans les algorithmes utilisés par les différents moteurs (mais évidemment, c'est bien difficile de savoir quelles sont les différences exactes: ce sont des secrets bien gardés!). Une piste: Google semble accorder beaucoup d'importance à la présence d'un site dans l'annuaire Dmoz, où vous avez la chance d'être référencé...

03 janvier, 2006 07:39  
Blogger Jean-Marie Le Ray a écrit...

Bonjour,

Indépendamment des causes pour lesquelles les occurrences de "grippe aviaire" ont baissé en décembre dans le Chronologue, on dirait qu'elles remontent à la vitesse grand V.
Je suis sûr que le sujet préoccupe un grand nombre de gens, en tout cas moi il m'interpelle franchement. J'ai d'ailleurs écrit un billet sur ça ( http://adscriptum.blogspot.com/2006/01/scnario-catastrophe.html ), qui vaut ce qu'il vaut...
Certes, c'est loin des questions linguistiques qui me passionnent durant le plus clair de mon temps, mais malheureusement c'est tout aussi réel.
Cordialement,
Jean-Marie Le Ray

17 janvier, 2006 16:09  
Anonymous Anonyme a écrit...

Petit bug dans les liens du Chronologue vers le Nébuloscope...
Les derniers liens sont décalés.
Exemple:
http://www.up.univ-mrs.fr/cgi-veronis/chronologue?mot1=virus&mot2=h5n1&mot3=grippe+aviaire&mot4=chikungunya&mot5=grippe&mot6=sida&affichage=absolu&debut=01.09.2005&Soumettre=Soumettre

(je pensais que c'était à cause de "grippe aviaire" qui comporte plusieurs mots, mais non...)

05 mars, 2006 17:28  
Blogger Jean Véronis a écrit...

Petchema> Merci! J'étais en train de faire des corrections sur le programme et j'avais buggué. C'est réparé.

05 mars, 2006 17:32  
Anonymous Anonyme a écrit...

Un outil très intéressant, il faut absolument le rendre opérationel sur le net entier (du moins anglophone). merci,

laurent hervé

26 mars, 2006 13:56  

Enregistrer un commentaire

Outil: Le Chronologue

[Avis de décès: le Chronologue ne fonctionne hélas plus, le moteur Dir.com sur lequel il s'appuyait étant moribond. Désolé...]

Le Chronologue est un outil qui permet de visualiser de façon graphique l'évolution de termes sur le Web francophone au cours du temps (il ne s'agit pas du nombre de requêtes comme pour Google Zeitgeist, mais du nombre d'apparition du terme dans les pages elles-mêmes -- voir explications ici).


dir.com
Chronologuez :



relatif absolu



dir.com Astuce Utilisez des guillemets pour chercher une expression exacte

Bonne Chronologie! -- mais attention, ce n'est qu'un petit proto sans prétention: il y a encore du bruit, des problèmes divers (par exemple, la période allant du 1er septembre à la mi-octobre n'est pas très fiable pour l'instant).


Post-scriptum

Bilan de la première journée d'utilisation
  • Il y a eu près de 4800 requêtes sur le Chronologue en 24 heures. Je ne pensais pas qu'il rencontre un tel succès!
  • Vos commentaires ont été très nombreux et très pertinents (aussi bien ici que sur cet autre billet). J'ai essayé de répondre aux questions au fur et à mesure, mais il faudra décidément que j'essaie de faire une "FAQ".
  • Il faut prendre cet outil pour ce qu'il est: un petit démonstrateur sans prétention. Je ne suis qu'un "agitateur d'idées" pas un développeur industriel. J'essaie de modestement de montrer ce qu'on pourrait faire dans le domaine, d'ouvrir quelques pistes...

89 Commentaires:

Blogger Gabrouze a écrit...

Bravo !!!
l'idée est très bonne. Et les résultats trés intéressants.

07 décembre, 2005 08:13  
Anonymous Anonyme a écrit...

Bonjour,

Le moteur ne serait-il pas biaisé vers des dates récentes? Je m'explique : en faisant une recherche sur Cécilia Sarkozy, ou Nathalie Marquay, il me semble que l'on devrait avoir des pics vers Aout Septembre, puisque ca a fait la "une" en été. Or le graphique reste plat en ces périodes. Peut-être pourriez vous expliquer cela?

Amicalement,

Marc

07 décembre, 2005 09:55  
Blogger Jean Véronis a écrit...

Marc> Il me semble qu'on en a surtout parlé fin août (mais je ne suis plus très sûr), or nos graphiques commencent en septmbre. Quoi qu'il en soit, vous avez sans doute raison: le système est sans doute moins "sensible" sur le mois de septembre. Philippe a fait ensuite des correctifs importants sur le moteur qui améliorent fortement les choses.

07 décembre, 2005 10:10  
Anonymous Anonyme a écrit...

On ne peut pas être surpris de la corrélation entre racaille et sarkozy. Par contre, j'ai ajouté choucroute et depuis, je doute de la pertinence de cet outil.
Mouiii, il faut faire quelques réglages ?

Julien.

07 décembre, 2005 10:47  
Blogger Jean Véronis a écrit...

Julien> C'est sûr qu'il faut faire des réglages. Ceci étant, ça n'est pas la faute de Sarkozy si octobre-novembre c'est la saison de la choucroute et qu'on en parle un peu partout! Il faut se méfier des corrélations, qui n'indiquent pas nécessairement rapport de cause à effet. Autre exemple: le pic "vendanges" et le pic "Sarkozy" correspondent assez bien...

07 décembre, 2005 11:14  
Anonymous Anonyme a écrit...

Super ! Vous avez essayé avec Aixtal et Veronis par exemple ?

07 décembre, 2005 11:19  
Anonymous Anonyme a écrit...

Excellent outils, merci beaucoups.

Serait-il envisageable de ne faire des recherche que dans des pages d'un pays donné (les pages en .be ou en .fr )?

07 décembre, 2005 11:28  
Blogger Jean Véronis a écrit...

Nico> Vous avez essayé avec Aixtal et Veronis. Bien sûr (ego quand tu nous tiens!). C'est amusant parce qu'il y a un pic très fort sur "Véronis" début novembre: ce sont mes billets sur Racaille et sur les AdWords de l'UMP qui ont été beaucoup repris. Par contre il y a un deuxième pic, sur Aixtal, celui-là, à la mi-novembre, et là ce sont mes histoires de "nuages" qui ont bien plu. Comme quoi, le "grand public" me cite plutôt comme Véronis, et les geeks comme Aixtal!

07 décembre, 2005 11:42  
Blogger Jean Véronis a écrit...

Vincent> Serait-il envisageable de ne faire des recherche que dans des pages d'un pays donné (les pages en .be ou en .fr ) Techniquement, ça ne paraît pas impossible, mais aurons-nous le temps et l'énergie? En tous cas la suggestion est très bonne, merci!

07 décembre, 2005 11:48  
Blogger Loran a écrit...

Tres fort.
Bravo.

07 décembre, 2005 12:12  
Anonymous Anonyme a écrit...

Effectivement, c'est a la fois une super idee et une super realisation. Cela dit, un outil pour faire des correlations de maniere automatique, ca fait froid dans le dos. Par exemple, le cas suivant : http://www.up.univ-mrs.fr/cgi-veronis/chronologue?mot1=racisme&mot2=sarkozy&mot3=demagogie&mot4=dictature&mot5=policier&mot6=genocide&Soumettre=Soumettre

07 décembre, 2005 12:23  
Blogger Jean Véronis a écrit...

Marc> J'ai fait une modif qui semble améliorer les choses sur septembre octobre, bien que je ne sois pas encore 100% satisfait...

07 décembre, 2005 13:25  
Anonymous Anonyme a écrit...

Idée extrêmement intéressante mais quelle unité de mesure est représentée sur l'axe des ordonnées ?

07 décembre, 2005 15:39  
Anonymous Anonyme a écrit...

Epatant.

07 décembre, 2005 16:44  
Blogger J2J2 a écrit...

Jean, Google serait-il black listé, ou considéré comme un stop word?
Il n'y a aucune courbe pour Google.

07 décembre, 2005 17:02  
Blogger TOMHTML a écrit...

Oups, j'avais pas vu qu'il y avait un autre post sur votre nouveauté

et comme Jérôme, je m'interroge sur la non-présence de Google (cf commentaire sur autre post)...

07 décembre, 2005 20:11  
Anonymous Anonyme a écrit...

On peut très bien voir ici: http://www.up.univ-mrs.fr/cgi-veronis/chronologue?mot1=oui&mot2=non

Que le oui est majoritaire en novembre.

07 décembre, 2005 21:04  
Blogger Jean Véronis a écrit...

Jérôme, Tomhtml> Google: oui, et je vois avec étonnement que Yahoo et MSN sont absents aussi. Bizarre, parce que quand on entre ces requêtes à la main dans l'interface web de dir.com on a des résultats. A voir.

07 décembre, 2005 21:29  
Blogger Jean Véronis a écrit...

Aiz> L'unité sur l'axe des ordonnées est le nombre de fois par rapport à la moyenne (qui est la ligne horizontale à la position 1). Donc, par exemple un pic à 2 veut dire 2 fois plus important que la moyenne pour ce mot.

07 décembre, 2005 21:31  
Blogger TOMHTML a écrit...

Oui en fait l'axe des ordonnées est trompeur : Villepin est "au dessus" de Sarkozy, mais c'est sans compter que Sarkozy est contenu dans 552000 pages, tandis que Villepin est contenu dans 421000 pages "seulement".

Jean, on se colle de près ! ^^

07 décembre, 2005 21:58  
Blogger Tom Roud a écrit...

Bonjour,
l'outil est très intéressant. Cependant, il me semble qu'il y a un biais, que vous pouvez peut-être corriger : si on rentre des noms hors "actualités" récentes, des noms communs ou des noms mal orthographiés, on voit clairement une corrélation, avec des pics au 3/4 de Septembre et au premier quart d'Octobre. Regardez par exemple :

http://www.up.univ-mrs.fr/cgi-veronis/chronologue?mot1=Raffarin&mot2=Sarkozi&mot3=peu-etre&mot4=charrette&mot5=&mot6=&Soumettre=Soumettre

En tous cas, merci pour ce blog toujours très instructif !

07 décembre, 2005 23:38  
Blogger J2J2 a écrit...

Oui, très étrange que Google, Yahoo et MSN soient absents. Et surtout très dommage, ça aurait permis de comparer avec les graphes des résultats "manuels" publiés par Olivier hier dans son billet Quand les moteurs de recherche occupent l'espace média...

08 décembre, 2005 10:30  
Blogger Vicnent a écrit...

Halalala !!!
De plus en plus fort !!!
Je propose la loi de "Moore II" : tous les 6 mois, le Blog de Jean est 2x plus intéressant qu'avant. Et "Dieu" sait qu'il l'est déjà...
Pour ce dernier outil, je n'ai qu'un mot : "Enorme" (au sens de Fabrice Luchini)
Comme d'hab', moi je dis Encore !!!!!

08 décembre, 2005 11:41  
Anonymous Anonyme a écrit...

je constate fréquemment un "pic" aux alentours de septembre, auquel je ne trouve pas d'explication, quel que soit le mot : femme, colle, enfant, sexe, etc.
pourquoi ?

08 décembre, 2005 12:28  
Blogger Jean Véronis a écrit...

Anonyme> Quelques problèmes chez dir.com... J'ai ré-étalonné etpour l'instant c'est bon, mais les résultats sont instables. Je serai peut-être obligé de fermer l'outil temporairement en attendant que ça se tasse. A suivre.

08 décembre, 2005 14:38  
Blogger TOMHTML a écrit...

Vincent, je te soutiens pleinement à propos de la loi de Moore II !


Pour Google, voici une petite comparaison sur les services Google. On remarque de sacrés pics ! Pour y voir un peu plus clair, enlevez le graphe de "Google Analytics" ;)

08 décembre, 2005 15:55  
Anonymous Anonyme a écrit...

Bonjour,

Quoique que je demande au chronologue (camion, cacahuete, egyptologue ...), la courbe est descendante sur les 15 derniers jours. Qqu'un a-t-il réussi a avoir des courbes croissantes sur cette période ?

08 décembre, 2005 17:15  
Blogger Jean Véronis a écrit...

Anonymous> courbes croissantes -- oui: "miss france 2006", "alexandra rosenfeld" (avec les guillemets)...

08 décembre, 2005 17:55  
Anonymous Anonyme a écrit...

Mais c'est absolument genial! Ceci dit, il faut faire tres attention a ne pas confondre correlation et causalite. Il se peut qu'il y ait des correlations fortuites, mais cela ne veut pas dire forcement un lien de causalite. L'interpretation des courbes necessitent dont toujours un modele.

Je suis astrophysicien, et je travaille sur un sujet qui n'est pas considere comme "chaud" (les etoiles Wolf-Rayet), mais qui est relie fortement a un sujet relativement chaud: les sursauts de rayons gammas. Je voulais comparer les deux. Mais aussi les comparer aux deux sujets les plus chauds de l'astrophysique contemporaine: la matiere noire et l'energie sombre d'un cote, et les planetes extra-solaires de l'autre. Le resultat est le suivant:

http://www.up.univ-mrs.fr/cgi-veronis/chronologue?mot1=Wolf-Rayet&mot2=%22Gamma-ray+burst%22&mot3=%22dark+matter%22&mot4=%22dark+energy%22&mot5=exoplanet&mot6=ESO&Soumettre=Soumettre

Le resultat est tres interessant! On peut voir les choses suivantes.

1. La courbe rouge des sursauts de rayons gamma est relativement periodique. Est-ce que cela est lie a la simple apparition relativement reguliere de sursaut dans l'Univers? Le taux d'apparition de ces sursauts est mal connu, mais l'apparition d'articles sur le sujet est assez reguliere.

2. Il existe des correlation temporaires entre les Wolf-Rayet et les sursauts de gamma. Ce qui est normal dans certains cas, puisque les WR sont les progeniteurs des GRBs (en tous cas les long-soft). Debut novembre la courbe des WR augmente significativement. Cela correspond assez bien au moment ou j'ai soumis 3 papiers sur les WR sur arxiv.org... Correlation? Causalite?...

3. Dark matter et Dark energy sont bien correlees. Je continue a penser que ce sont les deux plus grosses farces de l'astrophysique moderne, mais les publications sur le sujet sont enormes. A ce propos, il est plutot etonnant de voir des courbes assez peu constantes. Le nombre de papiers sur le sujet est constant et volumineux. Pourquoi la courbe change autant? Est-elle sensible a l'apparition des termes dans la presse non-specialisee, qui elle n'est pas constante?...

4. On ne peut pas comparer les courbes des planetes d'un cote, de la dark energy et dark matter d'un autre, et les WR et GRBs de l'autre, puisque l;echelle est relative. Si l'on pouvait choisir de faire figurer les courbes mais avec une echelle absolue (connaissant la valeur moyenne), on pourrait peut-etre mesurer l'importance relative entre les sujets.

Je crois que je vais continuer a lire assidument le blog de Jean Veronis, avec beaucoup beaucoup de plaisir. Merci!
Cédric

08 décembre, 2005 18:33  
Anonymous Anonyme a écrit...

C'est gé-nial !
Les perspectives sont énormes... merci de mettre cet outil à disposition !

Encore bravo

08 décembre, 2005 18:45  
Anonymous Anonyme a écrit...

interessant comme outil de veille concurrentiel !!

je viens d'en parler sur mon blog

08 décembre, 2005 18:54  
Anonymous Anonyme a écrit...

J'ai lu et relu les commentaires, mais c'était hier et j'ai une mémoire très courte... donc je ne sais pas si ça a été dit, déjà :
n'aura-t-on pas pour n'importe quel terme une augmentation dans les dates les plus récentes ? En effet, les anciennes pages peuvent disparaître, par exemple... et ne plus être indexées.

Je dis sans doute une idiotie...

08 décembre, 2005 23:32  
Blogger Jean Véronis a écrit...

Misdre> Oui, tout à fait: les anciennes pages disparaissent progressivement, ou sont mises à jour (et changent donc de date). Mais je pars de l'hypothèse que cette tendance affecte tout le web et par des statistiques appropriés, je "soustrais" cet effet global.

09 décembre, 2005 07:00  
Anonymous Anonyme a écrit...

Jean, cet outil est génial ! Faites qu'il soit disponible à nouveau rapidement ! Je poste mes remarques et desiderata d'utilisateur sur mon blog :

http://vanb.typepad.com/versac/2005/12/suivre_les_conv.html

versac

09 décembre, 2005 10:50  
Anonymous Anonyme a écrit...

L'outil est super, mais que penser des médias ? Cela laisse perplexe sur les informations qu'on nous donne et à quel moment !

09 décembre, 2005 18:26  
Anonymous Anonyme a écrit...

Super idée

J'irai meme jusqu'à dire que le moteur devrait l'integrer définitivement car c'est tres utile d'avoir une vision historique quand on effectue une recherche
incroyable que google n'ai pas mieux paufiné ce point sur son moteur avant

vivement que ça fonctionne a nouveau !

10 décembre, 2005 09:28  
Anonymous Anonyme a écrit...

Pourquoi la recherche du mot Google a une fréquence de 0 ?

30 décembre, 2005 10:28  
Anonymous Anonyme a écrit...

Superbe outil !
j'en ai fait un article sur mon site d'actu en faisant bien entendu un lien vers votre superbe site que j'ai découvert par hasard mais qui est très instructif !
Euh l'article ne paraitra que l'année prochaine !
Weetabix

31 décembre, 2005 16:51  
Anonymous Anonyme a écrit...

Très bon outil!

Sympa pour analyser les tendances politiques...

=)

03 janvier, 2006 14:36  
Anonymous Anonyme a écrit...

Ou encore les décisions Politique :

Légalisation du Peer to Peer mi-décembre par la loi Davdsi.


Il serait interressant de créer un espace de diffusion des différentes analyses des internautes...

moi je suis partant ;)

03 janvier, 2006 16:24  
Blogger Stephane MOT a écrit...

Précieux : face à une multitude d'outils autrement plus sexys et riches (ie text mining), le votre a le merite de l'instantanéité, de la simplicité (usage, compréhension, pédagogie...), de la neutralité et, ce qui ne gache rien, de la gratuité !

09 janvier, 2006 10:52  
Anonymous Anonyme a écrit...

Concernant le chronologue, les comparaisons entre différentes personnes sont elles réellements possibles ? Je veux dire, d'un point de vue graphique, les moyennes n'étant pas les mêmes, on ne peut pas comparer les "popularités" des mots. On sait juste si on en parle plus. Ai-je bien compris ?

13 janvier, 2006 12:05  
Anonymous Anonyme a écrit...

Bravo, cet outil est très intéressant, tout comme votre site tout entier. Félicitations et bonne continuation!

15 janvier, 2006 09:38  
Anonymous Anonyme a écrit...

Bonjour
ca fait un moment que je devore votre blog, et j'adore ses outils le chronologue, et le nebuloscope.
Dans l'un de vos exemples vous cherchez sarkozy, banlieues, émeutes, effectivement on peut correler.
Mais parfois on cherche un terme par exemple "ben laden" on trouve un pic aux alentours du 10 octobre, on se demande pourquoi.. Y'a-t-il quelque chose en rapport avec l'actualité? Je ne sais pas vraiment comment faire mais peut être existe-t-il un moteur de recherche dans l'actualité. Par exemple dans une période donnée, disons quelques jours avant le pic, on recherche le mot clef.. Ca donnerait peut-être une idée de la raison du pic...
Qu'en pensez vous ?
Bonne continuation.

15 janvier, 2006 15:04  
Blogger Jean Véronis a écrit...

Nicolas> toujours difficile à dire: pourquoi tel ou tel pic... Peut-être la sortie d'un livre, un événement particulier? Je ne connais hélas pas de moteur efficace pour la recherche d'actualités. J'utilise les moteurs du NY Times, ou de Libé mais il sont assez rustiques (pas de graphiques, etc.). Des journaux comme lLibé disent qu'ils traversent une crise, le passage du papier au net en gros. Ne faudrait-il pas qu'ils proposent des outils sophistiqués qui attireraient et fidèliseraient le lecteur électronique?

15 janvier, 2006 15:58  
Anonymous Anonyme a écrit...

Sans le savoir, je tombe en plein dans la conversation: Ma question était "Pourquoi ce pic?" mais je me demandais s'il était possible de superposer les courbes des n plus gros scores de la période immédiatement suivante. Cela pourrait aider, de savoir ce qui a remplacé le mot-clé dans le buzz. (Peut-on l'employer ainsi, le buzz?).
En tout cas, bravo et merci pout tout.

19 janvier, 2006 16:16  
Blogger Jean Véronis a écrit...

Francois> Afficher les n plus gros scores -- Si je comprends bien ce que vous suggérez, il faudrait savoir quels sont les mots qui appaissent en remplacement d'un mot qui s'éteint. Pas facile comme problème!

22 janvier, 2006 20:24  
Blogger Jean Véronis a écrit...

Gilda> Merci, c'est gentil. Sablier est une bien bonne lecture. Un petit moment de poésie quotidien...

22 janvier, 2006 20:28  
Anonymous Anonyme a écrit...

Il serait vraiment intéressant, d'un point de vue de l'étude de la néologie, de pouvoir remonter de quelques années. J'ai bien tenté le coup avec 48 mois mais l'outil ne semble pas le supporter. Est-ce que ce serait bien difficile à faire pour vos collègues du côté de moteur de recherche?

Merci pour cet outil fantastique!

23 janvier, 2006 20:05  
Blogger Jean Véronis a écrit...

Lui> Ah oui, ce serait merveilleux! malheureusement, c'est impossible, pour des raisons techniques...

23 janvier, 2006 20:44  
Anonymous Anonyme a écrit...

Tout simplement merci pour ces petits outils simples et magiques que sont le nebuloscope et le chronologue... en espérant pérennité et amélioration constante ;-)
A2B
www.miticblog.com

26 janvier, 2006 16:06  
Anonymous Anonyme a écrit...

Merci infiniment de nous laisser jouer avec ce merveilleux gadget.
Personnellement, je suis émerveillée par les "nuages" de mot. A part la beauté du geste, ça sert à quoi? C'est pour concurrencer google? ça me fait un peu penser aussi à kartoo.com et ses jolies planètes.

27 janvier, 2006 20:55  
Blogger Jean Véronis a écrit...

Briconcella> concurrencer Google -- n'allons pas jusque là... J'essaie juste d'illustrer quelques petites idées comme ça. Oui, ça ressemble un peu à Kartoo. L'idée de Kartoo est bonne; avec quelques améliorations ça pourrait être un bel outil.

27 janvier, 2006 21:22  
Blogger neofutur a écrit...

bonjour, j'utilise votre outil depuis quelques semaines, et je tenai a vous signaler un
pic
comme je n'en avai encore jamais vu.


A signaler : les petits pics précédents comme 'spip-contrib' sont deja de gros pics.

comment expliquer cela ? a ce point ?

dans l'espoir d'aider, pour le cas ou cela pourrait vous aider pour le tuning de ce fabuleux outil . . .

30 janvier, 2006 04:12  
Blogger Jean Véronis a écrit...

Neofutur> C'est une illusion d'optique... Ce que j'affiche ce sont des fréquences relatives, c'est à dire rapportées à la moyenne du mot sur la période (la ligne horizontale grise à 1). Lorsqu'un mot a une fréquence moynne très faible, comme PHPMYPIXELPAGE, et qu'il se met à apparaître d'un coup, cela fait évidemment un énorme pic, sa fréquence est multipliée par 10 ou 50... Pour des mots qui apparaissent un million de fois comme SPIP, les variations ne peuvent pas être aussi grandes et aussi brusques.

J'ai déjà repéré ce problème, et j'ai réfléchi à un autre mode de visualisation... Dès que j'ai deux minutes, je m'y mets!

30 janvier, 2006 08:49  
Anonymous Anonyme a écrit...

Intéressant. Serait-il possible d'avoir un historique plus conséquent (5 mois c'est un peu léger)? Peut servir à notre site dédié à l'étude du pic de pétrole (www.oleocene.org).
Cordialement.

30 janvier, 2006 22:09  
Anonymous Anonyme a écrit...

je suis beat d'admiration pour ce que vous avais produit je me demande quel en est la fiabilitée
mais peu importe si sa peu servir de moteur de recherche

31 janvier, 2006 01:50  
Anonymous Anonyme a écrit...

Faisons la synthèse de quelques posts... Le mode de visualisation actuel, en quantités relatives, est très intéressant et il ne faut pas le supprimer. Il serait par contre judicieux de pouvoir choisir entre cet affichage relatif et un affichage "absolu", où une expression apparaissant mille fois écraserait en effet une autre expression n'apparaissant que vingt fois.
D'autre part, un historique de taille paramétrable serait très intéressant, surtout si il permet de remonter avant septembre 2005.
N'empêche, cet outil reste passionnant, surtout pour les pauvres ingénieurs comme moi qui préfèrent le quantitatif au qualitatif. Merci encore.

31 janvier, 2006 02:05  
Blogger Jean Véronis a écrit...

Anonymous> Serait-il possible d'avoir un historique plus conséquent?> -- cette question m'est souvent posée, mais hélas, la date butoir restera le 1/9/2005. Le moteur n'était pas paramétré d'une façon qui permette d'avoir les dates de façon adéquate auparavant...

31 janvier, 2006 09:58  
Blogger Jean Véronis a écrit...

Phyvette> merci... la fiabilité est très bonne sur les pics très prononcés, par exemple une expression qui apparaît tout d'un coup, comme blog proviseur ou qui se met à être beaucoup plus employée comme "segolene royal". Elle n'est pas très bonne sur des mots ou expressions assez généraux, et dont les fluctuations semblent assez aléatoires...

31 janvier, 2006 10:00  
Blogger Jean Véronis a écrit...

Anonymmous>pouvoir choisir entre cet affichage relatif et un affichage "absolu" -- oui, c'est exactement ce que j'envisage. Le temps me manque un peu, mais ça va venir... Par contre pour l'historique j'ai déjà répondu: on ne pourra pas, techniquement parlant, remonter au de-là de sept. 2005.

31 janvier, 2006 10:02  
Blogger Dado a écrit...

Avant toutes choses, je tiens à vous présenter mes félicitations pour le Nébuloscope et le Chronologue. Comme je postais un commentaire dans le but d'émettre une remarque - que j'espère constructive - je ne voudrais que vous croyiez que je n'apprécie pas énormément ces deux outils !

Je viens de me rendre compte qu'il y a un petit phénomène qui semble parasiter les résultats. J'ai fait des recherches sur la grippe aviaire et les différents noms d'oiseaux : cygnes, canards, poules, moineaux. Mis à part "cygnes", qui connaît un pic remarquable peu de temps avant la dernière montée de "grippe aviaire" - et non simultanément ! les autres oiseaux sont moins touchés. C'est là que je me suis rendu compte que canards, poules et moineaux avaient des pics similaires, qui pouvaient laisser croire à une forte correlation entre eux. J'ai donc testé avec d'autres mots sans rapport comme lapins et lunettes :

Correlations bizarres

On observe les mêmes correlations. Il semble donc que ce soit un bruit extérieur. Savez-vous à quoi il est du ? A des fluctuations sur le nombre de pages visitées ? Si c'est le cas, ne serait-il pas alors possible de présenter, plutôt que le nombre brut d'occurences, le rapport occurences/pages visitées ?

21 mars, 2006 02:56  
Blogger Dado a écrit...

Oups! Je n'avais pas remarqué le billet publié dans l'article "La grippe aviaire a disparu" et où vous expliquez les raisons de ce bruit.

>> "En effet, le simple compte de pages pour chaque jour sur une requête donnée est assez "bruité". Des tas de paramètres entrent en jeu, comme les variations hebdomadaires (moins de pages créées ou modifiées les week-ends!) ou à plus long terme (moins de pages pendant les vacances), ou bien liées au moteur lui-même (changement de stratégie ou de fréquence de crawling, etc.). Mais ces paramètres affectent (grosso modo) tous les mots de la même manière..."

Qui plus est, je viens de réaliser que la "solution" que j'avais suggérée ne marche pas du tout, mais alors pas du tout !

Désolé donc pour ces commentaires inutiles ! :(

27 mars, 2006 15:52  
Blogger Jean Véronis a écrit...

Dado> Je m'aperçois que je n'avais pas répondu au précédent message. Toutes mes excuses: le système Blogger est très archaïque et les commentaires sur les billets anciens sont difficiles à repérer. En plus du "bruit" plus ou moins aléatoire, il faut faire attention aux corrélations: qui dit corrélation ne dit pas causalité. Si "printemps" et "CPE" montent ensemble ces jours-ci, ce n'est pas parce que c'est l'un qui a provoqué l'autre... Un exemple que je cite souvent est celui des cigognes: s'il y a plus de naissances dans les communces où il y a beaucoup de cigognes, ce n'est pas forcément parce qu'elles y ont apporté des bébés (mais peut-être simplement parce qu'elles font leurs nids loin des centre-villes, et que les jeunes couples y résident souvent, parce que c'est moins cher...). Donc, méfiance!

27 mars, 2006 19:42  
Anonymous Anonyme a écrit...

D'abord, félicitations pour cet outil très instructif quand on arrive à interpréter les résultats.

D'autre part, j'aurai voulu savoir si avec le plugin de recherche Firefox, il y avait une méthode (séparation par des virgules, des points virgules ?) pour faire une recherche sur plusieurs mots en parallèle comme sur la page de recherche . En effet, les requêtes que j'effectue le plus souvent sont des comparaisons et je ne peux donc me servir du plugin.

Merci d'avance pour la réponse.

28 mars, 2006 16:49  
Blogger Jean Véronis a écrit...

Stéphane> Oui, séparez les termes par une virgule (idem dans le Nébuloscope).

28 mars, 2006 17:02  
Anonymous Anonyme a écrit...

excellent! J'ai testé grippe aviaire et cpe et les résultats vont bien le même sens que ce que vous aviez précedemment observé entre les émeutes en banlieue et la même grippe aviaire.
Merci pour la mise à disposition d'un tel outil.

07 avril, 2006 07:53  
Anonymous Anonyme a écrit...

J'ai essayé "CPE" et "Grippe avaiaire" dans le Chronologue. On constate bien que Villepin a réussi à vacciner le web contre la grippe aviaire!

07 avril, 2006 22:14  
Blogger P. P. Lemoqeur a écrit...

Je cherchais Chronologue. J'ai trouvé et maintenant je suis accro, addicté, T.O.Cisé...

Merci.

La statistique jubilatoire, c'était pas évident...

A bientôt...

08 avril, 2006 22:01  
Blogger P. P. Lemoqeur a écrit...

Ah! J'oubliais ...

Monsieur Véronis, aviez-vous, avant que la technique permette votre travail actuel, une idée de ce que votre projet pouvait dans son application, devenir (un poil...) subversif ?

08 avril, 2006 22:21  
Anonymous Anonyme a écrit...

Magnifique outil ! Quel dommage que vous ne puissiez le faire agir rétroactivement afin que sur des termes et sujets un peu brûlants comme chômage, travail, exclusion on puisse se faire une idée de leur fortune variable, disons sur les 20 dernières années, et jeter les bases d'une "science" de l'euphémisme, de l'antiphrase et de la litote. Bravo tout de même.

12 avril, 2006 11:34  
Anonymous Anonyme a écrit...

Je me permets de mettre un lien vers un jeu que je viens de découvrir récemment et qui rejoint un peu le chronologue : les mots de l'infos. En fait, le principe est simple : il s'agit d'une bourse aux mots. On achète des mots quand on pense qu'ils vont faire parler d'eux dans l'actualité. Le cour d'un mot est calculé en fonction de sa fréquence dans un certains nombre de site web. Je trouvais le recoupement avec le chronologue intéressant... je ne sais pas si cela pourra vous intéresser par contre...
http://www.lesmotsdelinfo.com

26 avril, 2006 16:43  
Blogger moncoach-enligne a écrit...

Je clique sur le "Nouveau Plugin pour Firefox au bas de la page et Patatra !

Not Found
The requested URL /cgi-veronis/mycroft.mozdev.org/download.html was not found on this server.

Dommaaaage !

Au fait j'en profite pour poser une petite question. Olivier Ertzscheid annonce dans son blog affordance.info (http://affordance.typepad.com/mon_weblog/) "l'embauche de Jean Véronis et la reprise de son Chronologue qui devient Google Trends."
C'est vrai ?

Merci encore pour cet outil fantastique qui donne un peu de sens à cette surabondance d'information.
Pierre.

11 mai, 2006 10:23  
Anonymous Anonyme a écrit...

Bonjour,

Pourriez vous indiquer une définition plus précise du travail effectué par le Chronologue après une requête ?
Qu'entendez-vous exactement par "pages crawlées" (c'est du québécois ???).
Les pages "crawlées" correspondent-elles à celles "crawlées" par le Chornologue ou bien à ces celles "crawlées" par les internautes ?
Petite question (curiosité) : comment le Chronologue peut-il techiquement ne travailler que sur les pages "francophones" ?
Merci

Laurent

29 mai, 2006 09:35  
Blogger Jean Véronis a écrit...

Pages crawlées: ce sont les pages aspirées par le moteur quotidiennenment (avec une normalisation pour éliminer les fluctutations générales: variations saisonnieres, etc.). Contrairement à Google Trends, je ne m'occupe pas des requêtes des utilisateurs.

Pas francophones: c'est Dir.com qui fait ça, comme tous les moteurs, avec un module de reconnaissanceautomatique de la langue. Vous pouvez en faire autant sur Google ou Yahoo en réglant Langue->Français.

29 mai, 2006 09:41  
Anonymous Anonyme a écrit...

Bonjour,

Il ne fonctionne pas en ce moment, est ce normal?

21 juillet, 2006 16:42  
Blogger Jean Véronis a écrit...

>Il ne fonctionne pas en ce moment, est ce normal?

Non ;-)

Mais Dir.com est en panne ces jours-ci...

22 juillet, 2006 15:25  
Anonymous Anonyme a écrit...

Excellent petit outil qui rendra de grands services. Merci.
Je mets un lien sur mes blogs.

14 septembre, 2006 16:30  
Blogger Philippe a écrit...

Oups, il a l'air malade le Chronologue, depuis fin octobre apparemment... Je lui souhaite un prompt rétablissement ;) !

06 novembre, 2006 22:07  
Anonymous Anonyme a écrit...

@freecorp

Il a même l'air mort depuis début janvier : sarkozy = 0 selon le chronologue.

Ou alors, on ne doit pas fréquenter le même internet !

06 février, 2007 10:20  
Blogger XoF a écrit...

C'est beau et bien utile quand on s'intéresse à la langue...
J'ai un petit problème : quand on entre deux mots identiques, la courbe rouge et la courbe bleue ne sont pas exactement superposées, voire divergent carrément... snif...

15 février, 2007 19:01  
Anonymous Anonyme a écrit...

J'aimerais signaler que le serveur dir.com est de nouveau opérationnel. J'attends avec impatience le retour du chronologue.

20 avril, 2007 17:04  
Blogger Jean Véronis a écrit...

Oui, mais le crawler l'est-il ? le moteru fonctionne, mais il n'est plus alimenté en pages nouvelles (enfin, je vais quand même vérifier).

20 avril, 2007 17:10  
Blogger micami a écrit...

Coucou !!
Je ne sais pas si je ne suis pas douée (j'ai pas tellement l'âme de l'informaticien) ou si c'est mon ordi qui est vieux, mais je n'arrive pas à effectuer ma recherche, j'aimerai savoir l'occurence du mot Bordeaux au de mars 2008 à 2009, mais je n'y arrive pas.
De plus j'aimerai filtrer cette recherche dans un journal précis genre Le Monde, est-ce possible ?

Merci de me répondre,

a toute !!

22 avril, 2009 14:50  
Anonymous Health Blog a écrit...

Monsieur Véronis, aviez-vous, avant que la technique permette votre travail actuel, une idée de ce que votre projet pouvait dans son application, devenir (un poil...) subversif ?

24 janvier, 2011 13:27  
Anonymous Iam a écrit...

De plus j'aimerai filtrer cette recherche dans un journal précis genre Le Monde, est-ce possible ?

24 janvier, 2011 13:28  
Anonymous wczasy w polsce a écrit...

Oups, il a l'air malade le Chronologue, depuis fin octobre apparemment... Je lui souhaite un prompt rétablissement ;) !

15 mars, 2011 02:08  
Blogger Jean Véronis a écrit...

Le Chronologue ne fonctionne hélas plus...

15 mars, 2011 08:19  
Anonymous stephane a écrit...

Je viens de repenser à ce fabuleux outil qu'était le chronologue en lisant cette news de Clubic sur le départ de Pierre Bellanger de Skyrock

"Nombreuses discussions également sur Twitter, où les termes « Skyrock », « Pierre Bellanger » et « Difool » figuraient mardi matin parmi les sujets en vogue en France (appelés trending topics) mardi matin."

Ralala, Twitter pourrait nous mettre à disposition un chronologue !
A moins que cela n'existe déjà ?

15 avril, 2011 00:15  

Enregistrer un commentaire

dimanche, décembre 04, 2005

Récré: Les Miss savent compter jusqu'à quatre

Si vous avez regardé TF1 hier soir, vous avez sans doute constaté que les candidates Miss (qui sont presque toutes étudiantes en quelque chose) ne savent pas trop parler... Mais par contre, Jean-Marc Morandini nous révèle sur son blog qu'elles savent compter... jusqu'à quatre, comme le montre cette photo parue à la une de TV Magazine (!):



Certains esprits chagrins y voient un geste assez vulgaire, mais je crois qu'ils ont tort. Les Miss, comme on le sait, sont jugées autant (enfin, presque...) sur leurs qualités intellectuelles que physiques, et l'une d'elles s'entraînait tout simplement au système de numération binaire, dans lequel cette configuration digitale représente le nombre quatre (j'ai présenté ce système de codage en détail il y a quelque temps):



Les gens sont tout de même méchants. Depuis quelques jours tout le monde est à la recherche de la Miss qui aurait pu faire ça. Stéphane Degor (grâce à qui j'ai découvert l'histoire) me lance même un défi. Comme je me débrouille un peu en analyse d'image, il me demande d'essayer de démêler le vrai du faux dans cette histoire. Montage? mais le responsable chez TV Mag serait purement et simplement suicidaire: c'est le licenciement pour faute grave garanti! Ou bien, sinon, quelle est la Miss mathématicienne? Mme de Fontenay menaçait de la disqualifier si elle la démasquait, et apparemment elle ne l'a pas trouvée...

Je dois dire que c'est très difficile, malheureusement, d'analyser cette image. Je n'ai que la version publiée sur le Web d'une résolution plutôt faible... Je me suis précipité sur mon kiosque à journaux, mais point de TV Magazine (ce truc-là arrive-t-il même en province?). Au vu de l'image imprécise dont je dispose, je ne vois rien qui permette de conclure à un montage (ni d'ailleurs de l'exclure). Quelques pixels un peu trop clairs sur le maillot bleu de Miss Réunion à l'arrière plan, mais c'est bien peu... Le soleil et l'ombre sont dans la bonne direction, le contraste, la luminosité et la colorimétrie correctes... Si c'est un "fake" il est bien fait.

Reste alors l'anatomie. Le corps humain a des proportions et des contraintes précises. On a bien une main droite (paume en l'air, petit doigt vers nous), d'une peau relativement claire. La majorité des commentateurs (et le Parisien) accusent Miss Bretagne (la blonde, derrière Miss Martinique), qui regarde justement dans cette direction... C'est peut-être aller un peu vite en besogne: il y a au moins une autre suspecte, Miss Ile de France (style Janet Jackson, au centre): elle a la peau un peu plus mate, mais la couleur de l'avant bras est parfaitement compatible avec celle de son buste. Cet avant-bras est trop loin me direz vous?

Voici les proportions du corps humain telle qu'on me les enseignait quand j'usais mes fonds de culotte à essayer d'apprendre à gribouiller. Depuis, le canon est devenu plus longiligne, mais c'est surtout une question de graisses, et ça ne change pas la proportion des os, qui est l'élément qui nous importe:



Si l'on reporte ces proportions sur la photo, on s'aperçoit qu'elles sont compatibles aussi bien avec Miss Bretagne qu'avec Miss Ile de France:



C'est un peu plus compliqué pour Miss Bretagne, car on ne sait pas exactement comment est orienté son torse et quelle est la direction de ses épaules, mais grosso modo, la position du bras est dans la gamme des possibles (il faut imaginer qu'elle a le coude dans le creux de la hanche). Pour Miss Ile de France, ça colle comme à l'académie: elle est de face, les épaules horizontales, le torse parfaitement parallèle au plan focal, on voit la position de ses pieds. Le rectangle que j'ai tracé en clair a exactement la proportion 2/3 à laquelle on s'attend (mettez-vous dans cette position face à une glace et mesurez, vous verrez!). Si c'est elle, elle nous regarde bien fixement et fait son coup en douce l'air de rien. Plus maline que Miss Bretagne quand même, qui se dénoncerait très bêtement par son regard. En fait, peut-être que cette dernière s'amuse tout simplement du forfait de sa copine: quand vous faites un doigt à quelqu'un vous regardez votre doigt, vous? --enfin, d'accord, vous êtes sans doute comme moi, vous ne faites jamais de tels gestes!

Moui... et si c'était ni l'une ni l'autre? Un commentateur a émis l'hypothèse chez Morandini. Effectivement, j'ai beau compter et recompter, je ne vois que 43 têtes ou portions de têtes sur cette image... Où sont les Miss manquantes, puisqu'on nous dit qu'elles étaient 45? On peut très bien imaginer une Miss légèrement penchée derrière Miss Martinique, en train de faire le fameux doigt, ce qui provoquerait l'étonnement et le regard de Miss Bretagne!

Bref, je n'en sais pas plus qu'au début, mais j'ai passé un moment bien agréable (ça tombe bien je n'avais qu'une thèse et un mémoire d'HDR à lire, mes cours à préparer pour demain, etc.). En tous cas, la Miss qui a fait ce coup a toute ma sympathie! Sacré brin de fille... J'espère qu'on saura un jour qui c'était.

Bon. Ceci un blog intellectuel, tout de même, et il faut élever le débat. Vous savez à quoi j'ai immédiatement pensé lorsque j'ai vu cette photo? A cette autre image:


Là aussi il y a une main en trop, armée d'un poignard:



Ça fait plusieurs siècles qu'on cherche le propriétaire de cette main-là, qui ne semble pourvoir appartenir à aucun des protagonistes... mais je suis sûr que vous avez lu le Da Vinci Code!

Ah, j'allais oublier: vous avez remarqué que la tête de proue de cette photo des Miss, prise bien avant le concours, est justement l'heureuse élue, Miss Languedoc. Ce n'est qu'une coïncidence, bien évidemment.

23 Commentaires:

Anonymous Anonyme a écrit...

Avant d'enquêter, il faudrait déjà savoir s'il y a délit : moi, j'ai l'impression que ce doigt n'est pas un majeur mais un index adréssé à une personne hors-champ.
Par ailleurs, il me semble invraisemblable qu'une personne puisse commettre un tel geste au milieu d'une photo de groupe sans être remarquée par ses voisins.

04 décembre, 2005 19:07  
Anonymous Anonyme a écrit...

je viens de débarquer sur le blog, je me suis bien régalé.

04 décembre, 2005 22:38  
Anonymous Anonyme a écrit...

merci Jean pour cette analyse !

05 décembre, 2005 09:44  
Blogger VinZ a écrit...

Une chose qui concerne les Miss (vu sur 3couleurs) :
Miss Aquitaine a un blog perso où elle se fait appeler Miss Ricard...

05 décembre, 2005 15:03  
Blogger Gaelle Le Goff a écrit...

Moi je penche pour miss Bretagne qui m'a l'air bien concentrée... Pas évident aussi compter 1 .. 2 .. 3 .. et 4 avant que le petit oiseau sorte de l'appareil ouf!mission accomplie! ;-)

05 décembre, 2005 16:07  
Blogger Poulos a écrit...

Magnifique, Jean ! Mais, je suis désolé de vous dire que vous avez tout faux, car voici la photo originale :
http://pierre-bon.com/IMG/Lmf.gif

05 décembre, 2005 17:05  
Anonymous Anonyme a écrit...

NB : ne pas mettre toutes les Miss dans le même panier ;-)

05 décembre, 2005 17:52  
Blogger Luc a écrit...

Cher Jean,

Si tu veux les docs originaux en gros plan, viens voir ma note ici : Miss France : la classe !

Mais je dois dire que, comme d'habitude, ton analyse de la chose est succulente, et superbement bien argumentée !

Cordialement,

Luc

05 décembre, 2005 18:52  
Anonymous Anonyme a écrit...

Le blogue de Miss Ricard a été détruit dans l'après-midi. C'est normal : tout le monde se donnait l'adresse. Toutefois, j'espère qu'il existe des copies-écran parce que cela valait son pesant de moutarde (et de vodka).

05 décembre, 2005 21:50  
Blogger Jean Véronis a écrit...

Poulos> Fantastique! merci pour le lien, je me suis tordu de rire pendant un bon quart d'heure...

Miss> Non: au moins il y a des Miss qui savent compter ;-)

Luc> Merci pour les photos (et le compliment ;-). Mais ça confirme: rien ne sent le "fake" dans cette histoire!

Dominique> Oui, mais le blog de Miss France elle-même est toujours là:
pancakes.skyblog.com. Je l'ai aspiré dare-dare: ça va être un "collector" celui-là!

06 décembre, 2005 09:32  
Anonymous Anonyme a écrit...

Après un zoom qui m'a pris quelques minutes sous Irfanview, je suis en mesure de dire que ce doigt tendu bien haut appartient à une miss dont on ne voit que le dessus de la tête, juste en dessous de la grand blonde et juste au dessus de Miss Martinique.

On y voit clairement un bout de "dessus de tête" mi roux mi blond qui ne peux appartenir à Miss Martinique et qui est beaucoup trop excentré pour appartenir à la prolongation de la criniere de la grande blonde au dessus.

J'en conclus donc que ce doigt n'appartient donc à aucune des miss visibles sur cette photo. Reste à repertorier toutes les miss plus petites qui sont plus petites que la grande blonde et un poil plus grand que miss Martinique, rousses ou blondes chatins, et qui n'apparaissent pas dans la photo.

06 décembre, 2005 13:02  
Anonymous Anonyme a écrit...

Une petite précision sur TV magazine : c'est je crois le magazine télé qui a la plus grande diffusion en france, et pour cause, il est offert en supplément le vendredi dans un grand nombre de journaux régionaux (ex : Dernières nouvelles d'alsace) et même nationaux (Le Figaro).

En revanche, je ne crois pas qu'il soit vendu comme ça à l'unité, donc c'est normal que vous ne l'ayez pas trouvé en kiosque !

Au passage : bravo pour votre blog, très intéressant

06 décembre, 2005 14:17  
Anonymous Anonyme a écrit...

Miss Ranse sur skyblog, sé tro cool ... L'adresse donnée ci-dessus par Jean Véronis est un grand moment de poésie... somptueusement ridicule ! Une autre, une autre !!

Vince

06 décembre, 2005 15:16  
Anonymous Anonyme a écrit...

Moi personnellement je compte et recompte 45 tetes sur la photo... donc ce n'est pas un des miss manquante.

07 décembre, 2005 14:39  
Anonymous Anonyme a écrit...

Pour ma part, je dirai qu'une miss a ramassé un coquillage ou un caillou et elle le tient dans le creux de sa main ...

Ouaips, je sais ça casse un peu l'ambiance ;-)

27 décembre, 2005 03:47  
Anonymous Anonyme a écrit...

Personnelement je trouve qu'elle aurait le bras vachement long...menfinnnn XD

28 décembre, 2005 23:31  
Anonymous Anonyme a écrit...

Moi j'ai compté... Ça me donne 43 aussi... Et puis ce doigt, il est super fort ce doigt, j'adore cette image. :P

29 décembre, 2005 23:34  
Anonymous Anonyme a écrit...

Attention au blasphème! c'est la main de Marie-Madeleine!!

04 janvier, 2006 18:58  
Anonymous Anonyme a écrit...

PFFF sa peux pas étre sophie!!!prckel est tipée alors que la main de la cadidate et blanche!!donc c'est pas la candidante MISS ILE DE FRANCE!!!!!

06 janvier, 2006 23:05  
Anonymous Anonyme a écrit...

Remarque rapide. Je n'ai pas lu tout le corpus supra (suis pressé et de passage), mais j'ai vu aux 2 dessins filaires ajoutés sur la photo que vous sembliez "élire" une miss blonde au centre (schéma jaune) ou une brune bouclée devant elle (schéma rouge) comme responsable du fameux doigt.

L'auteur de ce schéma, d'où il tire hypothèse et conclusiion, n'est manifestement pas dessinateur. Non pas en raison du dessin très sommaire, mais de l'ignorance d'un aspect qui n'échappe pas au portraitiste et à l'artiste figuratif : la perspective (distance par rapport au point de fuite).

Le schéma est tout simplement erroné parce qu'il plaque sur le premier plan des personnages situés en 4e et 5e plan sans tenir compte de la profondeur. De même, l'angle qu'offre l'avant-bras ne peut nullement être horizontal s'il s'était agi des 2 miss en question. Ce n'est pas une simple translation ! Il est donc inconcevable de dire que la blonde ou la brune puissent être l'auteur du geste.

D'après la photo, la seule miss physiquement capable du geste est l'autre blonde (très peu visible) dont on ne voit que les racines noires, à côté de la miss blonde mise en cause et cachée par une brune derrière miss Martinique.

Toujours d'après la photo, une seule miss a peut-être pu voir l'auteur du geste : la miss noire du fond derrière miss Réunion car elle est penchée à hauteur.

Une autre explication serait celle d'une personne cachée entièrement entre les miss.

Franck veillon
graphiste et chercheur
visiolab@free.fr

22 janvier, 2006 17:38  
Anonymous Anonyme a écrit...

Je suis tout à fais d'accord avec aziz je pense que ce "doigt" n'est pas le majeur mais plutot l'index !

28 avril, 2006 15:35  
Anonymous Anonyme a écrit...

Cherchez bien sur internet il y a une photo où elles ont toutes (ou presque)le doigt en l'air à la demande du photographe... on s'amuse comme on peut. celle ci fait causer alors que c'est juste un faux départ !!

11 mai, 2007 20:00  
Anonymous Anonyme a écrit...

Photos de groupe bras tendus.

http://gregorypouy.blogs.com/marketing/images/2152331_1.gif

23 octobre, 2007 12:33  

Enregistrer un commentaire