Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

jeudi, décembre 29, 2005

Outil: Le Chronologue redémarrre

Dans sa brève durée de vie, le Chronologue a eu un franc succès! Près de 10000 requêtes en deux jours, des commentaires un peu partout sur la blogosphère. Même le très sérieux magazine Challenges lui a consacré une pleine page:



Il est vrai que, même s'il reste plein de réglages à faire, l'outil est fascinant. Certains se sont même demandé pourquoi les moteurs ne proposent pas ce type de graphique en standard... Je n'ai pas la réponse, mais je constate que des graphiques "lexichronologiques" apparaissent tout doucement un peu partout. Dimitri faisait remarquer dans un commentaire que Google l'utilise pour son "Zeitgeist" de fin d'année:



La différence avec le Chronologue c'est que la visualisation concerne les requêtes (enfin, seulement quelques-unes choisies par Google), et non pas les documents, mais j'ai été surpris de constater hier que Technorati venait d'intégrer cette fonctionnalité sur son moteur (limité aux blogs):



BlogPulse proposait déjà un service du même type pour les blogs (un peu plus évolué, en fait, même si Technorati a l'avantage de savoir détecter la langue, ce que ne fait pas BlogPulse).



C'est évidemment plus facile sur les blogs: les sources sont à peu près connues, et le système de publication RSS date les billets de façon parfaite. Sur le Web, c'est beaucoup plus complexe: les sources dépendent du crawler et de ses stratégies, les dates sont peu fiables, etc. Beaucoup de bruit, mais l'idée du Chronologue c'était de démontrer que c'était faisable...

Seulement voilà, pas de chance, Dir.com a eu un gros problème technique, et j'ai dû arrêter temporairement le Chronologue, car les stats n'étaient plus possibles... Mais finalement c'est reparti (formulaire toujours ici). Il était temps: le "buzz" était en train de se tarir ;-)



J'en ai profité pour faire quelques petits réglages: j'affiche maintenant entre parenthèses la fréquence journalière moyenne du mot sur l'ensemble de la période (c'est-à-dire depuis le 1er septembre), et il y a beaucoup moins d'instabilités (je croise les doigts...). La courbe de "buzz" remontera peut-être ;-) Pour me consoler, je constate que je ne suis pas le seul à avoir eu le buzz bref:



Même chez les éléphants c'est la débandade:



Et ça n'est pas un bug du système, parce qu'il y a des gazelles qui montent, qui montent:



Allez, tout ça c'est pour 2007 ! En attentant, bonne fin d'année 2005:



N'abusez pas trop des bonnes choses quand même...





Post-scriptum


Tiens, ça a plu à TF1...

Voir aussi

Libellés :


9 Commentaires:

Blogger TOMHTML a écrit...

Excellent article, comme d'habitude Jean :)
et bravo pour Challenges, je n'étais pas au courant, ça c'est du buzz ! ^^

PS : pour le Zeitgeist de Google, ils ne vous ont pas copié puisqu'ils faisaient des "chronologues" bien avant vous :)
La preuve en 2003.

29 décembre, 2005 12:15  
Blogger Jean Véronis a écrit...

TomHtml> Ils ont apparemment commencé en 2001 ; Dimitri a retrouvé le lien: ici. Dommage qu'ils ne mettent pas le système en ligne: ce serait génial d'avoir la courbe sur la période et les mots-clés qu'on veut.

29 décembre, 2005 12:20  
Blogger TOMHTML a écrit...

s'ils ne le font pas c'est sans doute parce que ça doit consommer la blinde de ressources ;-)
Et aussi parce que Google ne garde pas en mémoire les précédentes versions des pages qu'il crawle.

29 décembre, 2005 14:42  
Blogger TOMHTML a écrit...

je sais pas si vous étiez au courant, mais MSN fait ça aussi désormais ^^
http://www.imagine-msn.com/insider/

sympa TF1 :)

30 décembre, 2005 14:36  
Blogger Jean Véronis a écrit...

TomHtml> Non, je ne connaissais pas! Joli (mais c'est du flash...). Dommage qu'on n'ait droit qu'à quelques requêtes!

30 décembre, 2005 16:14  
Anonymous Alphoenix a écrit...

Quelle merveille pour la fin de l'année... Je vois que votre puissance dépasse les frontières française, encore une fois. La neige monte de quelques centimètres en fin d'année, les montagnes ne sont pas très significatives... Mais quelle merveille... Bonne année à vous!

30 décembre, 2005 17:23  
Anonymous Nono a écrit...

J'arrive un peu à la bourre (l'effet réveilon), mais on peut aussi trouver la version française du MSN Insider à http://www.msn.fr/msger/tabs/search/Default.asp (ça existe sans doute aussi en version pleine page mais je n'ai pas trouvé...)

03 janvier, 2006 18:46  
Blogger Jean-Marie Le Ray a écrit...

Bonjour, félicitations pour votre blog, et bonne année 2006, qui va redémarrrer ... sur les chapeaux de rrroue :-)

Jean-Marie Le Ray

07 janvier, 2006 15:38  
Anonymous blop a écrit...

A mettre en relation avec le nombre de consultations du monde.fr

http://www.alexa.com/data/details/traffic_details?&range=1y&size=medium&compare_sites=&y=r&url=http://www.lemonde.fr#top

26 janvier, 2006 13:42  

Enregistrer un commentaire

mercredi, décembre 21, 2005

Moteurs: Liens d'affection

Je mentionnais l'autre jour l'affection particulière que semblent avoir Google et Yahoo pour Amazon. Y a-t-il d'autres "amitiés" de ce type? Pour en avoir le coeur net, j'ai repris la petite étude que je suis en train de mener avec mes étudiants aixois, à l'aide de 70 requêtes lancées sur six moteurs (voir épisodes précédents: 1, 2, 3, 4). Sur les 4200 résultats analysés, seuls trois sites de vente en ligne émergent (j'ai fixé comme limite qu'ils apparaissent au moins 10 fois dans un des moteurs): Amazon, Ebay et PriceMinister (dans cet ordre). Voici les résultats sous forme de diagramme "radar":



On voit que Google et Yahoo adorent Amazon, tandis que Voilà préfère Ebay et PriceMinister. Les autres moteurs ne semblent pas avoir d'affinités particulières avec les sites marchands. Je le comprends pour Dir et Exalead: trop petits pour attirer des partenariats, mais cela me surprend pour MSN!

Du côté des sites d'information encyclopédique ou pratique, quatre champions se dégagent (toujours le même critère: ne sont retenus que les sites retournés au moins 10 fois par un moteur): Wikipedia, Yahoo (les différents services: actualités, horoscope, etc.), AlloCiné et Doctissimo (il y avait une rubrique cinéma et une rubrique santé dans les requêtes).


Yahoo (le moteur) adooore Wikipedia! (ce n'est pas étonnant). L'encyclopédie libre est aussi présente, mais moins, sur Google, Exalead et Dir. MSN n'y fait pas trop appel (pas étonnant non plus), et Voila s'en fout: pas une seule page de Wikipedia retournée [cette censure remonte au temps où Voilà utilisait l'encyclopédie Hachette, mais ce partenariat est terminé... --voir témoignage de David dans les commentaires]. Quand je disais que ce moteur part à la dérive... Par contre, il fait très fort sur le cinéma: on voit qu'AlloCiné lui plaît franchement (ah oui, AlloCiné, c'est une société commerciale, qui a quelques liens avec Orange, qui lui-même..., etc.). Quant à Doctissimo, eh bien, on dirait qu'il plaît à MSN.

En résumé, selon ce que vous cherchez, il faut bien choisir votre moteur! Etudiez avec Yahoo, soignez-vous avec MSN, achetez vos DVD et allez au ciné grâce à Voilà... Ou alors, prenez Google (ou, bien sûr, un de ses clones); c'est peut-être pour cela que 85% des internautes français l'utilisent: il est bon (ou pas trop mauvais) un peu partout, et il ne nous agresse pas trop directement avec ses affinités commerciales. Le couteau suisse de la recherche d'information, en quelque sorte.

Et nous qui croyions ingénument que les préoccupations mercantiles n'entraient pas en compte dans le classement des résultats, que le PageRank était aussi pur que l'équation de la gravitation, et que les liens sponsorisés se rangeaient dans de petites boîtes gentiment prévues à cet effet. Hum...

33 Commentaires:

Blogger TOMHTML a écrit...

Jean, pour votre étude, vous avez pris Google.fr ou Google.com ?
Car l'un prèfere plus Wikipedia que l'autre

Et encore, là je ne vous donne qu'un exemple, mais je trouve que Wikipedia arrive assez régulièrement dans mes SERPs, c'est moins le cas sur Yahoo! il me semble.
Enfin les stats sont là pour me contredire ;)

21 décembre, 2005 19:53  
Blogger Jean Véronis a écrit...

Tomhtml> Google.fr réglé sur lang=fr avec SafeSearch.

Ca m'a surpris aussi, mais en y réfléchissant bien, l'impression que j'avais, que Google retourne beaucoup de Wikipedia, est vieille de quelques mois... récemment, il me semble que Google a fait décliner Wikipedia dans ses classements (peut-être depuis l'alliance Wikipedia-Yahoo?). Par exemple, une requête sur Neron ne me ramène (sur Google.fr, pages fr) l'article de Wikipedia qu'en 16ème position... Il fut un temps où Wikipedia sortait première sur quasiment tout. Après le flirt, le désamour?

A creuser!

21 décembre, 2005 20:02  
Blogger Marianne a écrit...

Alors là, je suis atterrée... un mythe s'effondre ! Il n'y a plus qu'à espérer qu'ils choisissent des partenariats de qualité, pour qu'on s'y retrouve au moins quant à la qualité de l'info, si ce n'est le choix éclairé...
Merci pour ces informations !
PS : vous faites trimer vos pauvres étudiants même pendant les vacances de noel ?? :-)

22 décembre, 2005 09:19  
Blogger Jean Véronis a écrit...

Marianne> Je suis un bourreau! Non, en fait on n'est en vacances que ce soir dans notre université (sigh).

22 décembre, 2005 09:29  
Blogger Marianne a écrit...

Ahaa pas cool ça :-)
Au fait, complètement hors sujet, mais puisque vous êtes un expert de google : pourquoi y avait-il une souris hier sur la page d'accueil, et encore aujourd'hui (mais elle semble collaborer avec un chat ce qui me parait vraiment curieux) ??

22 décembre, 2005 09:36  
Blogger Jean Véronis a écrit...

Marianne> Pour l'instant personne ne le sait: c'est une petite histoire qui va probablement se dérouler sur quelques jours. A suivre: le lien suivant permet de voir la BD dans sa chronologie.

22 décembre, 2005 09:46  
Blogger Vicnent 31415 a écrit...

"Et nous qui croyions ingénument que" : Arghh ... le mythe s'effondre...
Mais comment tout cela est-il géré au sein des sociétés qui gèrent les moteurs ? il y aurait en plus du PageRank une pondération par "choix personnel" d'apparition ? Ainsi, chez MSN, les appels vers Doctissimo seraient "remontés vers le haut" du fait d'un choix de msn et non du pageRank ? (ok, pageRank, c'est google...)...

22 décembre, 2005 11:46  
Blogger Vicnent 31415 a écrit...

Désolé pour le "cross-post", mais Jean, précipitez vous ici (et les onglets suivants) : Google a copié votre Chronologue... Enfin, presque, il n'offre que quelques synthèses anecdotiques... ;-))
Et Joyeux Noël !!

22 décembre, 2005 11:55  
Anonymous dimitridf a écrit...

Vicnent 3.1416:

Je ne veux pas enlever à Jean le crédit qui lui serait dû, cependant, il faut reconnaître que le Zeitgeist de Google existe depuis longtemps. La visualisation diachronique des requêtes les plus demandées sur Google fait souvent l'occasion de commentaires.

Voici les archives pour 2001:
http://www.google.com/intl/en/press/timeline.html

Voici les archives pour 2002:
http://www.google.com/intl/en/press/timeline2002.html

Voici les archives pour 2003:
http://www.google.com/intl/en/press/zeitgeist2003.html

Par contre je n'ai pas trouvé de visualisation pour 2004...

22 décembre, 2005 15:50  
Blogger TOMHTML a écrit...

Merci Jean de votre réponse, en effet il est exact qu'il y a quelques mois encore Wikipedia était partout (pour je ne sais plus quelle star américaine, en tapant son nom dans google, malgré les centaines de milliers de résultats, la bio de l'artiste sur Wikipedia arrivait en première position, suivi du site officiel de la star).
On peut constater la même chose avec Answers.com, mais ça c'était il y a beaucoup plus longtemps, qui lui aussi arrivait souvent en tête des résultats ( il arrivait pratiquement toujours en tête quand je tappais "real name" + quelque chose...)

Sans transition, si vous vous ennuyez pendant les vacances, vous pouvez vous amuser à analyser ce que retourne la fonction "related:" (pages similaires) de Google. Il y a vraiment des cas très... étranges ^^ J'en ai fait la propre expérience ici :-)).

Bonnes vacances !

22 décembre, 2005 18:25  
Anonymous Pierre a écrit...

Jean, trés bon article merci beaucoup.
Vous dite : En résumé, selon ce que vous cherchez, il faut bien choisir votre moteur! Etudiez avec Yahoo, soignez-vous avec MSN, achetez vos DVD et allez au ciné grâce à Voilà... Ou alors, prenez Google (ou, bien sûr, un de ses clones)
Je vous repondrais que c'est pour cela que j'aime bien les métamoteurs car ils facilitent la vie de l'internaute chercheur : pour mes recherches en anglais j'aime utiliser www.myway.com et pour la recherche française j'utilise www.franceevasion.com . Ces deux metamoteurs me permettent :
1 - d'avoir une synthése de recherche sur plusieur moteurs (yahoo, google, msn, et autres) mais en plus (et c'est génial), me permettent d'avoir mes résultats de recherche depuis un seul des moteurs cités au-dessus si je le désire ....
La vie est belle non ?
Ah ! une remarque : ils n'offrent pas de résultats depuis 'Voila" . :-)

22 décembre, 2005 18:53  
Blogger Jean Véronis a écrit...

dimitridf> Oui, ces graphiques existeent depuis longtemps, et sont très intéressants (bien que trop rares). Mais la différence c'est qu'ils donnent la chronologie des reqûetes, mon outil donne la fréquence sur les documents Ce serait intéressant d'ailleurs de voir d'il y a corrélation...

23 décembre, 2005 10:26  
Blogger Jérôme Charron a écrit...

CQFD
Bravo Jean...

23 décembre, 2005 11:23  
Anonymous JM Salaun a écrit...

Merci pour cette confirmation. Comme on en demande tjrs plus, serait-il possible de faire la même étude pour le rang des blogs selon l'hébergeur..

Il me paraît vraiment important, aussi bien pour la démocratie que pour l'efficacité de l'organisation collective de nos connaissances et aussi pour un fonctionnement correct des marchés, qu'un observatoire indépendant, mais démocratiquement contrôlé, fasse régulièrement ce genre d'analyse, produise des indicateurs fiables qui permettent des comparaisons et donc des choix.

Il y en a en France pour le cinéma, la presse, la TV.. où souvent on trouve des acteurs du privé et du public. Cela devient urgent pour le Web.
Je propose J Véronis comme directeur ;-)

23 décembre, 2005 12:57  
Blogger Jean Véronis a écrit...

JM> Je propose J Véronis comme directeur -- euh c'est gentil, mais je suis un dilettante: au bout d'un mois ça m'emmerderait à mourir ;-)

Mais je suis bien d'accord sur le fait que la démocratie a quelque chose à voir sur les moyens d'accès à l'information et leur fonctionnement!

23 décembre, 2005 13:02  
Anonymous dimitridf a écrit...

Jean> autant pour moi, la différence entre votre travail et celui de Zeitgeist est importante m'avait échappé. Je répondais à Vicnent31415 qui pensait voir dans le Zeitgeist 2005 une copie du Chronologue. Cela dit, additionnés, ces deux "indices" peuvent donner une belle idée des variations de l'actualité sur le web. D'un côté, on a des producteurs d'information (blogs, sites web etc) et de l'autre, des chercheurs d'information. Considérant l'immense succès des blogs, l'on pourrait discuter de la pertinence actuelle de diviser les deux types d'acteurs de l'actualité web, mais ils correspondent chacun à une position particulière face au web qui dans son addition nous fournisse une très belle image des réactions face à l'actualité. Quelqu'un qui étudierait par exemple le cas de la solidarité internationale autour du tsunami de l'année dernière aurait là un bien bel outil. Cependant, je n'ai pas vu d'outil de recherche permettant de sérialiser/temporaliser les requêtes de utilisateurs de Google et consorts. En connaissez-vous un?

23 décembre, 2005 18:28  
Anonymous Sebastien Richard a écrit...

Personellement, j'aurais tendance à interpreter les resultats de cette etude differement et a dire plutot qu'on voit là les differences entre algorithmes. Je pense qu'il n'y a pas de decisions editoriales chez les moteurs a part peut etre pour Wikipedia (en tous cas c'est assez clair qu'il est traité differement sur Ask Jeeves).
Les "partenariats" que Jean evoque se font à travers l'achat de liens commerciaux c'est tout je pense.

23 décembre, 2005 23:38  
Anonymous olivier a écrit...

Voici un article vu sur silicon.fr traitant de l'éthique des moteurs Google, Microsoft et Yahoo qui nous démontre le sérieux de "l'affaire" :-) :
"Margo Wallstroems, vice-présidente de la Commission européenne, accuse Google, Microsoft et Yahoo d'adapter leur éthique à leur cible"
Voir l'article : http://www.silicon.fr/getarticle.asp?ID=12961

24 décembre, 2005 18:33  
Blogger Jean Véronis a écrit...

Olivier> C'est tout à fait ça... La conclusion de l'article est sans équivoque: La morale a ses limites, celle des actionnaires... Merci pour le lien.

24 décembre, 2005 18:40  
Anonymous David a écrit...

Bonjour,
Tout d'abord bravo pour votre étude et bonne chance aux étudiants...

C'est juste pour parler de l'incompatibilité d'humeur entre wikipédia et voilà.
Au moment de la disparition du pape Jean Paul II et de l'arrivée de Benoît XVI, on avait vu que le nombre de personnes visitant wikipédia pour ces pages étant très important.
Sachant que pour la France (principalement pour les abonnés de wanadoo), voilà est le moteur par défaut, j'ai été voir le site et le Top Voila.fr (les demandes revenant le plus souvent). Le même constat, dans les premières demandes, il y a Jean Paul II, Benoît XVI, Vatican et Concile. je regarde si wikipédia est aussi bien représenté que sur Goggle ou Yahoo, mais non, rien du tout. Je regarde Vatican + wikipédia (pour être sûr) et je vois des sites miroirs, mais pas de wikipédia.

Je me décide d'écrire un mail à Voilà pour faire part de mon étonnement et la réponse fut sans appel.
" L'algorithme de Voila est très bien fait mais n'inclut pas wikipédia, c'est un choix de Voila. De plus, nous ne pouvons rien faire manuellement."
Je répond donc en demandant si les sites publicitaires (bouquins, tours opérateurs), le site humoristique (sans références au Vatican) ou encore le portail pour Senior (sans autre référence que le voyage (en 2002) de Jean Paul II je sais plus où) qui se trouvaient en première page répondaient efficacement à la recherche des personnes et même plus que l'article Vatican sur wikipédia.
Le lendemain, ces sites avaient disparu de la recherche Vatican mais wikipédia n'y était toujours pas...

Depuis, je déconseille fortement l'utilisation de voila.fr en disant que le site est vendu à des sociétés et que son seul but est de donner des liens commerciaux... (ça vous plombe une réputation ces affirmations, c'est pas croyable)
je le dis donc ici aussi, utilisez n'importe quel moteur de recherche mais surtout pas voila.fr...
Ce qui paraît bizarre, c'est que voila.fr n'a plus d'encyclopédie en ligne et que par conséquent, wikipédia n'est plus une menace pour Voilà.

@ bientôt et encore bravo pour votre étude.
David (un wikipédien bien entendu)
Ps:J'utilise généralement Yahoo et Google à cause d'une allergie chronique à Microsoft (µ$)...

26 décembre, 2005 21:24  
Blogger Jean Véronis a écrit...

David> Merci pour ce témoignage (j'ai ajouté un petit commentaire dans le corps du billet). L'argument de Voilà est évidemment bidon : il a bien fallu intervenir manuellement pour interdire Wikipedia, qui sinon, ne manquerait pas d'être crawlée! D'autant qu'ils vous ont donné la preuve le lendemain de votre intervention qu'ils corrigeaient manuellement la base de donnée (ce que font d'ailleurs tous les moteurs). C'est très dommage que Voila soit parti en déshérence. C'étaient les seuls avec le groupe Illiad (Dir.com) qui avaient les reins assez solides pour contrer les moteurs américains, s'ils l'avaient voulu. Exalead fait un travail superbe, mais c'est un peu David et Goliath...

27 décembre, 2005 08:40  
Anonymous David a écrit...

Bonjour,

Grâce à vous (comme je suis juste un étudiant, je préfère vouvoyer), j'ai découvert Exalead et je dois dire que je suis très agréablement surpris...
Très bonne qualité (rendu graphique et pertinence), de bon outils et une excellente intégration avec firefox (tout pour me plaire en fait ^^)

Maintenant, je vais utiliser Google, Yahoo et Exalead. (j'aime bien le fait de mettre des sites important sur la page d'acceuil).
Seul défaut (mais le site est encore jeune et trop peu connu), il n'intégre pas encore les flux informations...

David
Ps:Votre Blog représente bien ce que doit être les blogs à mon sens, un lieu d'échange organisé par quelqu'un d'important (ici, un professeur) pour mener une réflexion.

27 décembre, 2005 11:51  
Anonymous Hervé Le Crosnier a écrit...

Bonjour,

Google a déposé un brevet au moment de la mise en route de Google News qui affirme clairement que les sites ont une notoriété qui peu découler d'une sélection humaine.

Il s'agit en l'occurence d'établir une métrique complexe pour classer les sources de news, mais on peut évidemment penser que des éléments de cet métrique se retrouvent dans l'ensemble des activités de Google (et vraisemblablement de tous les autres moteurs compte tenu de la généralité des éléments mis en oeuvre).

Le brevet "Systems and methods for improving the ranking of news articles" (United States Patent Application 20050060312, publié le 17 mars 2005) est disponible sur le site de l'USPTO : http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PG01&p=1&u=%2Fnetahtml%2FPTO%2Fsrchnum.html&r=1&f=G&l=50&s1=%2220050060312%22.PGNR.&OS=DN/20050060312&RS=DN/20050060312

Le résumé dit clairement l'objectif :
"A system ranks results. The system may receive a list of links. The system may identify a source with which each of the links is associated and rank the list of links based at least in part on a quality of the identified sources.".

Et les méthodes pour classer les "sources" (et non seulement les "articles" ou les "documents" ce qui est le propre du google rank) sont revendiquées :
"The method of claim 1 wherein the ranking includes: retrieving a source rank value for each identified source, the source rank value being based at least in part on one or more of a number of articles produced by the identified source during a first time period, an average length of an article produced by the identified source, an amount of important coverage that the identified source produces in a second time period, a breaking news score, network traffic to the identified source, a human opinion of the identified source, circulation statistics of the identified source, a size of a staff associated with the identified source, a number of bureaus associated with the identified source, a number of original named entities in a group of articles associated with the identified source, a breadth of coverage by the identified source, a number of different countries from which traffic to the identified source originates, and a writing style used by the identified source.

Le critère "human opinion of the identified source" est précisément inclus dans l'algorithme.

Le brevet ne précise pas la pondération entre les 10 métriques utilisées... Les expériences de "reverse googling" menées par Jean et son équipe peuvent en revanche nous éclairer. Sur Google et sur les autres, évidemment.

Hervé Le Crosnier

27 décembre, 2005 23:48  
Anonymous Anonyme a écrit...

"Votre Blog représente bien ce que doit être les blogs à mon sens, un lieu d'échange organisé par quelqu'un d'important (ici, un professeur) pour mener une réflexion."

Malheureusement les "importants" se font trop rares dans les systèmes d'échange en ligne:
http://groups.google.com/group/fr.misc.cryptologie/msg/7a2a35d3497f0b0e
http://groups.google.com/group/fr.education.superieur/msg/58112383da19c07d
http://www.mmt-fr.org/article49.html

-- apokrif1@yahoo.com

29 décembre, 2005 00:39  
Blogger Jean Véronis a écrit...

David, Anonymous> Quelqu'un d'important... -- vous êtes gentils, mais je vais finir par avoir la grosse tête ! J'essaie juste de partager ce que je fais avec d'autres. Ce qui est fantastique sur la blogosphère (et le Web en général), c'est que l' "importance" ne dépend plus du statut social, mais de ce qu'on dit (et sans doute quelque peu de la façon dont on le dit)...

29 décembre, 2005 09:55  
Blogger Jean Véronis a écrit...

Hervé> J'en ai parlé ici. Le brevet concerne plutôt les News, mais de toutes façons je crois que les moteurs n'ont pas attendu ce brevet pour faire des réglages manuels (et certains choix de pondérations dans les algorithmes sont de toutes façons déjà des choix éditoriaux).

29 décembre, 2005 10:00  
Blogger TOMHTML a écrit...

hervé > c'est justement pour cela qu'existe eval.google.com , dont le but est de vérifier par des humains la pertinence des résultats. Donc dans Google aussi, les sites peuvent être classés non pas par des algorithmes, mais par des humains.

29 décembre, 2005 14:51  
Anonymous Anonyme a écrit...

Serait-ce pour ceci qu'un certain site nommé Gahooyoogle (comprenez Yahoo & Google) en aurait tiré certaines conclusions permettant de faire de recherches croisées pour des résultats plus ciblés ?

J'utilises moi-même ce "moteur" alternatif qui renvoie effectivement un nombre impressionnant de résultats en rapport avec mes diverses recherches sur le net sans avoir à passer de l'un à l'autre.

PS : Bonne année 2006 à tous.

Zef

31 décembre, 2005 14:04  
Anonymous Zef a écrit...

Serait-ce pour ceci qu'un certain site nommé Gahooyoogle (comprenez Yahoo & Google) en aurait tiré certaines conclusions permettant de faire de recherches croisées pour des résultats plus ciblés ?

J'utilises moi-même ce "moteur" alternatif qui renvoie effectivement un nombre impressionnant de résultats en rapport avec mes diverses recherches sur le net sans avoir à passer de l'un à l'autre.

PS : Bonne année 2006 à tous.

Zef

31 décembre, 2005 14:05  
Anonymous Anonyme a écrit...

Encore mieux: http://yahoogooglemsn.com/

01 janvier, 2006 00:25  
Anonymous Anonyme a écrit...

tomhtml> "c'est justement pour cela qu'existe eval.google.com dont le but est de vérifier par des humains la pertinence des résultats. Donc dans Google aussi, les sites peuvent être classés non pas par des algorithmes, mais par des humains."

tu commets ici une petite erreur de demonstration. l'interface derriere l'url eval.google.com ne permet pas d'influencer directement les SERPs. Ce subdomain sert aux "agents" de google (qui ne sont pas des employes) pour evaluer et noter la qualite des resultats (), et de determiner le "user happiness" (sic). on parle ici des SERPs, et non de sites isoles. Cette evaluation est donc toujours relative a une requete et est 'passive'

ce qui ne veut pas dire que ta conclusion est fausse ;)

03 janvier, 2006 15:30  
Anonymous sic a écrit...

Je lis votre blog avec plaisir (aie, si c'était rude, je ne le ferais pas, la langue m'emporte... scusez) enfin bref, je cherchais des renseignements sur une initiative japonaise, (http://www.cio-today.com/news/Japan-Plans-Search-Engine/story.xhtml?story_id=110003OVHVEK et http://www.timesonline.co.uk/article/0,,25689-1943855,00.html) alors votre blog m'est revenu à l'esprit.
Rien à priori sur ce sujet, mais une bonne occasion pour vous remercier de votre blog. Je n'y post pas (comme usque 228 000 personnes) mais je vous lis avec intérêt, alors; merci.
(Je viens de passer LA semaine de l'année en ma langue maternelle, excusez aussi mon français désastreux qui s'en suit.)

04 janvier, 2006 21:28  
Anonymous titi fivez a écrit...

Bonjour,

Je viens de lire votre article sur les soi-disant connivence entre les moteurs et quelques sites.

Mais très sérieusement votre expérience ne fait que prouver que certains site sont mieux référencés que d'autres sur certains moteurs.

Ces moteurs utilisant tous des technologies différentes, cela me semble tout à fait logique.

Maintenant, que les sites les mieux référencés sur le web soient amazon, ebay, wikipedia ou encore d'autres que vous citez, si cela vous étonne, moi je trouve cela tout à fait normal étant donné la notoriété de ces sites mais surtout le nonmbre de documents qu'ils présentent.

Enfin, je doute que votre "expérience" ait été méner avec une véritable impartialité. A mon avis, vous cherchiez à démontrer quelque chose et vous avez fait en sorte de ne relever que les résultats qui allaient dans le sens de votre démonstration.

Ce qui m'inquiéte le plus, la dedans, c'est que certains considère cela comme "la preuve irréfutable".

Cette espérience n'apporte absolument pas la preuve d'une connivence entre les moteurs et certains sites.

05 janvier, 2006 18:29  

Enregistrer un commentaire

dimanche, décembre 18, 2005

Moteurs: Liens ressuscités

Jerôme Charron a rebondi sur l'idée que le crawling est un art du compromis (en commentaire sur mon dernier billet, puis sur le blog Motrech). Remarques très intéressantes, à lire! Mais Jerôme va plus loin: surpris par mes résultats, il relance l'expérience sur Google avec son propre ensemble de requêtes, et obtient bien moins de liens morts. J'étais en déplacement quand j'ai vu ses résultats; je n'avais pas mes données sous la main, mais cela m'a tracassé: bug (toujours possible!) dans mes scripts? différents réglages de nos requêtes (j'ai limité aux parges francophones avec SafeSearch, pas Jérôme), différence de time-out? Problèmes de proxy?

Aussitôt rentré, j'ai examiné mes résultats en détail, et ma surprise a été assez grande: aucune de ces hypothèses n'était la bonne. Le coupable était Amazon! Pour une raison inderterminée, www.amazon.fr renvoyait un code d'erreur au moment où j'ai lancé mon expérience, la semaine dernière, et comme c'est un des sites les plus retournés par les requêtes sur Google, ce problème a eu un impact dramatique sur les résultats: sur les 26 erreurs que j'avais comptabilisées concernant Google, 17 étaient dues au seul site www.amazon.fr! Même chose chez Yahoo: 23 erreurs sur 33. Pour les autres moteurs, l'impact était plus limité: il y a visiblement des stratégies d'alliances commerciales différentes chez les uns et chez les autres...

Aujourd'hui, les mêmes URL chez Amazon répondent... J'ai donc relancé mes requêtes et voici les nouveaux résultats (sont toujours comptabilisés comme erreurs les codes HTTP 4xx et 5xx). Google et Yahoo passent en tête, le reste est quasiment inchangé.



Je faisais part l'autre jour de ma surprise de voir MSN et Voila en tête. Le nouveau diagramme correspond bien plus à mon intuition initiale. Pour autant, cette estimation est-elle meilleure? Ce n'est pas si évident: après tout, la situation de l'autre jour a bien existé, et un internaute qui aurait interrogé les moteurs à ce moment précis aurait eu un taux d'erreurs bien plus élevé chez Google et Yahoo. Le tout est de savoir si de tels incidents ont des chances d'apparaître fréquemment. Si l'on regarde la distribution des domaines des différentes URL uniques de mon enquête, on s'aperçoit qu'ils ont un comportement en loi de puissance, comme beaucoup de choses sur le Web:


Quelques domaines se taillent la part du lion dans les résultats. Amazon n'est que second. Le site le plus cité est Wikipedia. On trouve ensuite des sites de pages personnelles (Wanadoo, Lycos, Chez) , des sites spécialisés (Allocine, Doctissimo), des sites de forums (Aceboard), etc. Lorsque des problèmes affectent les sites de la queue de la distribution, l'incidence globable est négligeable; par contre lorsqu'un site de tête est touché, l'incidence sur les résultats est très importante. Bien sûr, on peut penser que le taux d'incidents est faible sur les sites très populaires, mais il n'est certainement pas nul (et Wikipedia a justement connu bien des difficultés, même si la situation semble s'être considérablement améliorée depuis quelque temps).

Globalement, l'instabilité des résultats est plus grande que ce à quoi je m'attendais. Même en ne comptant pas le cas Amazon, près du quart des URL mortes dans ma deuxième expérience étaient vivantes l'autre jour, et inversement près du quart des URL mortes l'autre jour se sont réveillées:


[URL uniques hors Amazon.fr]

Tout ceci montre la difficulté de l'exercice... Pour estimer de façon sérieuse la proportion de liens morts dans les résultats, il faudrait faire une moyenne sur un nombre suffisant de relevés à quelques jours d'intervalle. Mais entre temps, les résultats retournés par les moteurs changeraient: il faudrait donc relancer tout le processus de requête à chaque fois (ce que je n'ai pas fait ici: j'ai conservé les résultats retournés l'autre jour).

En tous cas, merci à Jérôme de nous avoir donné l'occasion de réfléchir au problème (et en plus j'ai un bien bel exemple pour expliquer à mes étudiants la difficulté de l'estimation lorsque les événements ne sont pas aussi indépendants qu'on croit et lorsque les distributions sous-jacentes sont extrêmement asymétriques!).

Libellés :


9 Commentaires:

Anonymous Pilou a écrit...

Des liens "morts" ? Certes, vous en donnez la définition : somme des url renvoyant un code d'erreur 4xx ou 5xx. Le choix du mot est-il bien pertinent ?

Une erreur m'agace, la 500 : Internal server error. J'en ai en gros 1%. Systématiquement je clique le bouton "Actualiser" ; et presque toujours la page s'affiche ; c'était juste un bit qui avait mal tourné !

Le serveur qui ne réponds pas ? Celui du ministère des finances me fait couramment le coup (en intranet). Le jour où il sera réellement mort, nous ne serons plus payés ;-(

Reste la fameuse 404 : Page not found.
Vendredi dernier, sur typepad.com (un hébergeur de blogs), la dernière semaine avait disparu pour 2 blogs que je visite régulièrement. Ce matin, tout est rentré dans l'ordre ; ils n'étaient pas morts, juste en réa (de leur disque dur).

Il existe bien des liens morts ; de deux sortes.
- les pages mortes (voire les sites). Effacées par leur auteur ; parfois leur fantôme rode sur les sites d'archivage du Web. Quelle est l'espérance de vie d'une page ?
- les pages "déménagées". Par réorganisation du site, archivage ... On peut les retrouver (pas toujours facilement) en repartant de la page d'accueil du site.

La statistique est la science du flou.

19 décembre, 2005 12:44  
Anonymous Sebastien Richard a écrit...

Bonjour,

Tout d'abord bravo pour vos commentaires toujours tres pertinents dans leur impertinence.
J'avais une question de méthode :
Quels sont les liens testés ?
Tous les liens réponses à une requete ? seulement les 10 premiers ?
Dans tous les cas, n'avons nous pas envie de séparer le fait que le premier resultat soit mort du fait que ce soit le 10eme qui soit mort ?

19 décembre, 2005 14:42  
Anonymous Pilou a écrit...

L'esprit de l'escalier ... Il me semblait bizare que des sites puissent apparaitre avec une fréquence si élevée ; juste bizare. Un moment me vint l'idée que les requêtes d'un groupe d'étudiants puisse ne concerner qu'un sous-ensemble restreint du domaine de la connaissance.
Puis l'illumination : votre échantillon de sites est complètement biaisé ! Et pour qu'un statisticien mette 3 heures à découvrir un biais, faut qu'il soit subtil :o)

La probabilité qu'un site soit cité est égale au nombre de pages qu'il contient sur le nombre total de pages indexées (20 milliards ?). Wikipedia a 10.6 millon de pages selon Google, 1.4 selon Yahoo ; Chez en a 3.8 selon G, 9.8 selon Y . A la casserole (la louche ne contenant pas l'approximation), les sites que vous citez devrait se trouver 1 ou 2 fois parmi les 4200 liens ; 5 pour celui se situant à 3 écarts-type au dessus de sa proba moyenne ; Pas 50 fois.

Vous ne voyez pas ce que nous (vous et moi) venons de découvrir ?
La valeur du coefficient multiplicateur du PageRank !!! Un des gros secrets commerciaux des moteurs.
Parceque vous prenez les 10 premiers résultats sur des requêtes en donnant des milliers (millons parfois). Choisiriez-vous les résultats de 51 à 60, ces sites seraient moins présents (absents ?) et vous n'auriez plus cette instabilité.

Toutefois la meilleure solution consiste à passer des requêtes apparement farfelues, ramenant moins de 1000 pages (idéalement moins de 50). Si Amazon et Wikipedia ne sont pas dans l'ensemble des réponses, ils ne pouront pas être remontés dans les 10 premiers.

Sur {kennedy confiture} on a moins de 1000 réponses.
Et Google a www.jfk-fr.com en 10 ; damned ! Yahoo ne le connait plus ; ouf.

La correspondance entre les 2 moteurs me semble encore plus faible, mais à la main, ce n'est pas çà.

PS: pour les sites en "réa" vendredi sur typepad.com, j'en ai repéré un autre : Affordance :-(

19 décembre, 2005 17:31  
Blogger Jean Véronis a écrit...

Pilou> choix du terme "lien mort" -- oui, on peut discuter: la preuve, il y a des liens morts qui ressuscitent. Pour diminuer les problèmes temporaires, mon scripts fait plusieurs essai avec un intervalle avant de déclarer que le serveur ne répond pas.

19 décembre, 2005 18:11  
Blogger Jean Véronis a écrit...

Sébastien> J'ai décrit plus en détail la méthode dans le premier billet de cette mini série: ici.

Les liens considérés ici sont les 10 premières réponses à une requête. J'ai regardé aussi ce que donnait le premier résultat, mais j'ai trop peu de données pour en tirer grand chose de significatif. Il faudrait faire l'étude non pas avec 70 requêtes, mais avec plusieurs centaines...

19 décembre, 2005 18:16  
Anonymous Aurélie Névéol a écrit...

Bonjour,
Pour continuer les questions de "méthode" lancées par Sébastien, je me demandais quels sont les types de requêtes utilisées pour cette étude? S'agit-il de phrases en langue naturelle, de mots clés, de liste de mots clés? Serait-il possible d'avoir un petit exemple? Ma question est en fait suscitée par la mention de "Doctissimo" comme site spécialisé revenant fréquemment en réponse à certaines requêtes, relevant du domaine de la santé je suppose (ou pas spécialement?). Une étude des sites les plus fréquemments retournés par les moteurs en fonction du domaine ciblé par les requêtes me parait intéressant. Peut-être aurai-je le temps de me pencher là-dessus pendant les vacances...

21 décembre, 2005 09:34  
Blogger Jean Véronis a écrit...

Aurélie> Les 14 domaines choisis sont:

actualites
animaux
cinema
divertissements
histoire
litterature
musique
nature
personnages
politique
sante
sport
surnaturel
voyages

Chaque thème était attribué à un étudiant différent, qui choisissait 5 requêtes à sa façon, c'est-à-dire comme il interrogerait normalement le moteur de recherche. Cela me paraissait important, de façon à avoir un panel diversifié (si ce n'est représentatif...) des pratiques des utilisateurs.

Par exemple pour "santé", les requêtes choisies par l'étudiante concernée étaient:

Obesite jeunes adolescents
"Grippe aviaire"
cholesterol
euthanasie
conseils "arreter de fumer"

Quand on aura fini, je ferai un texte avec tous les détails. Pour l'instant on a le nez dans le guidon...

21 décembre, 2005 10:19  
Anonymous Aurélie Névéol a écrit...

Jean> merci pour ces précisions!

21 décembre, 2005 11:18  
Anonymous Gerard de Suressnes a écrit...

c'est clair que je remarque de plus en plsu d'erreur dans google, dans yahoo je te raconte meme pas, mais le pire c 'est dans les pages en caches, maintenant une fois sur 2 t'as plus rien du tout, je crois que la nouvelle revolution sur google a interet a etre plutot portés sur ce probleme

27 décembre, 2005 21:41  

Enregistrer un commentaire

jeudi, décembre 15, 2005

Moteurs: Liens morts-vivants

Il me semble qu'il y a quelques années, les moteurs retournaient plus souvent des liens morts dans leurs résultats de requêtes. Ces temps-ci, cela arrive encore, mais c'est bien rare... Pour en avoir le coeur net, j'ai vérifié les 4200 résultats retournés par les 70 requêtes sur les six moteurs que je suis en train d'analyser avec mes étudiants [voir début de l'enquête: 1 et 2], et effectivement, cette impression se confirme: pas plus de quelques pourcents d'erreurs (codes d'erreur 4xx, dont le célèbre 404, "Page not found", et 5xx). La situation est toutefois assez différente selon les moteurs, puisque le taux d'erreurs varie du simple au triple, comme le montre le diagramme suivant:



J'avoue que je ne m'attendais pas à ce classement. On voit que le leader, Google, est dans une bonne moyenne (3,7%), avec son challenger immédiat Yahoo (4,7%). Les meilleurs sont MSN et Voila (contre toute attente, étant donné l'état de relatif abandon de ce dernier que je dénonçais dans un précédent billet), avec 1,9% d'erreurs. Exalead et Dir sont moins bons, avec respectivement 6,1% et 6,6% d'erreurs: en gros un lien mort pour chaque écran et demi de résultats, mais ça n'est pas, somme toute, catastrophique (surtout avec des moyens bien plus limités que les "grands").

Ces écarts révèlent sans doute des stratégies différentes de crawling (et notamment la fréquence de rafraîchissement). La position relativement moyenne de Google et Yahoo peut sans doute s'expliquer par le fait que leurs bases sont de loin les plus importantes à l'heure actuelle, et qu'elles sont évidemment plus difficiles à maintenir. Tout l'art du crawl consiste à trouver un compromis acceptable entre la fréquence de rafraîchissement et les ressources informatiques disponibles...

De toutes façons, le 0% d'erreurs est impossible à obtenir: il y aura toujours ici ou là un serveur en panne ou un problème réseau quelconque, même si la page existe toujours. De plus, Philippe Develter (Dir.com) me fait remarquer qu'il n'est pas inintéressant de conserver des pages qui retournent une erreur 404 puisque les liens morts sont toujours vivants dans le cache et que l'information en question est même datée: les moteurs jouent quelque peu le rôle de mini Wayback Machines. Je reconnais que j'utilise moi-même cette fonctionnalité assez souvent. Donc, c'est peut-être paradoxal, mais le nombre de liens morts n'est peut-être pas un bon indicateur de qualité!


Lire la suite



14 Commentaires:

Anonymous Benjamin a écrit...

Bonjour
La lecture de votre blog est décidemment passionnante! Il semble en effet que le nombre de liens morts soit une conséquence immédiate de la fréquence de rafraichissement des moteurs. A ce propos, a-t-on une idée de la durée de vie moyenne d'une page web? Vous pourriez l'estimer à partir de vos résultats si vous connaissiez les dites "fréquences"! Quelle loi suit la durée de vie d'un lien?
Au plaisir de vous lire (et relire)

15 décembre, 2005 09:35  
Anonymous Sebastien Billard a écrit...

Pour le faible taux de liens morts de Voila j'ai peut être une explication : Voila retourne dans ses résultats un mix de ses résultats moteurs (des pages individuelles donc) et annuaire (des domaines). Hors les noms de domaines ont une durée de vie plus longue que les pages individuelles et retournent donc moins d'erreurs 404.

15 décembre, 2005 09:38  
Anonymous stéphane a écrit...

J'avais lu récemment une étude Peer Factor sur le sujet des pages en erreur 404 dans les index des moteurs.

Figurez vous que la page en question est maintenant en ... erreur 404.

Mais toujours disponible dans le cache de Google

15 décembre, 2005 12:23  
Anonymous Aurélien a écrit...

Bonjour,
Il semble y avoir un léger problème de copier/coller dans votre texte, au passage :
"puisqu'on peut les liens mots sont toujours vivants dans le cache".
Cdt

15 décembre, 2005 12:31  
Blogger TOMHTML a écrit...

J'allais dire la même chose que Sébastien Billard, en effet le résultat pour Voila ne me surprend pas ;)


N'empêche, au maximum 6% de 404, c'est pas mal comparé à il y a quelques années, où je me souviens surtout de Hotbot (si si, souvenez vous !) qui renvoyait une fois sur deux une page d'erreur...

PS pour toi, fidèle lecteur d'Aixtal : n'hésite pas à voter pour ce blog sur Blogsdelannee.com !

15 décembre, 2005 13:49  
Blogger Jérôme Charron a écrit...

Jean, tu viens de mettre les pieds dans un sujet, qui contrairement aux idées reçues est assez complexe: le crawling.

Le crawling, est un art délicat de compromis:

1. Compromis de politesse: ne pas lancer trop de requêtes simultanées vers un même serveur, et respecter un temps minimum entre chaque salve de requêtes (sans quoi votre téléphone va très rapidement se mettre à sonner).

2. Compromis de planification: Adapter la fréquence de crawl d'un site en fonction de sa fréquence de mise à jour, sans pour autant ne repasser qu'une fois tous les ans sur un site qui est rarement modifié.

3. Compromis de défense: Eviter les pièges (redirections infinies, fichiers de taille infinies, liens infinis), tout en ne passant pas à côté de choses "intéressantes"

4. ...

[Viennent ensuite de nombreux autres compromis permettant de pallier à la fois la mauvaise configuration des serveurs HTTP (et ils sont nombreux) afin de tout simplement détecter le type d'un fichier par exemple (ce qui permet d'appeler le parseur adéquate), etc... mais ce n'est plus une affaire de crawling]

Bref, un moteur de recherche, d'un point de vue technologique, ce n'est pas si simple. Et les chiffres donnés ici me semblent plutôt honorables.

Il serait cependant intéressant de voir dans ce billet:
1. la répartition des liens morts de chaque moteur en fonction de code de retour HTTP (4xx, 5xx).
2. De mentionner quels sont les codes de retour comptabilisés comme des erreurs.

Enfin il est à noter également que dans les liens non-morts se glissent un certain nombre de liens réellement mort-vivants: Des pages ne contenant qu'un simple message "Cette page n'existent pas", ou bien "Ressource non trouvée" mais qui ont la mauvaise idée de ne pas être associé à un code d'erreur 404, mais à un code de succès 200. Dans une telle situation le crawler ne peut rien faire. C'est indétectable d'un point de vue protocolaire (analyse linguistique vas tu me dire? Pourquoi pas, mais ce n'est pas l'affaire du crawler)!

La période des fêtes de noël te rendrait-elle plus "coolant" Jean?
Parce que voir les liens morts comme une fonctionnalité: très fort!

;-)

15 décembre, 2005 15:04  
Blogger Jean Véronis a écrit...

Merci Aurelien, j'ai corrige le bug de copier-coller. Et merci a tous: vos commentaires sont passionnants aussi. Je suis dans de mauvaises conditions pour repondre: je suis en deplacement, mon portable est kaput et je squatte l,ordinateur de l'hotel avec un clavier QWERTZ a peu pres impraticable... Mais je vous lis avec interet, je repondrai dimanche (jerome, des commentaires aussi longs, il faut les garder comme billets sur le blog motrech! ;-)

15 décembre, 2005 17:33  
Blogger Jérôme Charron a écrit...

Oui, je sais Jean, mais en ce moment je n'ai vraiment pas le temps... un commentaire reste plus rapide qu'un billet à rédiger...

15 décembre, 2005 18:01  
Anonymous Anonyme a écrit...

Bonjour,

"Le crawling, est un art délicat de compromis"
je confirme tout à fait.
Quand je me suis "attaqué" à ce problème il y a 4 ans dèjà ! les considérations portaient sur le nombre de machines, et la bande passante ...
depuis je me suis rendu compte que le nombre
de pages sur la toile est quasiment infini étant donné le nombre de "pièges à robots" volontaire ou la pluspart du temps involontare qui s'y niche ...
Philippe.

16 décembre, 2005 10:38  
Anonymous Philippe L a écrit...

Bonjour,
http://affordance.typepad.com/mon_weblog/2005/12/loi_du_march_et.html
j'ai toruvé ce lien juste au dessous de votre dernier message : et bing
404
c'est sans doute une blague ;)
j'apprécie beuacoup votre site, et le visite à chaque nouveauté!
cordialement,
Ceci dit j'aurais aimé voir ce qu'il y avait derrière ce titre Loi du Marché et loi d'inertie
Philippe

16 décembre, 2005 16:26  
Blogger Jérôme Charron a écrit...

Voilà Jean, c'est chose faite... "Liens morts-vivants: Ca diverge dur!

17 décembre, 2005 01:49  
Anonymous Yannick a écrit...

On n'entend plus parler d'Altavista, qui était je crois un moteur réputé à l'époque (c'était du moins au départ mon moteur préféré quand j'ai découvert Internet en 1997).

J'attends avec impatience une éventuelle analyse plus poussée des différents moteurs !

17 décembre, 2005 05:40  
Anonymous Franck a écrit...

Au fou !!!
Vous voulez réduire les liens brisés dans les résultats renvoyés par les moteurs de recherches ? Mais c'est justement l'inverse qui m'intéresse !
J'utilise très souvent Google pour retrouver dans son cache un lien brisé qui m'a été donné par un autre site. Commence alors un exercice difficile consistant à trouver comment la page (dont je ne connais a priori que très mal le contenu, mise à part l'URL) peut-être obtenue par une requête Google !

Au dela de cette remarque "un peu" provocatrice, on peut vraiment regretter que la mise à jour des index supprime les liens inaccessibles. Il serait intéressant d'avoir une fonction permettant de conserver la référence de la page dans le cahce, en mentionnant toutefois que la page est connue comme inaccessible...

PS: croyez moi ou pas, le mot de contrôle que me propose tout de suite blogger pour vérifier que je ne suis pas un robot spammeur est "sarkozi": l'UMP aurait-elle également investi de ce côté ? ;-)

18 décembre, 2005 00:10  
Anonymous stéphane a écrit...

L'étude Peer Factor que j'évoquais plus haut est disponible dans la newsletter de décembre de Moteurzine.

http://www.moteurzine.com/index.html#8

27 décembre, 2005 15:38  

Enregistrer un commentaire

mardi, décembre 13, 2005

Moteurs: Ca diverge dur! (2)

Bonjour à tous! Voici quelques diagrammes supplémentaires, en réponse aux nombreux commentaires à mon billet d'hier (dont je vous remercie!).

Tout d'abord, le nombre de moteurs qui retournent une URL donnée. Bien sûr, la plupart des URL sont retournées par un seul moteur, ce qui reflète la divergence que je décrivais hier. Moins de 10% des URL sont retournées par au moins deux moteurs...



C'est assez étonnant de voir que sur 4200 résultats (3515 URL uniques), seules deux URL sont retournées par les 6 moteurs. Les heureuses gagnantes sont :
Encore plus étonnant, si la première est relativement pertinente (elle parle de l'assassinat de JFK), la seconde ne l'est strictement pas pour apprendre quoi que ce soit sur la métaphore...

Autre petit calcul du matin: la concordance entre positions pour les résultats retournés par deux moteurs différents (évidemment dans les rares cas où les résultats sont communs). Je n'ai pas traité les 15 couples, ce serait fastidieux, mais j'ai comparé les positions des résultats des cinq autres moteurs par rapport au "leader", Google, sous forme de diagramme à bulles (les bulles sont d'autant plus grosses que les positions X, Y concordent sur l'ensemble des requêtes):


On voit clairement apparaître une coherence pour quatre des moteurs par rapport à Google: Yahoo, MSN, Exalead et Dir. La concordance n'est évidemment pas parfaite, mais il y a une tendance prononcée à retourner des positions qui se ressemblent: si les autres moteurs n'implémentent pas exactement le PageRank, ils ont manifestement quelque chose qui y ressemble! Par contre, Voila donne des positions bien peu corrélées à celles de Google (et en fait de tous les autres moteurs) sur les quelques résultats qu'il donne en commun: cela pourrait être l'indice d'un comportement novateur et génial, mais j'ai le sentiment que cela reflète plutôt un sérieux besoin de serrer quelques boulons algorithmiques!

Libellés :


9 Commentaires:

Anonymous MKe a écrit...

Intéressant.
Signalons au passage ce qui me semble un biais : le site sur kennedy appartient à aK, qui sévit sur le forum webrankinfo, forum dédié au... référencement ! Pas tellement étonnant donc de le retrouver sur tous les moteurs : il y, à cet effet, du travail en amont.

13 décembre, 2005 11:55  
Anonymous Pilou a écrit...

J'apprécie beaucoup ce que vous faites ; aussi vais-je me permettre un commentaire méchant ; incluant un maximum de mauvaise foi ;-))

«sur "métaphore": http://www.aph-metaphore.com.fr/ {n'est pas pertinent} pour apprendre quoi que ce soit sur la métaphore»
Pas pertinent ? alors que le mot se trouve dans l'URL. Comment le moteur eut-il pu deviner que ce n'était pas le site (consacré à l'hypnose) que vous cherchiez, ne vous souvenant que d'une partie de son nom ? Car si c'est la définition du mot qui vous faisait souci, il se serait attendu à : define:métaphore
Et parmi les réponses de Google, vous eussiez eu :
mot, phrase, anecdote ou histoire complète activatrice de processus de Changement*.
www.hypnose-ericksonienne.com/lexique.htm
C'est ainsi que j'ai appris que le mot "métaphore" avait un sens technique particulier dans le domaine de l'hypnose :-)

«sur "Kennedy" : http://www.jfk-fr.com/ est pertinente (elle parle de l'assassinant de JFK)»
Ah, bon ? Et Nigel Kennedy, vous connaissez pas ? Car on peut bien préférer un grand violoniste vivant à un président assassiné, tout de même ! Mais je dois le chercher en position 23 (par paresse je n'ai utilisé que Google), alors que dans les 10 premiers sortent un motel, une polyclinique et un agent immobilier (pertinents, le mot est dans l'URL). Certes seules 1% des 1 810 000 pages "Kennedy" lui sont consacrées.
1,8 million ? Et vous avez révé que quelques-uns pourraient se retrouver dans les meilleurs, quel que soit le moteur de recherche ? Avec un scoring combinant notoriété du site, pagerank de la page, poids du mot selon sa présence dans l'URL, le titre, la page, sa répétition... Celà aurait un sens pour une requête précise, renvoyant queques centaines de pages ; mais là !

Elève Jean, un petit exercice pour apprendre qu'un moteur de recherche sert à fournir des réponses à des questions difficiles : trouvez quelques "John Kennedy" ayant acquis de la notoriété sans être président des Etats-Unis. Je vous en donne deux :
- John Kennedy Toole, auteur de "La conjuration des imbéciles"
- et celui-çi qui devrait vous plaire :
Agent John Kennedy GRC, Détachement de Stellarton ...
www.justice.gc.ca/fr/ps/yj/awards/2001/jk.html

13 décembre, 2005 15:15  
Blogger Jean Véronis a écrit...

Bien vu, Pilou -- et merci pour cet exercice de "mauvaise foi" salutaire!

13 décembre, 2005 15:34  
Blogger pasdispo a écrit...

Je pense que Pilou a mis le doigt sur un des pb. Jean Veronis l'a perçu aussi puisqu'en avertissement il mentionne que la non divergence n'est pas obligatoirement un signe de qualité.

En effet,les moteurs cités dans l'étude n'ont pas les mêmes objectifs. Par exemple les deux extrêmes (à mon avis) étant Google et Exalead.
-Google classe généralement les réponses avec un objectif commercial, dans une seule liste.

- Exalead est orienté Information, adéquation requête /réponse à l’aide de 2 listes : catégorisation/liste

Exemple: Rechercher SUEZ.
Indépendamment de la taille indexée (2,046,240,559 web pages annoncées en bas de page exalead et rien d’affiché sur Google mais je crois que c’est l’ordre de 8milliards( ?))
- Google donne en vrac les réponses relatives à Suez et choisi de prioriser www.suez.com à la place de l’utilisateur. Puis on trouve en vrac différents sujets sur Suez, Lyonnaise des eaux à nouveaux etc…
- Exalead dans sa liste de droite priorise aussi www.suez.com mais propose à l’utilisateur via sa colonne de gauche différentes catégories (comme Lyonnaise des eaux ; Canal de Suez ; Golfe de Suez ; Crise de Suez ; Gouvernement egyptien ; Lake Nasser ; etc…)ceci permettant à l’utilisateur de rapidement se concentrer sur son sujet de recherche (ex : canal de Suez) et regrouper ensuite toutes les réponses relatives à canal de Suez (pour cet exemple).
-
On comprendra donc que, ayant des objectifs différents ainsi que des modes de navigation et de présentation de l’information différents, il est difficile de comparer les moteurs sur leur première page.

Je tiens cependant à préciser que je trouve cette étude/ initiative d’étude très intéressante et à remercier Jean Veronis.

13 décembre, 2005 19:34  
Blogger Jean Véronis a écrit...

Pasdispo> Effectivement, Exalead fait un très beau travail d'organisation de l'information. Il a fait d'immenses progrès sur la zone "termes associés", en particulier. Je suis ça de très près (on est en plein dans la linguistique, n'est-ce pas?) et j'en parlerai certainement un de ces jours!

13 décembre, 2005 21:54  
Anonymous stéphane a écrit...

tiens au passage, Ask Jeeves arrive en France (annonce sur le blog Moteurs )http://moteurs.blogs.com/mon_weblog/2005/12/ask_en_fr.html

il faudra bientôt l'inclure dans les tests :-)

14 décembre, 2005 19:20  
Anonymous hermes a écrit...

suis je le seul a lire un jeu de mot graveleux dans ce titre de post ?

:)

19 décembre, 2005 11:50  
Anonymous hermes a écrit...

Le meta-moteur de recherche dogpile a collabore a la realisation d'une etude sur la divergence des resultats entre les SE. Evidemment plus les resultats sont divergents, plus il y a d'interet a utiliser un meta-moteur si on souhaite approcher de l'exhaustivite.

"Different Engines, Different Results
Web searchers not always finding what they're looking for online

A research study by Dogpile.com
In collaboration with researchers from
the University of Pittsburgh and
the Pensylvania State University"

URL: http://comparesearchengines.dogpile.com/OverlapAnalysis.pdf

19 décembre, 2005 12:10  
Blogger Jean Véronis a écrit...

Hermes> Jeu de mots -- eh eh ;-) Ca m'étonnait aussi que personne ne relève!

Merci pour le lien. Je vais regarder ça en détail!

19 décembre, 2005 12:14  

Enregistrer un commentaire

dimanche, décembre 11, 2005

Moteurs: Ca diverge dur!

Vous avez sans doute comme moi comparé occasionnellement les résultats que retournent différents moteurs... Ces résultats se ressemblent-ils? Divergent-ils complètement? Gagne-t-on quelque chose à interroger plusieurs moteurs? Cela m'intriguait depuis quelque temps: je ne connais pas d'étude récente qui analyse systématiquement les résultats retournés par les moteurs francophones (vous me détromperez peut-être). Alors, comme on n'est jamais si bien servi que par soi-même, j'ai entrepris une petite évaluation avec l'aide de mes 14 étudiants de la licence MASHS à Aix. Chacun a choisi un thème (Divertissement, Histoire, Politique, etc.), et m'a proposé cinq requêtes à l'intérieur de ce thème, soit un total de 70 requêtes en tout. Je les ai lancées cet après-midi sur six moteurs avec les mêmes réglages (pages francophones, site parental activé), et j'ai calculé le nombre d'URL communes aux différents moteurs sur la première page de 10 résultats (soit 4200 URL en tout). Le détail est étonnant:

% communGoogleYahooMSNExaleadDirVoila
Google--25.118.912.16.47.0
Yahoo25.1--16.611.96.76.7
MSN18.916.6--10.15.75.7
Exalead12.111.910.1--5.96.4
Dir6.46.75.75.9--2.9
Voila7.06.75.76.42.9--

Le tableau ci-dessus montre que, quel que soit le couple de moteurs considéré, bien peu de résultats sont identiques sur la première page. La meilleure correspondance est entre Yahoo et Google, qui partagent en moyenne un quart des résultats, ce qui est tout de même peu. Les résultats sont bien plus faibles encore pour les autres moteurs. Je m'attendais à des divergences, mais je dois dire que j'ai été assez surpris qu'elles soient aussi massives!

On peut représenter la similarité entre moteurs sous forme d'arbre, à l'aide d'une technique qui s'appelle classification hiérarchique ascendante -- je n'entre pas dans les détails pour ne pas plomber l'audimat ;-) L'idée générale est simple à comprendre: deux moteurs sont d'autant plus distants dans l'arbre (ou "dendrogramme") qu'ils ont moins de résultats en commun.




Je ne sais pas ce que vous en pensez, mais ce diagramme reflète bien mes intuitions: Yahoo et Google sont les plus proches (encore qu'ils diffèrent à 75%!) ; MSN n'est pas trop loin du tandem. Les moteurs français sont plus loin, avec Voila très distant de tous les autres. Ceci ne dit rien sur la qualité, bien sûr: on peut être éloigné des autres et être le meilleur (mais dans le cas de Voila, honnêtement, j'en doute: on sent clairement que le moteur est laissé plus ou moins à l'abandon...).

Reste à savoir quel est le moteur le plus pertinent, mais ça c'est une autre histoire. On va y travailler avec mes étudiants, et nous aurons l'occasion d'en reparler...

17 Commentaires:

Anonymous Alphoenix a écrit...

La technique utilisée pour les représenter sous forme d'arbre se rapproche-t-elle de celle utilisée pour faire des cladogrammes entre différentes espèce en biologie? Merci

11 décembre, 2005 20:09  
Blogger Jean Véronis a écrit...

Alphoenix> Presque... Je crois que ce type de méthode se rapproche plus des méthodes dites "phénétiques" basées sur un degré de similarité entre séquences génétiques et qui produisent justement des dendrogrammes ou phénogrammes --mais je ne suis pas spécialiste! Y a-t-il des biologistes dans la salle?

11 décembre, 2005 20:22  
Anonymous Alphoenix a écrit...

J'ai essayé avec mon titre de blog et on voit bien que certains moteur de recherches ont arrêté leur travail il y a un certain temps, où alors elle se limitent à des liens non-commerciaux.Je n'en sait rien toujours est-il que les meilleurs sites, ceux qui me renvoient à mon blog crée il y a moins d'un mois sont: Google, Yahoo, Altavista et AskJeeves ont répondu à ma requète. Je n'ai pas tout essayé, contrairement à L. Ruquier. Mais il faut dire que dir.com marche également et que sa fonction de http://*recherche*.dir.com est intéressante.

11 décembre, 2005 20:46  
Blogger zobi a écrit...

Yahoo et MSN utilisent tous les deux les données Inktomi ( propriete de Yahoo ).
Ce qui fait la difference, ce sont les regles de scorage, vaste sujet !

11 décembre, 2005 20:50  
Anonymous Philippe a écrit...

A tout hasard, voilà un site permettant de comparer les premiers résultats de recherche entre Yahoo et Google : http://www.langreiter.com/exec/yahoo-vs-google.html
Je trouve la représentation graphique des résultats intéressante.

11 décembre, 2005 22:56  
Anonymous Thea a écrit...

Bonjour,
Je peux me tromper, mais je pense que MSN n'utilise plus Inktomi depuis quelque temps. En fait, le moteur utilisé sur le site français de MSN est une déclinaison (laquelle ?, c'est ce que j'aimerais découvrir) de la version américaine d'un "nouveau" moteur "maison".
(Thea)

12 décembre, 2005 00:01  
Anonymous Thierry Fontenelle a écrit...

Bonjour,

Je confirme ce que Théa écrit: MSN a maintenant son propre moteur, développé en interne et lancé il y a quelques mois (avec entre autres l'accès aux articles de l'encyclopédie Encarta).
Et bravo pour cette étude passionnante, Jean! Je me réjouis de lire la suite, sur la pertinence des réponses...

Thierry Fontenelle [MSFT]

12 décembre, 2005 06:13  
Blogger Jean Véronis a écrit...

Phlippe> Merci de citer le lien vers cet outil qui compare visuelment Google et Yahoo -- et qui confirme grosso modo les proporitions que j'indique. Seul inconviénient, il ne permet pas de restreindre la recherc au français...

12 décembre, 2005 07:33  
Anonymous Activeille a écrit...

Voici deux liens vers des pages où j'ai orienté vers des outils de comparaison de résultats entre moteurs qui montre que (par exemple) pour 10316 recherches qui ont ramené 336232 résultats uniques, seulement 3% étaient communs aux trois moteurs, 12% communs à deux d’entre eux et 85% spécifiques à l’un des moteurs.
http://www.activeille.net/index.php/archives/2005/05/10/comparaison-des-resultats-de-recherche-sur-differents-moteurs/
ou http://minilien.com/?zr12pgRQNr
http://www.activeille.net/index.php/archives/2005/05/18/comparaison-des-resultats-de-recherche-sur-differents-moteurs-2/
ou http://tinyurl.com/b2x3t

12 décembre, 2005 08:28  
Blogger Valerie a écrit...

J'avais pensé à ce type d'étude, merci de l'avoir fait avant, je suis flemmarde. C'est vrai que ce srait bien de faire une étude qualitative afin de voir quel moteur offre la recherche la plus pertinente par rapport à la requete. Cependant je n'ai jamais trouvé ça évident. Je vais peut-être aborder un sujet dont vous avez déjà parlé ici mais comment un moteur peut-il comprendre le besoin d'informations spécifiques d'un utilisateur? Je sais bien qu'en entrant plusieurs mots clés on affine sa recherche mais peut-être que les infos recherchées se trouvent à la 10ème page alors qu'habituellement je ne dépasse pas les trois premières.

12 décembre, 2005 10:44  
Blogger Jérôme Charron a écrit...

En voyant les résultats de ce bilet, mon intuition première fut que ces divergences provenaient simplement d'une différence de scoring des moteurs. Le fait de ne retenir que les 10 premiers résultats me semblant assez limitatif je supposais que cela laissait beaucoup de place à de grandes divergences de résultats à cause des algorithmes utilisés.
Or, l'outil sité par Philippe (que je ne connaissais pas et qui est une très bonne approche visuelle), en nous montrant les 100 premiers résultats nous suggère que les divergences des moteurs sont plus de l'ordre du contenu de l'index que de la méthode de scoring. Il est également intéressant de remarquer que très souvent les trois ou quatre premiers résultats sont très proches mais qu'ensuite les divergences sont de plus en plus grandes.
A suivre.

12 décembre, 2005 12:06  
Anonymous Benjamin a écrit...

Bonjour

Très intéressant comme première analyse! Avez-vous regardé (j'imagine que oui) quel taux d'URL sont présents dans TOUS les moteurs? Déjà y en a-t-il? Si oui, ceux ci représentent assurément les résultats les plus pertinents. D'autre part sommes nous capables de quantifier la performance d'un moteur par sa similitude aux autres moteurs? Je fais un parallèle un peu grossier: vous qui êtes enseignant, donnez une recherche bibliographique à faire à 6 étudiants. Quelle est la meilleure recherche? Celle de l'étudiant qui a le plus de références communes aux autres? Diversité ne fait-elle pas richesse? Pardonnez mon esprit tordu et encore merci pour votre blog!

12 décembre, 2005 15:42  
Blogger Nicolas Brouard a écrit...

Dogpile permet de comparer 6 moteurs de recherches et affichent les résultats des 6 moteurs en colonne, en surlignant les résultats identiques.

12 décembre, 2005 15:42  
Anonymous JM Salaun a écrit...

Je me demande si ce résultat n'est pas après tout normal. Il serait simplement la manifestation des lois bibliométriques. Les requêtes se concentrent très forts sur quelques items très peu nombreux et se dispersent sur un très grand nombre. Comme les résultats sont classés par rapport aux requêtes, il serait logique que l'on n'en retrouve que quelques uns en commun, ensuite cela devient très vite aléatoire.

12 décembre, 2005 23:52  
Blogger Jean Véronis a écrit...

Jérôme> Ca me semble bien difficile de savoir si les divergences sont dues au scoring ou au contenu de l'index. Après tout, l'outil yahoo/google ne donne que les 100 premiers résultats. C'est mieux que 10, mais ça ne nous dit pas si les mêmes URL ne figurent pas plus loin dans l'index...

13 décembre, 2005 21:58  
Anonymous Modo a écrit...

Je voulais juste signaler un petit travail que j'ai fais suite à ce billet. J'ai voulu aussi comparer les résultats de 5 moteurs. Et notamment leur ordre d'apparition, le classement des résultats. Par contre je n'ai certainement pas le niveau de Jean Véronis, tout a été développé sous Excel, ce n'est pas très "propre" comme programmation, mais si ça intéresse quelqu'un d'essayer des requêtes ou tester par lui même. Le fichier est disponible avec un peu plus d'explication a cette adresse :
http://veilleauto.jot.com/exp%C3%A9rience#ComparMoteur

15 janvier, 2006 17:04  
Blogger Jean Véronis a écrit...

Modo> Bravo! Les résultats sont du même ordre: faible recouvrement, sauf Yahoo/Altavista mais ça s'explique: c'est la même base de données (Overture).

15 janvier, 2006 18:59  

Enregistrer un commentaire

mercredi, décembre 07, 2005

Web: La grippe aviaire a disparu

Vous avez remarqué qu'on ne parle plus tellement de grippe aviaire? Pourtant, on a frisé la panique planétaire, on stockait (on stocke toujours?) des dizaines de millions de doses de médicaments, on parlait de centaines de millions de morts si jamais... Et puis, plus rien ou presque. Pourtant, l'épizootie touche l'Ukraine, on détecte de nouveaux cas en Roumanie, le bilan (humain) s'alourdit en Indonésie et au Viêtnam. Que s'est-il passé? a-t-on prouvé qu'il n'y avait finalement aucun risque pour l'homme? J'ai dû avoir un moment d'inattention: je n'ai pas vu passer la nouvelle. Il faut dire qu'entre temps la crise des banlieues a détourné nos regards... à moins que ce ne soit un coup du lobby des producteurs de foie gras à l'approche des fêtes!

Je rêve depuis longtemps d'un outil qui me permettrait de suivre au jour le jour l'évolution d'un terme sur le Web: ne serait-il pas fantastique de pouvoir suivre exactement la montée et le déclin d'expressions comme grippe aviaire, banlieues, violences urbaines et bien d'autres, comme on suit la progression du CAC 40 (ou, hélas, du nombre de chômeurs)?

Eh bien, je suis heureux d'annoncer la naissance d'un tel outil: Le Chronologue, auquel je travaille depuis quelques jours, en collaboration avec Philippe Develter du moteur Dir.com. Cela ne vous dit rien? Ce moteur, créé par Fabien Menemenlis et Philippe Develter, a été lancé début 2003 par le groupe Iliad (qui possède notamment Online et Free). Si Dir.com n'est pas devenu le "concurrent français" de Google que l'on pouvait espérer (Free a hélas préféré, du moins pour l'instant, installer tout bonnement Google), il n'en suit pas moins son petit bonhomme de chemin, avec de jolies petites choses, sur lesquelles je reviendrai peut-être un de ces jours...



Philippe a mis au point récemment une fonction qui permet de restreindre la recherche à une période donnée, exprimée en nombre de jours (exemple: banlieues dd>60 dd<120) ou en nombre de mois (exemple: banlieues mm>1 mm<2). Cela ressemble un peu à la fonction daterange de Google, sauf que celle-ci semble marcher de façon complètement erratique et retourne de toutes façons le même compte quelle que soit la période donnée.

Quelques jours d'interaction avec Philippe ont permis d'affiner l'outil, sur lequel j'ai greffé quelques petites statistiques maison. En effet, le simple compte de pages pour chaque jour sur une requête donnée est assez "bruité". Des tas de paramètres entrent en jeu, comme les variations hebdomadaires (moins de pages créées ou modifiées les week-ends!) ou à plus long terme (moins de pages pendant les vacances), ou bien liées au moteur lui-même (changement de stratégie ou de fréquence de crawling, etc.). Mais ces paramètres affectent (grosso modo) tous les mots de la même manière...

L'astuce que j'utilise est un peu analogue à celle des statisticiens qui corrigent la courbe de chômage en fonction des "variations saisonnières". J'étalonne mon système en calculant (automatiquement!) toutes les nuits les variations journalières du compte de pages sur un certain nombre de mots fréquents, ce qui me donne les fluctuations globales, non liées à une requête donnée. Il suffit alors de les "soustraire" à chaque requête, et on obtient par exemple ceci, pour grippe aviaire (la ligne horizontale représente la moyenne du terme sur la période du graphique):



Étonnant, non?

Voici quelques autres "pics" intéressants:










On peut également superposer des courbes. Par exemple, on voit très clairement ci-dessous que le "déclin" de grippe aviaire avait commencé avant la montée en puissance du terme banlieues. Donc j'étais sans doute mauvaise langue: ce n'est apparemment pas la crise des banlieues qui a détourné notre attention de la grippe aviaire! [Mise à jour: Mopt fait remarquer dans un commentaire ci-dessous que grippe aviaire commence à décliner juste au moment où banlieues commence à monter. Je me suis fait avoir comme un débutant en regardant bêtement les pics -- j'aurais dû reprendre un café moi, ce matin! Et la relation est d'autant plus évidente que (comme le montre le diagramme suivant) le déchaînement médiatique a commencé quelques jours avant avec l'affaire Sarko-Racaille et la mort des deux jeunes à Clichy, donc en plein dans le pic grippe aviaire. Je ne ferai pas une deuxième erreur en affirmant qu'il y a relation de cause à effet, et que la crise des banlieues a effacé la grippe aviaire, mais c'est bien troublant. Merci Mopt!]



Cet autre exemple est assez instructif:



On voit clairement apparaître la chronologie des événements: Nicolas Sarkozy fait parler de lui, deux jeunes meurent électrocutés à Clichy quelques jours après, puis les banlieues s'embrasent... Pour finir, tout rentre dans l'ordre: parlons d'autre chose.

Voici un autre exemple... que je vous laisse commenter!



A vous de vous amuser (vous pouvez copier-coller les images dans vos blogs)! Le Chronologue est ici.

47 Commentaires:

Anonymous Alphoenix a écrit...

Génial comme truc... Les secrets des internautes n'en sont plus... ça me rapelle une fonction sur Yahoo! à l'époque. Ils montraient les images les plus recherchées... Que dire si ce n'est "Merci" pour cet outil permettant de comprendre un peu mieux les mystères de la toile...

07 décembre, 2005 09:54  
Anonymous Sebastien Billard a écrit...

Excellent outil Jean :)

Je ne sais pas si tu connais, mais blogpulse propose un service similaire, mais pour les blogs.

Exemple :
http://www.blogpulse.com/trend?query1=%22grippe+aviaire%22&label1=&query2=&label2=&query3=&label3=&days=180&x=22&y=14

07 décembre, 2005 09:55  
Anonymous mopt a écrit...

Une petite question sur le graphique avec les courbes "grippe aviaire" et "banlieues", n'y voit-on pas au contraire que la fin du pic "grippe aviaire" correspond exactement au début de la montée de la courbe "banlieues" ? Mes cours de stats sont bien loin, je l'avoue, mais j'y vois quand même une certaine corrélation.

07 décembre, 2005 09:58  
Blogger all a écrit...

C'est formidable ! On voit, et on la preuve, de chocs medatiques sur la toile. On peut aussi mesurer l'impact d'une campagne de pub.

07 décembre, 2005 10:01  
Blogger Jean Véronis a écrit...

Mopt> Mais vous avez raison!!! J'ai écrit trop vite. "Grippe aviaire" commence à décliner au moment où "banlieues" apparaît. Et le diagramme avec "Clichy" montre que nos regards ont commencé à se détourner quelques jours avant, donc en plein au moment du début de la pente descendante de "grippe aviaire". Je vais intégrer cette remarque dans le texte. Merci!

07 décembre, 2005 10:14  
Anonymous Jeannot Lapin a écrit...

Comme j'aime bien tester les nouveaux outils, j'ai essaye des mots relativement neutres, qui devraient apparaitre avec la meme frequence quelle que soit la date, et donc donner des lignes horizontales. Par exemple "football", "foot", "basket", "volley". J'ai aussi essaye "printemps", "ete", "automne, "hiver", m'attendant a une sur-representation de automne-hiver par rapport a printemps, vu l'epoque de l'annee. Or, sauf pour le mot "ete", j'obtiens un pic qui demarre vers le 20 Octobre et atteint son maximum autour du 1er novembre. Le tout est assez similaire au graphe presente pour "seisme". Serait-ce un artifact lie au lancement du chronogue ?
Compliments pour ce blog, c'est une source d'informations unique en son genre !

07 décembre, 2005 10:53  
Anonymous Merome a écrit...

Joli outil, mais il me semble observer quasi systématiquement un pic en novembre, quel que soit le mot qu'on choisit. Il y a un raison statistique à ça ?
Une recherche sur mon pseudo "Merome", par exemple, ou sur "Apple", ou encore sur "légume", retourne toujours une courbe de la même forme, ou presque alors que ces mots n'ont rien à voir avec l'actualité...

07 décembre, 2005 10:54  
Blogger Jean Véronis a écrit...

Jeannot Lapin et Merome> Il y a certainement des tas de réglages à faire. Ca n'est qu'une version 0.0.0.0.1 ! Ceci étant, il y a des des choses auxquelles on ne pense pas: le mot "printemps" a été très utilisé en novembre, justement, parce que tous les créateurs de mode ont présenté leur collection printemps 2006! En même temps sur des mots vraiment indépendant du temps (enfin, normalement...) comme beaucoup, quand, avec, etc. la courbe est quasi plate. Il ya des effects indirects, aussi: beaucoup de gens (de bloggeurs en particulier) se sont par exemple mis à écrire plus pendant la période des banlieues (c'était le cas aussi pendant le référendum sur la constitution). C'est peut-être votre cas, Mérome? A suivre...

07 décembre, 2005 11:10  
Anonymous Denis a écrit...

Bon, j'ai essayé "halloween" et "banlieues" et on voit aussi une corrélation évidente !!!

07 décembre, 2005 11:38  
Blogger Jean Véronis a écrit...

Denis> Absolument (et aussi entre vendanges et Sarkozy!). C'est pourquoi il faut se garder de voir nécessairement des relations de cause à effet!

07 décembre, 2005 11:46  
Anonymous Denis a écrit...

Jean Véronis > En tous les cas, l'idée est excellente et la réalisation aussi !
Avez vous une idée d'explication pour les pics apparement nombreux en novembre ? Quelle est l'unité de l'axe des ordonnées ?
Merci pour ce travail !

07 décembre, 2005 11:54  
Blogger Jean Véronis a écrit...

Denis> Le système est manifestement moins "sensible" quand on remonte dans le temps. Philippe a fait d'important correctifs à partir de novembre sur le moteur, et cela se sent. Il y a peut-être aussi une perte de sensibilité naturel de ce genre d'outil avec le temps: bien des pages sont remises à jour au fil des jours (parfois de façon triviale, mais un petit changement suffit). C'est à étudier sur une plus longue période...

Unité de l'axe des ordonnées = nb de fois la moyenne. La moyenne est, elle, représentée par la ligne horizontale d'ordonnée 1. Si un pic monte jusqu'à 4, cela veut dire que le mot apparaît 4 fois plus que sa moyenne à ce point-là du temps.

07 décembre, 2005 12:00  
Anonymous Merome a écrit...

Il est possible que j'aie blogué plus que de raison en novembre, mais je doute que cela soit la raison. Raisonnons par l'absurde : y a-t-il des requêtes qui produisent un pic en Septembre ? j'ai testé, "rentrée", "école" et "septembre", si on ne constate effectivement pas l'érection de novembre, il n'y a pas non plus de frémissements en septembre...
Est-ce possible que le nombre pages indexées par le(s) moteur(s) de référence ait augmenté d'un coup et qu'il fausse les stats ?

07 décembre, 2005 12:06  
Blogger Jean Véronis a écrit...

Mérome: Nos messages se sont croisés. Dans ma réponse à Denis ci-dessus, je donne deux pistes: (1) amélioration notable du moteur au niveau de la datation des pages à partir de novembre (2) perte possible de la sensibilité dans le temps à cause de la remise à jour progressive des pages qui produirait une sorte de "flou" progressif dans la définition comme sur une photo. Je vais étudier la question...

Le nombre de pages indexées change effectivement assez fréquemment, mais c'est pris en compte dans mon étalonnage quotidien (et ça marche bien sur des mots comme beaucoup, avec, etc. qui montrent peu de variations après correction).

07 décembre, 2005 12:15  
Blogger Jean Véronis a écrit...

version 0.0.0.0.2! j'ai fait une petite modif qui semble améliorer les choses sur septembre-octobre... Ca n'est pas encore tout à fait idéal. Mais, bon, il y aura peut-être un jour une 0.0.0.0.3...

07 décembre, 2005 13:27  
Anonymous Dimitri a écrit...

Concernant la grippe aviaire, il est intéressant de voir que les recherches "grippe aviaire" et "bird flu" donnent des courbes assez proches...
Par contre, "influenza aviar" donne une courbe décevante, même si on peut encore reconnaître certains pics.
En tout cas, l'outil est vraiment intéressant !

07 décembre, 2005 17:05  
Anonymous Alphoenix a écrit...

Je n'ai pas vraiment compris comment fonctionnait le petit programme... Il décrit le nombre d'occurence du mot entré par rapport aux pages crées? Aux recherches faites? Aux pages existantes à ce moment? J'ai par exemple tapé "Georges Bush" et "George Bush" et les deux courbes semblent symétriques... Je pense ne pas tout avoir compris...

07 décembre, 2005 17:32  
Anonymous Anonyme a écrit...

Je remarque que si je tape juppé hendrix raffarin il ya une corrélation avec un pique pour juppé. Ce serai pas un peu bidon comme truc ?

07 décembre, 2005 17:33  
Anonymous Misdre a écrit...

Assurément, ce n'est pas encore au point. Il faut prendre avec d'énormes pincettes les courbes...
Mais qu'importe ! C'est indéniablement prometteur ! Je suis très emballé à l'idée de voir l'outil évoluer.
Beau travail ^^

07 décembre, 2005 18:00  
Anonymous dimitridf a écrit...

Comme l'outil est encore en période de développement, je ne ferai pas de commentaires du même ordre de ceux déjà mentionnés (problèmes de fiabilité de l'index, dépendance aux mises-à-jour etc). J'aimerai suggérer de travailler les cooccurrents (contextes de phrase par exemple ou contextes numériques). Il serait intéressant de pouvoir établir sur un graphe les variations dans le temps des cooccurrents (pleins de sens ou pas) des mots sélectionnés. À mon avis, une périodisation des cooccurrents apporterait bien plus à l'analyse et transformerait un gadget (pardonnez moi le qualificatif) en outil. Il serait très utile également de documenter le mode de calcul. Un outil bien documenté est un outil utile. Bon travail et je vais suivre avec beaucoup d'attention les développements à venir!

07 décembre, 2005 18:40  
Blogger Jean Véronis a écrit...

Dimitri> influenza aviar : L'outil ne cherche que les pages francophones. Les pages qu'il trouve avec "influenza aviar" sont soit quelques accidents, soit des pages françaises où l'expression ""influenza aviar" apparaît, mais elles sont sans aucun doute peu nombreuses et le résultat est peu fiable.

07 décembre, 2005 19:27  
Blogger Jean Véronis a écrit...

Alphoenix> L'outil donne la variation journalière du nombre de pages qui contiennent un mot donné en se basant sur la date de modification des pages.

Les courbes "georges bush" et "george bush" sont à peu près identiques, et c'est normal: cela montre que la présence du "s" n'est pas influencée par le temps...

07 décembre, 2005 19:32  
Blogger Jean Véronis a écrit...

Anonymous et autres> Il y a manifestement une instabilité en septembre... Le crawler n'avait pas encore reçu les modifications adéquates. Les résultats sont meilleurs à partir de mi-octobre.

07 décembre, 2005 19:37  
Blogger Jean Véronis a écrit...

Dimitridf> travailler sur les cooccurrents: oui, absolument, c'est dans mon agenda (mais le temps étant ce qu'il est, je ne sais pas quand cela pourra voir le jour!). Vous avez complètement raison sur l'intérêt que cela aurait pour l'analyse.

Documenter. Oui (le temps toujours...).

07 décembre, 2005 19:39  
Blogger TOMHTML a écrit...

en un mot : EXCELLENT !
je suis très très très surpris qu'une idée aussi originale ait été réalisée.
Sincèrement, bravo :-)



juste une petite remarque : c'est normal que la requête "Google" ne retoune absolument aucune page ?

07 décembre, 2005 20:09  
Anonymous Sébastien a écrit...

Très intéressant en effet comme outil. Je pense cependant qu'une autre donnée, qui n'est pas vraiment chifrable, et celle de la durée de vie d'une information : le sujet est encore d'actualité, mais les journalistes n'en parlent plus parce qu'ils en ont assez parlé et que les auditeurs n'aiment pas qu'on leur parle trop souvent de la même chose.

Je dis cela, car je porte sur l'actualité un regard outre-atlantique puisque je réside au Québec. Ici, la grippe aviaire a survécu aux banlieues (on a regardé la fumée qui s'élevait au loin) mais a fini tout de même par disparaître.

Nous avons aussi eut nos sujets d'actualités pour parler d'autre chose : je pense que des recherches sur chefferie, André Boisclair, Paul Martin ou encore libéraux sur des pages québecoises permettraient de voir qui sont les coupables de la disparition de la grippe aviaire. Mais je pense que, comme dans la plus part des décès, le temps est le principal responsable...

Sur ce, je vais tenter également mes petites expériences, en espérant que l'option existe également pour les québecois !

07 décembre, 2005 23:32  
Anonymous Alphoenix a écrit...

Merci de votre réponse... Juste une petite remarque... Le problème de l'échelle à dimension varible... Comme le chiffre en ordonnées n'est pas très clair... Ainsi, si l'on tape seulement "Miss France" on voit une variation au cours du temps... On se dit que l'on en parle tout le temps. Mais si l'on tape "Miss France" et "Alexandra Rosenfeld" on voit que les petites variations étaient négligeables...

07 décembre, 2005 23:35  
Anonymous sébastien a écrit...

je viens de faire quelques tests, et le résultat est assez intéressant en effet. Ça marche bien pour l'actualité québecoise francophone semble-t'il... même si là aussi il y a encore du bruit, les débuts sont très prometteurs et les applications peuvent être très intéressantes. Je pense, par exemple, à la possibilité de surveiller la popularité des candidats lors d'une campagne électorale. Le point de vue francophone des élections canadiennes (le 23 janvier) est fot intéressant (à prendre avec des pincettes évidemment).

http://www.up.univ-mrs.fr/cgi-veronis/chronologue?mot1=%22Paul+Martin%22&mot2=%22Gilles+Duceppe%22&mot3=%22jack+layton%22&mot4=%22Stephen+Harper%22&mot5=&mot6=&Soumettre=Soumettre


Autre chose aussi : quand il y a plus d'une courbe, il faut faire attention, puisque un sujet populaire peut complètement écraser la courbe d'un sujet moins populaire...

08 décembre, 2005 00:05  
Anonymous michaël a écrit...

merci jean pour cette nouvelle expérimentation. comme d'autres avant moi, je te laisse le temps et le soin d'améliorer la moulinette avant de trancher sur l'utilité à moyen terme ; pour l'intérêt c'est tout de suite gagné !

je t'invite à admirer le résultat sur veronis+aixtal où le pas de deux est tout simplement étonnant.

sinon, j'ai dû rater une étape dans l'explication : pourquoi toutes les courbes plongent-elles en décembre ?

]m[

08 décembre, 2005 03:59  
Blogger Jean Véronis a écrit...

Sébastien> durée de vie d'une inforamtion -- oui, c'est humain. S'il n'y a rien de nouveau, on n'a plus envie d'en parler, ni de l'entendre, même quand c'est grave. C'était assez net sur les prises d'otages de journalistes, par exemple pour Florence Aubenas: bien que ses collègues aient eu particulièrement à coeur, évidemment, d'en parler, on sentait que c'était de plus en plus difficile au fil des jours, puisque rien ne se passait...

08 décembre, 2005 08:26  
Blogger Jean Véronis a écrit...

Michaël> pas de deux veronis/aixtal -- oui, amusant, n'est-ce pas : cela montre que j'ai été cité par des communautés différentes, qui m'appellent par l'un ou l'autre nom!

toutes les courbes plongent en décembre: non, pas toutes: voir "miss france 2006" par exemple.

08 décembre, 2005 08:29  
Anonymous nico a écrit...

Jean, vous m'impressionnez tous les jours !

à quand l'aboutissement et la mise en ligne "définitive" de cet outil ?

08 décembre, 2005 15:44  
Anonymous Anonyme a écrit...

A propos de la grippe aviaire: appeler "Bird flu" chez nos voisins britanniques.
Ici en Grande-Bretagne le sujet a lui aussi disparu ou presque des medias, et pourtant on a pas eu d`emeutes!
Peut etre que c`etait un coup des eleveurs de boeuf et de moutons apres les crises de la dernieres decennies pour leur permettre de relancer leur ventes.
Ou alors c`est un peu comme les terroristes et les medias veulent que les populations soit toujours alertes sous l`effet de la peur de tout?

08 décembre, 2005 17:33  
Anonymous B. a écrit...

Pour la grippe aviaire, la première identification du virus H5N1 sur le sol Européen a affolé tout le monde. Maintenant, au moins une nouvelle identification est faite chaque semaine et se rapproche doucement de l'ouest, mais c'est comme les 30 morts journaliers dans les attentats de Baghdad, plus personne n'y prête attention. 0n ne peut pas maintenir l'attention du monde entier sur le même sujet plus de quelques jours...même sur le pire...alors les volatiles, pensez donc !

Je n'ai pas pu essayer votre Chronologue, j'arrive un peu tard, mais j'y vois un possible fantastique outils de surveillance des rumeurs pour l'alerte épidemiologique....déformation professionelle.

Réparez nous cela vite, j'ai hâte de faire quelques petits essais aussi !!! je suis une fan des series chronologiques.

09 décembre, 2005 14:20  
Blogger Valerie a écrit...

C'est excellent. J'aime bien la comparaison entre clichy, banlieues et Sarkisy. En fait on peut interpreter ainsi. Sarko veut faire parler de lui encore plus que fin octobre. Pour cela, il fait tuer deux jeunes parce qu'il pense que ça va déclencher une émeute et qu'il pourra ensuite renvoyer au pays même les immigrés avec papiers. CQFD
Et si c'etait vrai se demanderait Marc?

12 décembre, 2005 11:31  
Anonymous Anonyme a écrit...

Mon commentaire concerne uniquement la gravité de la grippe aviaire pour les humains:
A ma connaissance , environ 60 morts en trois ans dans le sud-est asiatique (2 milliards d'habitants, hygiène douteuse...) soit ==> probabilité de décès de 10 puissance -8 / par habitant /par an. ... à comparer au risque de reçevoir un météorite sur le crâne en déambulant dans les rues d'une ville.
D'autre part, toujours si j'ai bien compris, il y a un risque de mutation du virus en une forme dangereuse pour l'homme, ce qui n'est pas le cas des souches actuelles; ce qui fait que les vaccins que l'on achète actuellement au groupe pharmaceutique Roche aux frais du contribuable enrichissent les actionnaires de Roche mais semblent d'une utilité douteuse pour les humains.
Quand aux sujets d'"actualité" mis en avant dans la presse, qu'il s'agisse des banlieues ou de la grippe aviaire, il s'agit à mon sens de mettre en avant des sujets qui détournent les peurs économiques et sociales des dominés vers des peurs alibi tout en montrant que les dominants au pouvoir s'occupent d'eux.

13 décembre, 2005 10:33  
Anonymous Anonyme a écrit...

Concernant la grippe aviaire, c'est un sujet dont j'ai entendu parler pour la première fois il y a environ un an. Ce n'était pas dans les grands média mais une alerte de l'OMS.

Le problème de ce virus, c'est qu'il est mortel dans une très grande majorité des cas (tu l'attrapes, tu es mort, enfin la probabilité est de l'ordre de 0,7 (je cite ce nombre de mémoire)). Heureusement, pour le moment, les cas de contamination humaine sont rares.
La crainte, c'est qu'une mutation du virus réussisse à nous contaminer plus facilement.

En ce qui concerne les médicaments potentiels (celui de Roche ou de GSK), ce sont (il me semble) des produits antiviraux qui sont actifs contre une famille de virus. Le vaccin lui n'est efficace que contre certaines souches (celles contenues dans le vaccin). Le fait d'avoir un rayon d'action plus large n'empêche pas que le virus mute et que le médicamnet ne soit plus efficace.

Pour terminer, la grippe aviaire est passée de mode dans les média. Ils sont passés à autre chose. Et en ce moment, il ne faudrait pas gâcher les fêtes de fin d'année (foie gras, dinde, chapon, ...).

14 décembre, 2005 09:12  
Blogger BeH a écrit...

Bonjour Jean. Pour info, il y a une pleine page dans Challenges (p. 9) ce matin sur votre Chronologue (reprenant le graphique de la sncf). Quel succès. A quand l'IPO ;-)

15 décembre, 2005 15:41  
Anonymous Christian a écrit...

Bonjour,

Je viens de découvrir votre site et vos recherches grâce au blog d'un ami qui fait des recherches en littérature.
Je découvre aussi dir.com, le moteur de recherche que vous recommandez et j'y ai cherché le site que je gère depuis 5 ans (assez connu maintenant). Mais dir.com ne le référence pas! Bizarre... Je me demande donc quels sont ses critères et si vous pouviez m'indiquer une page d'explication, je vous en serais très reconnaissant.
Mon adresse de courriel est: info@
suivi de: france-japon.net

Bravo pour vos recherches! Et merci de nous en faire profiter!

01 janvier, 2006 15:21  
Blogger Jean Véronis a écrit...

Christian> Si c'est le site france-japon.net, il est bien référencé: exemple. Je n'en sais pas plus: je ne suis pas associé personnellement à dir.com, et je n'ai pas plus d'info...

01 janvier, 2006 16:09  
Anonymous Christian a écrit...

Merci, Jean.
Mon commentaire était incomplet. En recherchant le seul mot "Japon" le site n'apparaît pas alors qu'il est en 4e position sur Google.

03 janvier, 2006 01:50  
Blogger Jean Véronis a écrit...

Christian> Ah oui, je comprends mieux. Ce sont les mystères du référencement... Le site n'apparaît pas non plus sur Yahoo et MSN (en tous cas pas dans la première page de résultats). Cela révèle des différences dans les algorithmes utilisés par les différents moteurs (mais évidemment, c'est bien difficile de savoir quelles sont les différences exactes: ce sont des secrets bien gardés!). Une piste: Google semble accorder beaucoup d'importance à la présence d'un site dans l'annuaire Dmoz, où vous avez la chance d'être référencé...

03 janvier, 2006 07:39  
Blogger Jean-Marie Le Ray a écrit...

Bonjour,

Indépendamment des causes pour lesquelles les occurrences de "grippe aviaire" ont baissé en décembre dans le Chronologue, on dirait qu'elles remontent à la vitesse grand V.
Je suis sûr que le sujet préoccupe un grand nombre de gens, en tout cas moi il m'interpelle franchement. J'ai d'ailleurs écrit un billet sur ça ( http://adscriptum.blogspot.com/2006/01/scnario-catastrophe.html ), qui vaut ce qu'il vaut...
Certes, c'est loin des questions linguistiques qui me passionnent durant le plus clair de mon temps, mais malheureusement c'est tout aussi réel.
Cordialement,
Jean-Marie Le Ray

17 janvier, 2006 16:09  
Blogger JR Courtois a écrit...

Un mois plus tard, c'est bien remonté. On en parle plus qu'au mois de novembre ...

Cela dit le nom h5n1 a plus la côte cette année. Vraiment pratique ce chronologue...

16 février, 2006 11:10  
Anonymous petchema a écrit...

Petit bug dans les liens du Chronologue vers le Nébuloscope...
Les derniers liens sont décalés.
Exemple:
http://www.up.univ-mrs.fr/cgi-veronis/chronologue?mot1=virus&mot2=h5n1&mot3=grippe+aviaire&mot4=chikungunya&mot5=grippe&mot6=sida&affichage=absolu&debut=01.09.2005&Soumettre=Soumettre

(je pensais que c'était à cause de "grippe aviaire" qui comporte plusieurs mots, mais non...)

05 mars, 2006 17:28  
Blogger Jean Véronis a écrit...

Petchema> Merci! J'étais en train de faire des corrections sur le programme et j'avais buggué. C'est réparé.

05 mars, 2006 17:32  
Anonymous Anonyme a écrit...

Un outil très intéressant, il faut absolument le rendre opérationel sur le net entier (du moins anglophone). merci,

laurent hervé

26 mars, 2006 13:56  

Enregistrer un commentaire

Outil: Le Chronologue

[Avis de décès: le Chronologue ne fonctionne hélas plus, le moteur Dir.com sur lequel il s'appuyait étant moribond. Désolé...]

Le Chronologue est un outil qui permet de visualiser de façon graphique l'évolution de termes sur le Web francophone au cours du temps (il ne s'agit pas du nombre de requêtes comme pour Google Zeitgeist, mais du nombre d'apparition du terme dans les pages elles-mêmes -- voir explications ici).


dir.com
Chronologuez :



relatif absolu



dir.com Astuce Utilisez des guillemets pour chercher une expression exacte

Bonne Chronologie! -- mais attention, ce n'est qu'un petit proto sans prétention: il y a encore du bruit, des problèmes divers (par exemple, la période allant du 1er septembre à la mi-octobre n'est pas très fiable pour l'instant).


Post-scriptum

Bilan de la première journée d'utilisation
  • Il y a eu près de 4800 requêtes sur le Chronologue en 24 heures. Je ne pensais pas qu'il rencontre un tel succès!
  • Vos commentaires ont été très nombreux et très pertinents (aussi bien ici que sur cet autre billet). J'ai essayé de répondre aux questions au fur et à mesure, mais il faudra décidément que j'essaie de faire une "FAQ".
  • Il faut prendre cet outil pour ce qu'il est: un petit démonstrateur sans prétention. Je ne suis qu'un "agitateur d'idées" pas un développeur industriel. J'essaie de modestement de montrer ce qu'on pourrait faire dans le domaine, d'ouvrir quelques pistes...

94 Commentaires:

Blogger Gabrouze a écrit...

Bravo !!!
l'idée est très bonne. Et les résultats trés intéressants.

07 décembre, 2005 08:13  
Anonymous Marc a écrit...

Bonjour,

Le moteur ne serait-il pas biaisé vers des dates récentes? Je m'explique : en faisant une recherche sur Cécilia Sarkozy, ou Nathalie Marquay, il me semble que l'on devrait avoir des pics vers Aout Septembre, puisque ca a fait la "une" en été. Or le graphique reste plat en ces périodes. Peut-être pourriez vous expliquer cela?

Amicalement,

Marc

07 décembre, 2005 09:55  
Blogger Jean Véronis a écrit...

Marc> Il me semble qu'on en a surtout parlé fin août (mais je ne suis plus très sûr), or nos graphiques commencent en septmbre. Quoi qu'il en soit, vous avez sans doute raison: le système est sans doute moins "sensible" sur le mois de septembre. Philippe a fait ensuite des correctifs importants sur le moteur qui améliorent fortement les choses.

07 décembre, 2005 10:10  
Anonymous Anonyme a écrit...

On ne peut pas être surpris de la corrélation entre racaille et sarkozy. Par contre, j'ai ajouté choucroute et depuis, je doute de la pertinence de cet outil.
Mouiii, il faut faire quelques réglages ?

Julien.

07 décembre, 2005 10:47  
Blogger Jean Véronis a écrit...

Julien> C'est sûr qu'il faut faire des réglages. Ceci étant, ça n'est pas la faute de Sarkozy si octobre-novembre c'est la saison de la choucroute et qu'on en parle un peu partout! Il faut se méfier des corrélations, qui n'indiquent pas nécessairement rapport de cause à effet. Autre exemple: le pic "vendanges" et le pic "Sarkozy" correspondent assez bien...

07 décembre, 2005 11:14  
Anonymous Nico a écrit...

Super ! Vous avez essayé avec Aixtal et Veronis par exemple ?

07 décembre, 2005 11:19  
Anonymous Vincent a écrit...

Excellent outils, merci beaucoups.

Serait-il envisageable de ne faire des recherche que dans des pages d'un pays donné (les pages en .be ou en .fr )?

07 décembre, 2005 11:28  
Blogger Jean Véronis a écrit...

Nico> Vous avez essayé avec Aixtal et Veronis. Bien sûr (ego quand tu nous tiens!). C'est amusant parce qu'il y a un pic très fort sur "Véronis" début novembre: ce sont mes billets sur Racaille et sur les AdWords de l'UMP qui ont été beaucoup repris. Par contre il y a un deuxième pic, sur Aixtal, celui-là, à la mi-novembre, et là ce sont mes histoires de "nuages" qui ont bien plu. Comme quoi, le "grand public" me cite plutôt comme Véronis, et les geeks comme Aixtal!

07 décembre, 2005 11:42  
Blogger Jean Véronis a écrit...

Vincent> Serait-il envisageable de ne faire des recherche que dans des pages d'un pays donné (les pages en .be ou en .fr ) Techniquement, ça ne paraît pas impossible, mais aurons-nous le temps et l'énergie? En tous cas la suggestion est très bonne, merci!

07 décembre, 2005 11:48  
Blogger Loran Bernardi a écrit...

Tres fort.
Bravo.

07 décembre, 2005 12:12  
Anonymous Arno a écrit...

Effectivement, c'est a la fois une super idee et une super realisation. Cela dit, un outil pour faire des correlations de maniere automatique, ca fait froid dans le dos. Par exemple, le cas suivant : http://www.up.univ-mrs.fr/cgi-veronis/chronologue?mot1=racisme&mot2=sarkozy&mot3=demagogie&mot4=dictature&mot5=policier&mot6=genocide&Soumettre=Soumettre

07 décembre, 2005 12:23  
Blogger Jean Véronis a écrit...

Marc> J'ai fait une modif qui semble améliorer les choses sur septembre octobre, bien que je ne sois pas encore 100% satisfait...

07 décembre, 2005 13:25  
Anonymous Aziz a écrit...

Idée extrêmement intéressante mais quelle unité de mesure est représentée sur l'axe des ordonnées ?

07 décembre, 2005 15:39  
Anonymous Clem a écrit...

Epatant.

07 décembre, 2005 16:44  
Blogger Jérôme Charron a écrit...

Jean, Google serait-il black listé, ou considéré comme un stop word?
Il n'y a aucune courbe pour Google.

07 décembre, 2005 17:02  
Blogger TOMHTML a écrit...

Oups, j'avais pas vu qu'il y avait un autre post sur votre nouveauté

et comme Jérôme, je m'interroge sur la non-présence de Google (cf commentaire sur autre post)...

07 décembre, 2005 20:11  
Anonymous bohwaz a écrit...

On peut très bien voir ici: http://www.up.univ-mrs.fr/cgi-veronis/chronologue?mot1=oui&mot2=non

Que le oui est majoritaire en novembre.

07 décembre, 2005 21:04  
Blogger Jean Véronis a écrit...

Jérôme, Tomhtml> Google: oui, et je vois avec étonnement que Yahoo et MSN sont absents aussi. Bizarre, parce que quand on entre ces requêtes à la main dans l'interface web de dir.com on a des résultats. A voir.

07 décembre, 2005 21:29  
Blogger Jean Véronis a écrit...

Aiz> L'unité sur l'axe des ordonnées est le nombre de fois par rapport à la moyenne (qui est la ligne horizontale à la position 1). Donc, par exemple un pic à 2 veut dire 2 fois plus important que la moyenne pour ce mot.

07 décembre, 2005 21:31  
Blogger TOMHTML a écrit...

Oui en fait l'axe des ordonnées est trompeur : Villepin est "au dessus" de Sarkozy, mais c'est sans compter que Sarkozy est contenu dans 552000 pages, tandis que Villepin est contenu dans 421000 pages "seulement".

Jean, on se colle de près ! ^^

07 décembre, 2005 21:58  
Blogger Tom Roud a écrit...

Bonjour,
l'outil est très intéressant. Cependant, il me semble qu'il y a un biais, que vous pouvez peut-être corriger : si on rentre des noms hors "actualités" récentes, des noms communs ou des noms mal orthographiés, on voit clairement une corrélation, avec des pics au 3/4 de Septembre et au premier quart d'Octobre. Regardez par exemple :

http://www.up.univ-mrs.fr/cgi-veronis/chronologue?mot1=Raffarin&mot2=Sarkozi&mot3=peu-etre&mot4=charrette&mot5=&mot6=&Soumettre=Soumettre

En tous cas, merci pour ce blog toujours très instructif !

07 décembre, 2005 23:38  
Blogger Jérôme Charron a écrit...

Oui, très étrange que Google, Yahoo et MSN soient absents. Et surtout très dommage, ça aurait permis de comparer avec les graphes des résultats "manuels" publiés par Olivier hier dans son billet Quand les moteurs de recherche occupent l'espace média...

08 décembre, 2005 10:30  
Blogger Vicnent 31415 a écrit...

Halalala !!!
De plus en plus fort !!!
Je propose la loi de "Moore II" : tous les 6 mois, le Blog de Jean est 2x plus intéressant qu'avant. Et "Dieu" sait qu'il l'est déjà...
Pour ce dernier outil, je n'ai qu'un mot : "Enorme" (au sens de Fabrice Luchini)
Comme d'hab', moi je dis Encore !!!!!

08 décembre, 2005 11:41  
Anonymous Anonyme a écrit...

je constate fréquemment un "pic" aux alentours de septembre, auquel je ne trouve pas d'explication, quel que soit le mot : femme, colle, enfant, sexe, etc.
pourquoi ?

08 décembre, 2005 12:28  
Blogger Jean Véronis a écrit...

Anonyme> Quelques problèmes chez dir.com... J'ai ré-étalonné etpour l'instant c'est bon, mais les résultats sont instables. Je serai peut-être obligé de fermer l'outil temporairement en attendant que ça se tasse. A suivre.

08 décembre, 2005 14:38  
Blogger TOMHTML a écrit...

Vincent, je te soutiens pleinement à propos de la loi de Moore II !


Pour Google, voici une petite comparaison sur les services Google. On remarque de sacrés pics ! Pour y voir un peu plus clair, enlevez le graphe de "Google Analytics" ;)

08 décembre, 2005 15:55  
Anonymous Anonyme a écrit...

Bonjour,

Quoique que je demande au chronologue (camion, cacahuete, egyptologue ...), la courbe est descendante sur les 15 derniers jours. Qqu'un a-t-il réussi a avoir des courbes croissantes sur cette période ?

08 décembre, 2005 17:15  
Blogger Jean Véronis a écrit...

Anonymous> courbes croissantes -- oui: "miss france 2006", "alexandra rosenfeld" (avec les guillemets)...

08 décembre, 2005 17:55  
Anonymous Anonyme a écrit...

Mais c'est absolument genial! Ceci dit, il faut faire tres attention a ne pas confondre correlation et causalite. Il se peut qu'il y ait des correlations fortuites, mais cela ne veut pas dire forcement un lien de causalite. L'interpretation des courbes necessitent dont toujours un modele.

Je suis astrophysicien, et je travaille sur un sujet qui n'est pas considere comme "chaud" (les etoiles Wolf-Rayet), mais qui est relie fortement a un sujet relativement chaud: les sursauts de rayons gammas. Je voulais comparer les deux. Mais aussi les comparer aux deux sujets les plus chauds de l'astrophysique contemporaine: la matiere noire et l'energie sombre d'un cote, et les planetes extra-solaires de l'autre. Le resultat est le suivant:

http://www.up.univ-mrs.fr/cgi-veronis/chronologue?mot1=Wolf-Rayet&mot2=%22Gamma-ray+burst%22&mot3=%22dark+matter%22&mot4=%22dark+energy%22&mot5=exoplanet&mot6=ESO&Soumettre=Soumettre

Le resultat est tres interessant! On peut voir les choses suivantes.

1. La courbe rouge des sursauts de rayons gamma est relativement periodique. Est-ce que cela est lie a la simple apparition relativement reguliere de sursaut dans l'Univers? Le taux d'apparition de ces sursauts est mal connu, mais l'apparition d'articles sur le sujet est assez reguliere.

2. Il existe des correlation temporaires entre les Wolf-Rayet et les sursauts de gamma. Ce qui est normal dans certains cas, puisque les WR sont les progeniteurs des GRBs (en tous cas les long-soft). Debut novembre la courbe des WR augmente significativement. Cela correspond assez bien au moment ou j'ai soumis 3 papiers sur les WR sur arxiv.org... Correlation? Causalite?...

3. Dark matter et Dark energy sont bien correlees. Je continue a penser que ce sont les deux plus grosses farces de l'astrophysique moderne, mais les publications sur le sujet sont enormes. A ce propos, il est plutot etonnant de voir des courbes assez peu constantes. Le nombre de papiers sur le sujet est constant et volumineux. Pourquoi la courbe change autant? Est-elle sensible a l'apparition des termes dans la presse non-specialisee, qui elle n'est pas constante?...

4. On ne peut pas comparer les courbes des planetes d'un cote, de la dark energy et dark matter d'un autre, et les WR et GRBs de l'autre, puisque l;echelle est relative. Si l'on pouvait choisir de faire figurer les courbes mais avec une echelle absolue (connaissant la valeur moyenne), on pourrait peut-etre mesurer l'importance relative entre les sujets.

Je crois que je vais continuer a lire assidument le blog de Jean Veronis, avec beaucoup beaucoup de plaisir. Merci!
Cédric

08 décembre, 2005 18:33  
Anonymous MKe a écrit...

C'est gé-nial !
Les perspectives sont énormes... merci de mettre cet outil à disposition !

Encore bravo

08 décembre, 2005 18:45  
Anonymous Richard Menneveux (rMen) a écrit...

interessant comme outil de veille concurrentiel !!

je viens d'en parler sur mon blog

08 décembre, 2005 18:54  
Anonymous Misdre a écrit...

J'ai lu et relu les commentaires, mais c'était hier et j'ai une mémoire très courte... donc je ne sais pas si ça a été dit, déjà :
n'aura-t-on pas pour n'importe quel terme une augmentation dans les dates les plus récentes ? En effet, les anciennes pages peuvent disparaître, par exemple... et ne plus être indexées.

Je dis sans doute une idiotie...

08 décembre, 2005 23:32  
Blogger Jean Véronis a écrit...

Misdre> Oui, tout à fait: les anciennes pages disparaissent progressivement, ou sont mises à jour (et changent donc de date). Mais je pars de l'hypothèse que cette tendance affecte tout le web et par des statistiques appropriés, je "soustrais" cet effet global.

09 décembre, 2005 07:00  
Anonymous Anonyme a écrit...

Jean, cet outil est génial ! Faites qu'il soit disponible à nouveau rapidement ! Je poste mes remarques et desiderata d'utilisateur sur mon blog :

http://vanb.typepad.com/versac/2005/12/suivre_les_conv.html

versac

09 décembre, 2005 10:50  
Anonymous Anonyme a écrit...

L'outil est super, mais que penser des médias ? Cela laisse perplexe sur les informations qu'on nous donne et à quel moment !

09 décembre, 2005 18:26  
Anonymous Daniel a écrit...

Super idée

J'irai meme jusqu'à dire que le moteur devrait l'integrer définitivement car c'est tres utile d'avoir une vision historique quand on effectue une recherche
incroyable que google n'ai pas mieux paufiné ce point sur son moteur avant

vivement que ça fonctionne a nouveau !

10 décembre, 2005 09:28  
Blogger Serge Bibauw a écrit...

Excellent outil, comme d'habitude.

Sur la question d'un éventuel lien entre la disparition du thème "grippe aviaire" et l'apparition de celui des "banlieues", je ne pense pas qu'on puisse voir une corrélation particulière.

C'est simplement dû au fonctionnement général des médias. Le nombre de sujet sur lequel on insiste ne peut pas vraiment varier. La taille d'une première page du Monde ne varie pas, et si on veut attirer l'attention du public sur certains points, il faut faire des choix. Bref, un sujet d'actualité en chasse un autre...

Autre raison à la perte d'importance médiatique de la "grippe aviaire" : il est impossible pour les médias de maintenir à la une un sujet à propos duquel il n'y a pas grand chose à ajouter. La grippe aviaire, on en a parlé longtemps : on a interrogé tous les spécialistes possibles, évoqué tous les scénarios catastrophes, cherché toutes les origines, dénombré tous les cas dans le monde... Et puis il n'y a plus rien eu de nouveau : on ne savait (sait) toujours pas si il y a un réel risque de pandémie, si les cas d'animaux infectés en Europe représentent un danger pour l'homme... Bref, les médias n'auraient pas su remplir de nouveaux articles. Heureusement, il y a eu les banlieues pour fournir du matériau rédactionnel...

Dernier point : ici, en Belgique, on a sans doute autant parlé de la grippe aviaire, mais nettement moins des banlieues françaises (ça a fait quelques premières pages, mais pendant une période beaucoup plus courte qu'en France) ; pourtant, le sujet "grippe aviaire" s'est tout aussi vite tarri. (D'ailleurs, quand on voit les premières pages des journaux de cette semaine, on se dit que l'actualité n'est pas très chargée...)

12 décembre, 2005 03:41  
Anonymous Anonyme a écrit...

Pourquoi la recherche du mot Google a une fréquence de 0 ?

30 décembre, 2005 10:28  
Anonymous Weetabix a écrit...

Superbe outil !
j'en ai fait un article sur mon site d'actu en faisant bien entendu un lien vers votre superbe site que j'ai découvert par hasard mais qui est très instructif !
Euh l'article ne paraitra que l'année prochaine !
Weetabix

31 décembre, 2005 16:51  
Anonymous Mr_go a écrit...

Très bon outil!

Sympa pour analyser les tendances politiques...

=)

03 janvier, 2006 14:36  
Anonymous Mr_go a écrit...

Ou encore les décisions Politique :

Légalisation du Peer to Peer mi-décembre par la loi Davdsi.


Il serait interressant de créer un espace de diffusion des différentes analyses des internautes...

moi je suis partant ;)

03 janvier, 2006 16:24  
Blogger Stephane MOT a écrit...

Précieux : face à une multitude d'outils autrement plus sexys et riches (ie text mining), le votre a le merite de l'instantanéité, de la simplicité (usage, compréhension, pédagogie...), de la neutralité et, ce qui ne gache rien, de la gratuité !

09 janvier, 2006 10:52  
Anonymous alphoenix a écrit...

Concernant le chronologue, les comparaisons entre différentes personnes sont elles réellements possibles ? Je veux dire, d'un point de vue graphique, les moyennes n'étant pas les mêmes, on ne peut pas comparer les "popularités" des mots. On sait juste si on en parle plus. Ai-je bien compris ?

13 janvier, 2006 12:05  
Anonymous benzinadiko a écrit...

Bravo, cet outil est très intéressant, tout comme votre site tout entier. Félicitations et bonne continuation!

15 janvier, 2006 09:38  
Anonymous Nicolas Zagulajew a écrit...

Bonjour
ca fait un moment que je devore votre blog, et j'adore ses outils le chronologue, et le nebuloscope.
Dans l'un de vos exemples vous cherchez sarkozy, banlieues, émeutes, effectivement on peut correler.
Mais parfois on cherche un terme par exemple "ben laden" on trouve un pic aux alentours du 10 octobre, on se demande pourquoi.. Y'a-t-il quelque chose en rapport avec l'actualité? Je ne sais pas vraiment comment faire mais peut être existe-t-il un moteur de recherche dans l'actualité. Par exemple dans une période donnée, disons quelques jours avant le pic, on recherche le mot clef.. Ca donnerait peut-être une idée de la raison du pic...
Qu'en pensez vous ?
Bonne continuation.

15 janvier, 2006 15:04  
Blogger Jean Véronis a écrit...

Nicolas> toujours difficile à dire: pourquoi tel ou tel pic... Peut-être la sortie d'un livre, un événement particulier? Je ne connais hélas pas de moteur efficace pour la recherche d'actualités. J'utilise les moteurs du NY Times, ou de Libé mais il sont assez rustiques (pas de graphiques, etc.). Des journaux comme lLibé disent qu'ils traversent une crise, le passage du papier au net en gros. Ne faudrait-il pas qu'ils proposent des outils sophistiqués qui attireraient et fidèliseraient le lecteur électronique?

15 janvier, 2006 15:58  
Anonymous François Dubreuil a écrit...

Sans le savoir, je tombe en plein dans la conversation: Ma question était "Pourquoi ce pic?" mais je me demandais s'il était possible de superposer les courbes des n plus gros scores de la période immédiatement suivante. Cela pourrait aider, de savoir ce qui a remplacé le mot-clé dans le buzz. (Peut-on l'employer ainsi, le buzz?).
En tout cas, bravo et merci pout tout.

19 janvier, 2006 16:16  
Blogger gilda_f a écrit...

Venue par ici grâce à Fuligineuse
http://sablier.hautetfort.com/archive/2006/01/18/chacun-son-nebuloscope.html
et comme j'aime beaucoup les mots et travailler avec,
je suis bien intéressée par votre travail.

Pas trop le temps pour plus pour l'instant, mais je pense que je reviendrai (et que d'une façon ou d'une autre j'en parlerai autour de moi)

22 janvier, 2006 14:50  
Blogger Jean Véronis a écrit...

Francois> Afficher les n plus gros scores -- Si je comprends bien ce que vous suggérez, il faudrait savoir quels sont les mots qui appaissent en remplacement d'un mot qui s'éteint. Pas facile comme problème!

22 janvier, 2006 20:24  
Blogger Jean Véronis a écrit...

Gilda> Merci, c'est gentil. Sablier est une bien bonne lecture. Un petit moment de poésie quotidien...

22 janvier, 2006 20:28  
Anonymous Lui a écrit...

Il serait vraiment intéressant, d'un point de vue de l'étude de la néologie, de pouvoir remonter de quelques années. J'ai bien tenté le coup avec 48 mois mais l'outil ne semble pas le supporter. Est-ce que ce serait bien difficile à faire pour vos collègues du côté de moteur de recherche?

Merci pour cet outil fantastique!

23 janvier, 2006 20:05  
Blogger Jean Véronis a écrit...

Lui> Ah oui, ce serait merveilleux! malheureusement, c'est impossible, pour des raisons techniques...

23 janvier, 2006 20:44  
Anonymous a2b a écrit...

Tout simplement merci pour ces petits outils simples et magiques que sont le nebuloscope et le chronologue... en espérant pérennité et amélioration constante ;-)
A2B
www.miticblog.com

26 janvier, 2006 16:06  
Anonymous briconcella a écrit...

Merci infiniment de nous laisser jouer avec ce merveilleux gadget.
Personnellement, je suis émerveillée par les "nuages" de mot. A part la beauté du geste, ça sert à quoi? C'est pour concurrencer google? ça me fait un peu penser aussi à kartoo.com et ses jolies planètes.

27 janvier, 2006 20:55  
Blogger Jean Véronis a écrit...

Briconcella> concurrencer Google -- n'allons pas jusque là... J'essaie juste d'illustrer quelques petites idées comme ça. Oui, ça ressemble un peu à Kartoo. L'idée de Kartoo est bonne; avec quelques améliorations ça pourrait être un bel outil.

27 janvier, 2006 21:22  
Blogger neofutur a écrit...

bonjour, j'utilise votre outil depuis quelques semaines, et je tenai a vous signaler un
pic
comme je n'en avai encore jamais vu.


A signaler : les petits pics précédents comme 'spip-contrib' sont deja de gros pics.

comment expliquer cela ? a ce point ?

dans l'espoir d'aider, pour le cas ou cela pourrait vous aider pour le tuning de ce fabuleux outil . . .

30 janvier, 2006 04:12  
Blogger Jean Véronis a écrit...

Neofutur> C'est une illusion d'optique... Ce que j'affiche ce sont des fréquences relatives, c'est à dire rapportées à la moyenne du mot sur la période (la ligne horizontale grise à 1). Lorsqu'un mot a une fréquence moynne très faible, comme PHPMYPIXELPAGE, et qu'il se met à apparaître d'un coup, cela fait évidemment un énorme pic, sa fréquence est multipliée par 10 ou 50... Pour des mots qui apparaissent un million de fois comme SPIP, les variations ne peuvent pas être aussi grandes et aussi brusques.

J'ai déjà repéré ce problème, et j'ai réfléchi à un autre mode de visualisation... Dès que j'ai deux minutes, je m'y mets!

30 janvier, 2006 08:49  
Anonymous Anonyme a écrit...

Intéressant. Serait-il possible d'avoir un historique plus conséquent (5 mois c'est un peu léger)? Peut servir à notre site dédié à l'étude du pic de pétrole (www.oleocene.org).
Cordialement.

30 janvier, 2006 22:09  
Anonymous phyvette a écrit...

je suis beat d'admiration pour ce que vous avais produit je me demande quel en est la fiabilitée
mais peu importe si sa peu servir de moteur de recherche

31 janvier, 2006 01:50  
Anonymous Anonyme a écrit...

Faisons la synthèse de quelques posts... Le mode de visualisation actuel, en quantités relatives, est très intéressant et il ne faut pas le supprimer. Il serait par contre judicieux de pouvoir choisir entre cet affichage relatif et un affichage "absolu", où une expression apparaissant mille fois écraserait en effet une autre expression n'apparaissant que vingt fois.
D'autre part, un historique de taille paramétrable serait très intéressant, surtout si il permet de remonter avant septembre 2005.
N'empêche, cet outil reste passionnant, surtout pour les pauvres ingénieurs comme moi qui préfèrent le quantitatif au qualitatif. Merci encore.

31 janvier, 2006 02:05  
Blogger Jean Véronis a écrit...

Anonymous> Serait-il possible d'avoir un historique plus conséquent?> -- cette question m'est souvent posée, mais hélas, la date butoir restera le 1/9/2005. Le moteur n'était pas paramétré d'une façon qui permette d'avoir les dates de façon adéquate auparavant...

31 janvier, 2006 09:58  
Blogger Jean Véronis a écrit...

Phyvette> merci... la fiabilité est très bonne sur les pics très prononcés, par exemple une expression qui apparaît tout d'un coup, comme blog proviseur ou qui se met à être beaucoup plus employée comme "segolene royal". Elle n'est pas très bonne sur des mots ou expressions assez généraux, et dont les fluctuations semblent assez aléatoires...

31 janvier, 2006 10:00  
Blogger Jean Véronis a écrit...

Anonymmous>pouvoir choisir entre cet affichage relatif et un affichage "absolu" -- oui, c'est exactement ce que j'envisage. Le temps me manque un peu, mais ça va venir... Par contre pour l'historique j'ai déjà répondu: on ne pourra pas, techniquement parlant, remonter au de-là de sept. 2005.

31 janvier, 2006 10:02  
Blogger Dado a écrit...

Avant toutes choses, je tiens à vous présenter mes félicitations pour le Nébuloscope et le Chronologue. Comme je postais un commentaire dans le but d'émettre une remarque - que j'espère constructive - je ne voudrais que vous croyiez que je n'apprécie pas énormément ces deux outils !

Je viens de me rendre compte qu'il y a un petit phénomène qui semble parasiter les résultats. J'ai fait des recherches sur la grippe aviaire et les différents noms d'oiseaux : cygnes, canards, poules, moineaux. Mis à part "cygnes", qui connaît un pic remarquable peu de temps avant la dernière montée de "grippe aviaire" - et non simultanément ! les autres oiseaux sont moins touchés. C'est là que je me suis rendu compte que canards, poules et moineaux avaient des pics similaires, qui pouvaient laisser croire à une forte correlation entre eux. J'ai donc testé avec d'autres mots sans rapport comme lapins et lunettes :

Correlations bizarres

On observe les mêmes correlations. Il semble donc que ce soit un bruit extérieur. Savez-vous à quoi il est du ? A des fluctuations sur le nombre de pages visitées ? Si c'est le cas, ne serait-il pas alors possible de présenter, plutôt que le nombre brut d'occurences, le rapport occurences/pages visitées ?

21 mars, 2006 02:56  
Blogger Dado a écrit...

Oups! Je n'avais pas remarqué le billet publié dans l'article "La grippe aviaire a disparu" et où vous expliquez les raisons de ce bruit.

>> "En effet, le simple compte de pages pour chaque jour sur une requête donnée est assez "bruité". Des tas de paramètres entrent en jeu, comme les variations hebdomadaires (moins de pages créées ou modifiées les week-ends!) ou à plus long terme (moins de pages pendant les vacances), ou bien liées au moteur lui-même (changement de stratégie ou de fréquence de crawling, etc.). Mais ces paramètres affectent (grosso modo) tous les mots de la même manière..."

Qui plus est, je viens de réaliser que la "solution" que j'avais suggérée ne marche pas du tout, mais alors pas du tout !

Désolé donc pour ces commentaires inutiles ! :(

27 mars, 2006 15:52  
Blogger Jean Véronis a écrit...

Dado> Je m'aperçois que je n'avais pas répondu au précédent message. Toutes mes excuses: le système Blogger est très archaïque et les commentaires sur les billets anciens sont difficiles à repérer. En plus du "bruit" plus ou moins aléatoire, il faut faire attention aux corrélations: qui dit corrélation ne dit pas causalité. Si "printemps" et "CPE" montent ensemble ces jours-ci, ce n'est pas parce que c'est l'un qui a provoqué l'autre... Un exemple que je cite souvent est celui des cigognes: s'il y a plus de naissances dans les communces où il y a beaucoup de cigognes, ce n'est pas forcément parce qu'elles y ont apporté des bébés (mais peut-être simplement parce qu'elles font leurs nids loin des centre-villes, et que les jeunes couples y résident souvent, parce que c'est moins cher...). Donc, méfiance!

27 mars, 2006 19:42  
Anonymous Stephane a écrit...

D'abord, félicitations pour cet outil très instructif quand on arrive à interpréter les résultats.

D'autre part, j'aurai voulu savoir si avec le plugin de recherche Firefox, il y avait une méthode (séparation par des virgules, des points virgules ?) pour faire une recherche sur plusieurs mots en parallèle comme sur la page de recherche . En effet, les requêtes que j'effectue le plus souvent sont des comparaisons et je ne peux donc me servir du plugin.

Merci d'avance pour la réponse.

28 mars, 2006 16:49  
Blogger Jean Véronis a écrit...

Stéphane> Oui, séparez les termes par une virgule (idem dans le Nébuloscope).

28 mars, 2006 17:02  
Anonymous pascal a écrit...

excellent! J'ai testé grippe aviaire et cpe et les résultats vont bien le même sens que ce que vous aviez précedemment observé entre les émeutes en banlieue et la même grippe aviaire.
Merci pour la mise à disposition d'un tel outil.

07 avril, 2006 07:53  
Anonymous Anonyme a écrit...

J'ai essayé "CPE" et "Grippe avaiaire" dans le Chronologue. On constate bien que Villepin a réussi à vacciner le web contre la grippe aviaire!

07 avril, 2006 22:14  
Blogger P. P. Lemoqeur a écrit...

Je cherchais Chronologue. J'ai trouvé et maintenant je suis accro, addicté, T.O.Cisé...

Merci.

La statistique jubilatoire, c'était pas évident...

A bientôt...

08 avril, 2006 22:01  
Blogger P. P. Lemoqeur a écrit...

Ah! J'oubliais ...

Monsieur Véronis, aviez-vous, avant que la technique permette votre travail actuel, une idée de ce que votre projet pouvait dans son application, devenir (un poil...) subversif ?

08 avril, 2006 22:21  
Anonymous E. Lesné a écrit...

Magnifique outil ! Quel dommage que vous ne puissiez le faire agir rétroactivement afin que sur des termes et sujets un peu brûlants comme chômage, travail, exclusion on puisse se faire une idée de leur fortune variable, disons sur les 20 dernières années, et jeter les bases d'une "science" de l'euphémisme, de l'antiphrase et de la litote. Bravo tout de même.

12 avril, 2006 11:34  
Anonymous Sébastien a écrit...

Je me permets de mettre un lien vers un jeu que je viens de découvrir récemment et qui rejoint un peu le chronologue : les mots de l'infos. En fait, le principe est simple : il s'agit d'une bourse aux mots. On achète des mots quand on pense qu'ils vont faire parler d'eux dans l'actualité. Le cour d'un mot est calculé en fonction de sa fréquence dans un certains nombre de site web. Je trouvais le recoupement avec le chronologue intéressant... je ne sais pas si cela pourra vous intéresser par contre...
http://www.lesmotsdelinfo.com

26 avril, 2006 16:43  
Blogger 23heures24 a écrit...

Je clique sur le "Nouveau Plugin pour Firefox au bas de la page et Patatra !

Not Found
The requested URL /cgi-veronis/mycroft.mozdev.org/download.html was not found on this server.

Dommaaaage !

Au fait j'en profite pour poser une petite question. Olivier Ertzscheid annonce dans son blog affordance.info (http://affordance.typepad.com/mon_weblog/) "l'embauche de Jean Véronis et la reprise de son Chronologue qui devient Google Trends."
C'est vrai ?

Merci encore pour cet outil fantastique qui donne un peu de sens à cette surabondance d'information.
Pierre.

11 mai, 2006 10:23  
Anonymous Anonyme a écrit...

Bonjour,

Pourriez vous indiquer une définition plus précise du travail effectué par le Chronologue après une requête ?
Qu'entendez-vous exactement par "pages crawlées" (c'est du québécois ???).
Les pages "crawlées" correspondent-elles à celles "crawlées" par le Chornologue ou bien à ces celles "crawlées" par les internautes ?
Petite question (curiosité) : comment le Chronologue peut-il techiquement ne travailler que sur les pages "francophones" ?
Merci

Laurent

29 mai, 2006 09:35  
Blogger Jean Véronis a écrit...

Pages crawlées: ce sont les pages aspirées par le moteur quotidiennenment (avec une normalisation pour éliminer les fluctutations générales: variations saisonnieres, etc.). Contrairement à Google Trends, je ne m'occupe pas des requêtes des utilisateurs.

Pas francophones: c'est Dir.com qui fait ça, comme tous les moteurs, avec un module de reconnaissanceautomatique de la langue. Vous pouvez en faire autant sur Google ou Yahoo en réglant Langue->Français.

29 mai, 2006 09:41  
Anonymous Anonyme a écrit...

Bonjour,

Il ne fonctionne pas en ce moment, est ce normal?

21 juillet, 2006 16:42  
Blogger Jean Véronis a écrit...

>Il ne fonctionne pas en ce moment, est ce normal?

Non ;-)

Mais Dir.com est en panne ces jours-ci...

22 juillet, 2006 15:25  
Blogger NoFear a écrit...

Bonjour et bravo pour votre travail,

je voulais savoir s'il etait possible de faire la meme recherche mais sur la zone UK au lieu de FR ?

Merci.

08 août, 2006 14:50  
Anonymous Anonyme a écrit...

Excellent petit outil qui rendra de grands services. Merci.
Je mets un lien sur mes blogs.

14 septembre, 2006 16:30  
Blogger maverick75010 a écrit...

Perfide que je suis, j'ai Chronologué le "Chronologue" et le "Nébuloscope", auxquels je suis fidèle. J'ai la tristesse de vous annoncer que courbe est au plus bas! Je sais, de nouveaux outils ont accaparé l'intérêt des internautes. (outils d'une grande pertinace soit dit en passant).
Du coup perfide toujours, je me demande si, dans l'avenir,on soumettait à l'outil "Sarkozy" d'autres outils plus récents (MAM, Bayrou par ex), que deviendrai la courbe du même Sarko?

22 octobre, 2006 20:12  
Blogger FreeCorp a écrit...

Oups, il a l'air malade le Chronologue, depuis fin octobre apparemment... Je lui souhaite un prompt rétablissement ;) !

06 novembre, 2006 22:07  
Anonymous Neville a écrit...

@freecorp

Il a même l'air mort depuis début janvier : sarkozy = 0 selon le chronologue.

Ou alors, on ne doit pas fréquenter le même internet !

06 février, 2007 10:20  
Blogger XoF a écrit...

C'est beau et bien utile quand on s'intéresse à la langue...
J'ai un petit problème : quand on entre deux mots identiques, la courbe rouge et la courbe bleue ne sont pas exactement superposées, voire divergent carrément... snif...

15 février, 2007 19:01  
Anonymous Anonyme a écrit...

J'aimerais signaler que le serveur dir.com est de nouveau opérationnel. J'attends avec impatience le retour du chronologue.

20 avril, 2007 17:04  
Blogger Jean Véronis a écrit...

Oui, mais le crawler l'est-il ? le moteru fonctionne, mais il n'est plus alimenté en pages nouvelles (enfin, je vais quand même vérifier).

20 avril, 2007 17:10  
Anonymous Anonyme a écrit...

Generic Viagra
Online Generic Viagra
buy generic viagra cialis
Buy generic viagra cialis propecia
Buy generic cialis tadalafil
Generic cialis
Tadalafil
Buy generic viagra sildenafil
Generic viagra
Sildenafil
Propecia
Finasteride
Vardenafil
generic levitra
Buy generic levitra

17 juin, 2008 17:21  
Blogger micami a écrit...

Coucou !!
Je ne sais pas si je ne suis pas douée (j'ai pas tellement l'âme de l'informaticien) ou si c'est mon ordi qui est vieux, mais je n'arrive pas à effectuer ma recherche, j'aimerai savoir l'occurence du mot Bordeaux au de mars 2008 à 2009, mais je n'y arrive pas.
De plus j'aimerai filtrer cette recherche dans un journal précis genre Le Monde, est-ce possible ?

Merci de me répondre,

a toute !!

22 avril, 2009 14:50  
Anonymous Health Blog a écrit...

Monsieur Véronis, aviez-vous, avant que la technique permette votre travail actuel, une idée de ce que votre projet pouvait dans son application, devenir (un poil...) subversif ?

24 janvier, 2011 13:27  
Anonymous Iam a écrit...

De plus j'aimerai filtrer cette recherche dans un journal précis genre Le Monde, est-ce possible ?

24 janvier, 2011 13:28  
Anonymous wczasy w polsce a écrit...

Oups, il a l'air malade le Chronologue, depuis fin octobre apparemment... Je lui souhaite un prompt rétablissement ;) !

15 mars, 2011 02:08  
Blogger Jean Véronis a écrit...

Le Chronologue ne fonctionne hélas plus...

15 mars, 2011 08:19  
Anonymous stephane a écrit...

Je viens de repenser à ce fabuleux outil qu'était le chronologue en lisant cette news de Clubic sur le départ de Pierre Bellanger de Skyrock

"Nombreuses discussions également sur Twitter, où les termes « Skyrock », « Pierre Bellanger » et « Difool » figuraient mardi matin parmi les sujets en vogue en France (appelés trending topics) mardi matin."

Ralala, Twitter pourrait nous mettre à disposition un chronologue !
A moins que cela n'existe déjà ?

15 avril, 2011 00:15  

Enregistrer un commentaire

dimanche, décembre 04, 2005

Récré: Les Miss savent compter jusqu'à quatre

Si vous avez regardé TF1 hier soir, vous avez sans doute constaté que les candidates Miss (qui sont presque toutes étudiantes en quelque chose) ne savent pas trop parler... Mais par contre, Jean-Marc Morandini nous révèle sur son blog qu'elles savent compter... jusqu'à quatre, comme le montre cette photo parue à la une de TV Magazine (!):



Certains esprits chagrins y voient un geste assez vulgaire, mais je crois qu'ils ont tort. Les Miss, comme on le sait, sont jugées autant (enfin, presque...) sur leurs qualités intellectuelles que physiques, et l'une d'elles s'entraînait tout simplement au système de numération binaire, dans lequel cette configuration digitale représente le nombre quatre (j'ai présenté ce système de codage en détail il y a quelque temps):



Les gens sont tout de même méchants. Depuis quelques jours tout le monde est à la recherche de la Miss qui aurait pu faire ça. Stéphane Degor (grâce à qui j'ai découvert l'histoire) me lance même un défi. Comme je me débrouille un peu en analyse d'image, il me demande d'essayer de démêler le vrai du faux dans cette histoire. Montage? mais le responsable chez TV Mag serait purement et simplement suicidaire: c'est le licenciement pour faute grave garanti! Ou bien, sinon, quelle est la Miss mathématicienne? Mme de Fontenay menaçait de la disqualifier si elle la démasquait, et apparemment elle ne l'a pas trouvée...

Je dois dire que c'est très difficile, malheureusement, d'analyser cette image. Je n'ai que la version publiée sur le Web d'une résolution plutôt faible... Je me suis précipité sur mon kiosque à journaux, mais point de TV Magazine (ce truc-là arrive-t-il même en province?). Au vu de l'image imprécise dont je dispose, je ne vois rien qui permette de conclure à un montage (ni d'ailleurs de l'exclure). Quelques pixels un peu trop clairs sur le maillot bleu de Miss Réunion à l'arrière plan, mais c'est bien peu... Le soleil et l'ombre sont dans la bonne direction, le contraste, la luminosité et la colorimétrie correctes... Si c'est un "fake" il est bien fait.

Reste alors l'anatomie. Le corps humain a des proportions et des contraintes précises. On a bien une main droite (paume en l'air, petit doigt vers nous), d'une peau relativement claire. La majorité des commentateurs (et le Parisien) accusent Miss Bretagne (la blonde, derrière Miss Martinique), qui regarde justement dans cette direction... C'est peut-être aller un peu vite en besogne: il y a au moins une autre suspecte, Miss Ile de France (style Janet Jackson, au centre): elle a la peau un peu plus mate, mais la couleur de l'avant bras est parfaitement compatible avec celle de son buste. Cet avant-bras est trop loin me direz vous?

Voici les proportions du corps humain telle qu'on me les enseignait quand j'usais mes fonds de culotte à essayer d'apprendre à gribouiller. Depuis, le canon est devenu plus longiligne, mais c'est surtout une question de graisses, et ça ne change pas la proportion des os, qui est l'élément qui nous importe:



Si l'on reporte ces proportions sur la photo, on s'aperçoit qu'elles sont compatibles aussi bien avec Miss Bretagne qu'avec Miss Ile de France:



C'est un peu plus compliqué pour Miss Bretagne, car on ne sait pas exactement comment est orienté son torse et quelle est la direction de ses épaules, mais grosso modo, la position du bras est dans la gamme des possibles (il faut imaginer qu'elle a le coude dans le creux de la hanche). Pour Miss Ile de France, ça colle comme à l'académie: elle est de face, les épaules horizontales, le torse parfaitement parallèle au plan focal, on voit la position de ses pieds. Le rectangle que j'ai tracé en clair a exactement la proportion 2/3 à laquelle on s'attend (mettez-vous dans cette position face à une glace et mesurez, vous verrez!). Si c'est elle, elle nous regarde bien fixement et fait son coup en douce l'air de rien. Plus maline que Miss Bretagne quand même, qui se dénoncerait très bêtement par son regard. En fait, peut-être que cette dernière s'amuse tout simplement du forfait de sa copine: quand vous faites un doigt à quelqu'un vous regardez votre doigt, vous? --enfin, d'accord, vous êtes sans doute comme moi, vous ne faites jamais de tels gestes!

Moui... et si c'était ni l'une ni l'autre? Un commentateur a émis l'hypothèse chez Morandini. Effectivement, j'ai beau compter et recompter, je ne vois que 43 têtes ou portions de têtes sur cette image... Où sont les Miss manquantes, puisqu'on nous dit qu'elles étaient 45? On peut très bien imaginer une Miss légèrement penchée derrière Miss Martinique, en train de faire le fameux doigt, ce qui provoquerait l'étonnement et le regard de Miss Bretagne!

Bref, je n'en sais pas plus qu'au début, mais j'ai passé un moment bien agréable (ça tombe bien je n'avais qu'une thèse et un mémoire d'HDR à lire, mes cours à préparer pour demain, etc.). En tous cas, la Miss qui a fait ce coup a toute ma sympathie! Sacré brin de fille... J'espère qu'on saura un jour qui c'était.

Bon. Ceci un blog intellectuel, tout de même, et il faut élever le débat. Vous savez à quoi j'ai immédiatement pensé lorsque j'ai vu cette photo? A cette autre image:


Là aussi il y a une main en trop, armée d'un poignard:



Ça fait plusieurs siècles qu'on cherche le propriétaire de cette main-là, qui ne semble pourvoir appartenir à aucun des protagonistes... mais je suis sûr que vous avez lu le Da Vinci Code!

Ah, j'allais oublier: vous avez remarqué que la tête de proue de cette photo des Miss, prise bien avant le concours, est justement l'heureuse élue, Miss Languedoc. Ce n'est qu'une coïncidence, bien évidemment.

23 Commentaires:

Anonymous Aziz a écrit...

Avant d'enquêter, il faudrait déjà savoir s'il y a délit : moi, j'ai l'impression que ce doigt n'est pas un majeur mais un index adréssé à une personne hors-champ.
Par ailleurs, il me semble invraisemblable qu'une personne puisse commettre un tel geste au milieu d'une photo de groupe sans être remarquée par ses voisins.

04 décembre, 2005 19:07  
Anonymous zizi a écrit...

je viens de débarquer sur le blog, je me suis bien régalé.

04 décembre, 2005 22:38  
Anonymous stéphane a écrit...

merci Jean pour cette analyse !

05 décembre, 2005 09:44  
Blogger VinZ a écrit...

Une chose qui concerne les Miss (vu sur 3couleurs) :
Miss Aquitaine a un blog perso où elle se fait appeler Miss Ricard...

05 décembre, 2005 15:03  
Blogger Gaëlle a écrit...

Moi je penche pour miss Bretagne qui m'a l'air bien concentrée... Pas évident aussi compter 1 .. 2 .. 3 .. et 4 avant que le petit oiseau sorte de l'appareil ouf!mission accomplie! ;-)

05 décembre, 2005 16:07  
Blogger Poulos a écrit...

Magnifique, Jean ! Mais, je suis désolé de vous dire que vous avez tout faux, car voici la photo originale :
http://pierre-bon.com/IMG/Lmf.gif

05 décembre, 2005 17:05  
Anonymous Miss Tics a écrit...

NB : ne pas mettre toutes les Miss dans le même panier ;-)

05 décembre, 2005 17:52  
Blogger Luc a écrit...

Cher Jean,

Si tu veux les docs originaux en gros plan, viens voir ma note ici : Miss France : la classe !

Mais je dois dire que, comme d'habitude, ton analyse de la chose est succulente, et superbement bien argumentée !

Cordialement,

Luc

05 décembre, 2005 18:52  
Anonymous Dominique a écrit...

Le blogue de Miss Ricard a été détruit dans l'après-midi. C'est normal : tout le monde se donnait l'adresse. Toutefois, j'espère qu'il existe des copies-écran parce que cela valait son pesant de moutarde (et de vodka).

05 décembre, 2005 21:50  
Blogger Jean Véronis a écrit...

Poulos> Fantastique! merci pour le lien, je me suis tordu de rire pendant un bon quart d'heure...

Miss> Non: au moins il y a des Miss qui savent compter ;-)

Luc> Merci pour les photos (et le compliment ;-). Mais ça confirme: rien ne sent le "fake" dans cette histoire!

Dominique> Oui, mais le blog de Miss France elle-même est toujours là:
pancakes.skyblog.com. Je l'ai aspiré dare-dare: ça va être un "collector" celui-là!

06 décembre, 2005 09:32  
Anonymous Georges Briere a écrit...

Après un zoom qui m'a pris quelques minutes sous Irfanview, je suis en mesure de dire que ce doigt tendu bien haut appartient à une miss dont on ne voit que le dessus de la tête, juste en dessous de la grand blonde et juste au dessus de Miss Martinique.

On y voit clairement un bout de "dessus de tête" mi roux mi blond qui ne peux appartenir à Miss Martinique et qui est beaucoup trop excentré pour appartenir à la prolongation de la criniere de la grande blonde au dessus.

J'en conclus donc que ce doigt n'appartient donc à aucune des miss visibles sur cette photo. Reste à repertorier toutes les miss plus petites qui sont plus petites que la grande blonde et un poil plus grand que miss Martinique, rousses ou blondes chatins, et qui n'apparaissent pas dans la photo.

06 décembre, 2005 13:02  
Anonymous Jo a écrit...

Une petite précision sur TV magazine : c'est je crois le magazine télé qui a la plus grande diffusion en france, et pour cause, il est offert en supplément le vendredi dans un grand nombre de journaux régionaux (ex : Dernières nouvelles d'alsace) et même nationaux (Le Figaro).

En revanche, je ne crois pas qu'il soit vendu comme ça à l'unité, donc c'est normal que vous ne l'ayez pas trouvé en kiosque !

Au passage : bravo pour votre blog, très intéressant

06 décembre, 2005 14:17  
Anonymous Anonyme a écrit...

Miss Ranse sur skyblog, sé tro cool ... L'adresse donnée ci-dessus par Jean Véronis est un grand moment de poésie... somptueusement ridicule ! Une autre, une autre !!

Vince

06 décembre, 2005 15:16  
Anonymous MadProf[BZHash] a écrit...

Moi personnellement je compte et recompte 45 tetes sur la photo... donc ce n'est pas un des miss manquante.

07 décembre, 2005 14:39  
Anonymous Anonyme a écrit...

Pour ma part, je dirai qu'une miss a ramassé un coquillage ou un caillou et elle le tient dans le creux de sa main ...

Ouaips, je sais ça casse un peu l'ambiance ;-)

27 décembre, 2005 03:47  
Anonymous arWen a écrit...

Personnelement je trouve qu'elle aurait le bras vachement long...menfinnnn XD

28 décembre, 2005 23:31  
Anonymous Anonyme a écrit...

Moi j'ai compté... Ça me donne 43 aussi... Et puis ce doigt, il est super fort ce doigt, j'adore cette image. :P

29 décembre, 2005 23:34  
Anonymous Fanny a écrit...

Attention au blasphème! c'est la main de Marie-Madeleine!!

04 janvier, 2006 18:58  
Anonymous anne a écrit...

PFFF sa peux pas étre sophie!!!prckel est tipée alors que la main de la cadidate et blanche!!donc c'est pas la candidante MISS ILE DE FRANCE!!!!!

06 janvier, 2006 23:05  
Anonymous Anonyme a écrit...

Remarque rapide. Je n'ai pas lu tout le corpus supra (suis pressé et de passage), mais j'ai vu aux 2 dessins filaires ajoutés sur la photo que vous sembliez "élire" une miss blonde au centre (schéma jaune) ou une brune bouclée devant elle (schéma rouge) comme responsable du fameux doigt.

L'auteur de ce schéma, d'où il tire hypothèse et conclusiion, n'est manifestement pas dessinateur. Non pas en raison du dessin très sommaire, mais de l'ignorance d'un aspect qui n'échappe pas au portraitiste et à l'artiste figuratif : la perspective (distance par rapport au point de fuite).

Le schéma est tout simplement erroné parce qu'il plaque sur le premier plan des personnages situés en 4e et 5e plan sans tenir compte de la profondeur. De même, l'angle qu'offre l'avant-bras ne peut nullement être horizontal s'il s'était agi des 2 miss en question. Ce n'est pas une simple translation ! Il est donc inconcevable de dire que la blonde ou la brune puissent être l'auteur du geste.

D'après la photo, la seule miss physiquement capable du geste est l'autre blonde (très peu visible) dont on ne voit que les racines noires, à côté de la miss blonde mise en cause et cachée par une brune derrière miss Martinique.

Toujours d'après la photo, une seule miss a peut-être pu voir l'auteur du geste : la miss noire du fond derrière miss Réunion car elle est penchée à hauteur.

Une autre explication serait celle d'une personne cachée entièrement entre les miss.

Franck veillon
graphiste et chercheur
visiolab@free.fr

22 janvier, 2006 17:38  
Anonymous Laure a écrit...

Je suis tout à fais d'accord avec aziz je pense que ce "doigt" n'est pas le majeur mais plutot l'index !

28 avril, 2006 15:35  
Anonymous Anonyme a écrit...

Cherchez bien sur internet il y a une photo où elles ont toutes (ou presque)le doigt en l'air à la demande du photographe... on s'amuse comme on peut. celle ci fait causer alors que c'est juste un faux départ !!

11 mai, 2007 20:00  
Anonymous Anonyme a écrit...

Photos de groupe bras tendus.

http://gregorypouy.blogs.com/marketing/images/2152331_1.gif

23 octobre, 2007 12:33  

Enregistrer un commentaire

lundi, novembre 28, 2005

E-Pub: La RATP n'aime pas les méthodes de l'UMP

L'UMP a surpris beaucoup de monde avec sa première campagne de pubs AdWords ciblée sur des mots-clés tels que banlieues, racaille (si, pour un court instant! voir ici), sécurité, etc. L'histoire, qui a été signalée tout d'abord par Rezo et votre serviteur, a fait le tour du monde... Même les Américains, habitués à bien des formes de publicité politique, ont été étonnés (Business Week, New York Times, Today online, etc.). On peut discuter du bien-fondé du procédé, mais ce qui me surprend beaucoup c'est surtout l'absence de discussion dans le monde politique. Tout au plus, les socialistes se sont-ils mis à copier la technique (de façon assez maladroite, mais ils avaient l'esprit tourné ailleurs).

Au-delà du procédé, qu'on peut approuver ou pas en tant que citoyen, il y a quand même quelque chose que j'ai trouvé assez perturbant: parmi les mots-clés achetés par l'UMP, figuraient aussi Parti Socialiste, Jospin, François Bayrou, Montebourg, Robert Hue, PCF, Arlette Laguiller, LCR, etc. Est-ce bien loyal? Que l'on tombe sur une pub UMP en tapant Nicolas Sarkozy, très bien. Que l'on tombe dessus en tapant banlieues ou violences urbaines, il me semble que ça mérite un débat citoyen... Mais que l'on tombe sur une pub UMP en tapant François Bayrou ou Arlette Laguiller, cela me semble un peu curieux (l'inverse me surprendrait tout autant, rassurez-vous si vous êtes sympathisant UMP)! En fait, cela me rappelle l'affaire Louis Vuitton contre Google: la requête Louis Vuitton renvoyait vers des pubs de sites concurrents ou même de sites vendant des contrefaçons! Google a été condamné en février dernier pour contrefaçon et actes de concurrence déloyale. Les attendus du jugement sont extrêmement intéressants à lire [pdf]. Ce jugement faisait suite à plusieurs affaires analogues: "Bourse des vols" jugé en octobre 2003 (VIATICUM et LUTECIEL contre Google), Méridien contre Google (référé de décembre 2004) et ACCOR contre Overture jugé en janvier 2005. Google s'engage désormais à supprimer les annonces abusivement liées à des marques à la demande du propriétaire de celles-ci [voir ici].

La jurisprudence est donc assez claire sur les marques commerciales. Sur les noms d'hommes politiques et les dénominations de partis, je ne crois pas qu'aucune affaire ait jamais été portée devant les tribunaux. Ce serait amusant: PCF contre Google, etc. [comme le fait remarquer un lecteur, Parti Socialiste, Parti Communiste, etc. sont des marques déposées -- voir INPI]. Cependant, il y a quelques jours, pendant la journée de grève des transports, l'UMP étendait ses pratiques à la RATP. ResetParameters a sorti l'info avec une copie d'écran, et, lui laissant la primeur, je n'ai mis qu'un petit écho sur ce blog. La requête RATP proposait un "lien commercial" vers le site de l'UMP ("Grèves des transports: Nicolas Sarkozy vous invite à voter pour exiger un service minimum garanti!"). Or RATP est une marque déposée (en 1972, sous le numéro 1 195 253), et étant donné la jurisprudence ci-dessus, l'issue d'un litige RATP contre UMP ne ferait pas l'ombre d'un doute (la RATP ne se prive pas de faire respecter ses droits dans d'autres circonstances: exemple)...

Si je parle de tout cela aujourd'hui, c'est qu'un lecteur de ce blog vient de me faire parvenir un échange de mails qu'il a eu avec la RATP après avoir lu le billet concerné et qui éclaire l'affaire sous un jour intéressant. Nous l'appellerons Monsieur M***.

Premier message de Monsieur M*** à la RATP, apparemment à travers le site Web:
--------------------------------------
VOTRE MESSAGE ADRESSÉ À LA RATP

Expediteur : M****
E-mail : ************
Sujet : publicite_partenariat

Message :

Je voudrais attirer votre attention sur
http://www.u-blog.net/resetparam/note/58079

Il me semble que vous seriez en droit de porter plainte
http://actu.abondance.com/2005-06/google-vuitton.php


INFORMATIONS COMPLEMENTAIRES
Contact : Monsieur M***

[je coupe le reste pour respecter son anonymat]
Première réponse de la RATP:
De : - CML/AKIO-0101
Envoyé : jeudi 24 novembre 2005 09:24
À : *****
Objet : Publicite_partenariat

Bonjour,

Je transmets le lien au service concerné qui prendra les mesures adaptées.

Cordialement,

François Jeunehomme
RATP / Relations de Service
Quelques jours plus tard:
From: alain.nuffer@ratp.fr
Date: Nov 28, 2005 9:03 AM
Subject: RE : Publicite_partenariat
To: ****************

Bonjour et merci pour votre vigilance

Le nécessaire a été fait (rapidement) grace à vous et le lien n'existe plus.

Bonne journée

Cordialement

Alain NUFFER
Responsable de l'Agence de Développement Multimédia
RATP/COM

Effectivement, le lien avait disparu très vite. Arnaud Dassier, qui dirige cette campagne de communication de l'UMP (société L'enchanteur des nouveaux médias) est-il un bricoleur qui improvise sur le Net sans trop connaître les lois (et la Netiquette)? ou bien passe-t-il outre, se disant que l'appui d'un Ministre de l'Intérieur, patron du parti commanditaire, peut aplanir bien des difficultés?

Il paraît qu'Arnaud Dassier lit ce blog (il semble d'ailleurs avoir laissé un commentaire l'autre jour, mais sait-on si c'était bien lui...). Je suis tout-à-fait prêt à publier ses explications et son point de vue. Il suffit de m'envoyer un petit mail (histoire de filtrer les plaisantins).

27 Commentaires:

Anonymous toto a écrit...

Ah une bonne vieille délation bien de chez nous, ça fait chaud au coeur de voire les traditions se perpetuer, bravo Mr M. et vive la France !

28 novembre, 2005 23:31  
Anonymous michaël a écrit...

toto> « Ah une bonne vieille délation bien de chez nous, ça fait chaud au coeur de voire les traditions se perpetuer [...] »

délation : dénonciation inspirée par des motifs méprisables, dit le robert.

où sont les motifs méprisables de monsieur m., monsieur toto ?

l'ère des réseaux, dans laquelle nous sommes depuis que l'humain vit en société, connaît une transformation extrêmement profonde, structurelle, car pour la première fois, grâce aux technologies du numérique, chaque individu dispose des moyens :

- d'interpeller toute personne, physique ou morale, qui commet un acte irrespectueux, voire répréhensible ;
- d'apporter sa connaissance, son savoir, ses conseils, etc. à toute personne, physique ou morale, victime d'un tel acte.

la campagne de l'ump est légitime dans la mesure où la publicité politique est autorisée. elle devient irrespectueuse lorsqu'elle se sert du nom de ses adversaires. elle bascule dans l'illégalité lorsqu'elle détourne des marques commerciales à son profit.

la délégation de responsabilité qui fonde l'organisation pyramidale de nos sociétés démocratiques a abouti à la situation contemporaine où les individus détenteurs de pouvoirs les conservent par tous les moyens, légitimes ou non, et bénéficient d'une révoltante impunité lorsqu'ils agissent illégalement. l'intrusion des technologies du numérique provoque un court-circuit généralisé dans les hiérarchies parce qu'elles permettent à chacun de se réapproprier sa responsabilité individuelle. lorsque monsieur m envoie son mail, il agit comme un individu responsable ; responsable de lui-même d'abord, responsable des conséquences de ses actes vis-à-vis de la société, responsable du devenir de la société par sa participation active.

]m[

ps : PCF, PC et Parti Communiste Français sont des marques déposées, tout comme PS, Parti Socialiste... et même NPS Nouveau Parti Socialiste.

29 novembre, 2005 04:33  
Blogger DiogenePasCynique a écrit...

Bonjour,

D'abord félicitations pour votre site, je fais rien qu'à apprendre des choses intéressantes ! Concernant la réponse des moteurs de recherche sur des marques commerciales, j'ai été confronté à ce problème (voir : http://restructuration.blogspot.com/2005/11/il-faut-positiver.html#113276893850588396, dans les commentaires, et le billet suivant). J'ai essayé de résoudre le problème, mais ma faute principale semble être d'avoir renseigné la balise meta "keywords" et d’avoir essayé (je ne suis pas spécialiste) de référencer mon blog correctement ! Bien sûr, je suis d'accord avec vous sur le problème du détournement fait sciemment en utilisant la fonction adwords, mais dans mon cas, je ne me sens pas vraiment responsable du problème de positionnement d’un site à but commercial. Evidement, je de défends absolument pas les excès que vous décrivez !

Cordialement.

29 novembre, 2005 07:57  
Blogger all a écrit...

Google c'est planté l'UMP a acheté le mot RAP et pas RATP

29 novembre, 2005 09:53  
Anonymous Dominique a écrit...

À signaler le fait que le sigle de la RTM avait été acheté lui aussi par l'UMP. Cela a disparu pendant le week-end.

29 novembre, 2005 10:10  
Anonymous Frondeur a écrit...

Le jugement du procès "Vuitton contre Google" n'a à peu près aucun rapport avec l'utilisation d'Adwords par l'UMP, car dans l'affaire Vuitton le problème unique était la contrefaçon: la vente de produits "contrefaisants" (comme disent les attendus) proposés pour une recherche de la marque "vuitton".

L'UMP ne cherche pas à vendre des T-shirts du PS au rabais, ni à se faire passer pour un autre parti en orthographiant son nom de façon fantaisiste (partii comuniste low price!)

La concurrence déloyale serait peut-être plus appropriée, mais il faudrait admettre que le code de la consommation s'applique au débat politique: ce serait assez cocasse.

Ne peut-on pas considérer au contraire que ce genre de pratiques enrichit le débat public, et surtout qu'on ne peut parler de débat que lorsque des personnes se parlent qui sont d'un avis différent? Si les partisans de tel ou tel parti ne sont autorisés que d'adresser la parole aux cotisants du même parti, quel intérêt cela a-t-il, pour la démocratie en général, et pour eux-mêmes en particulier?

29 novembre, 2005 10:51  
Anonymous YR a écrit...

@frondeur :

Ainsi donc l'envoi de propagande politique par courriel et le référencement AdWords de marques déposées, détournées vers un site de promotion d'un parti politique seraient des moyens d'"enrichissement du débat public" ?

Que c'est intéressant !

Ce qui est particulièrement intéressant, c'est que la LCEN (loi pour la confiance en l'éonomie numérique ???) ne dit mot des pratiques politiques sur les réseaux, bien qu'elle fut lancée par le président de l'UMP en place, principal agitateur des réseaux récemment.

La politique n'étant pas une marchandise, la LCEN ne s'applique pas. Sauf que... Sauf que le fait de recevoir de la propagande politique reste soumis au bon vouloir des recevants, et que le fait de cliquer sur RATP en s'attendant à obtenir le plan du métro parisien et se retrouver sur la tronche d'un présidentiable n'a rien d'anodin.

Mais la fin justifiant les moyens depuis Machiavel, j'imagine qu'il se trouvera d'autres frondeurs pour réclamer encore plus de pourriels et de liens incongrus. La liberté des uns commencent où s'arrête celle des autres, et réciproquement.

YR

29 novembre, 2005 11:54  
Anonymous Herode a écrit...

Ne peut-on pas considérer au contraire que ce genre de pratiques enrichit le débat public ?

Cela me semble douteux. L'insertion de publicités ou le detournement de mots-clés ne participe en aucune manière au débat. On reste dans le domaine du monologue, de la communication "push", du spam en somme.

Par contre, cette affaire est intéressante dans la mesure où elle permet d'apporter un nouvel éclairage à ce phénomène. Je sais bien que Jean Veronis ne cherche pas spécialement à s'en prendre à l'UMP, ni à un autre parti. Néanmoins, je suis frappé par la différence de traitement qui est faite, ici et sur de nombreux sites, entre cette campagne de l'UMP d'une part, et les techniques de Google-bombing d'autre part, ces dernières ayant - semble-t-il - les faveurs du public.

Or, dans les deux cas, la démarche reste essentiellement la même.
a/ Elle repose sur le détournement de mots-clés (et d'information, au sens plus large du terme).
b/ Elle vise un but politique.

Accessoirement, on constatera que 100% du Google-bombing est fait contre des gens ou des partis dits de droite, et qu'il provient de réseaux marqués à gauche. Qu'un parti de droite, aujourd'hui, procède au même type de détournement, me semble être un simple et prévisible retour de bâton. Reste le problème de fond : cette pratique est-elle condamnable en soi (auquel cas le Google Bombing devrait être villipendé lui aussi) ou est-elle légitime (auquel cas la campagne de l'UMP ne devrait guère soulever l'indignation) ? Ou pour le dire d'une manière plus volontairement polémique : cette pratique est-elle ignoble quand elle vient de droite, mais sympathique quand elle vient de gauche ?

29 novembre, 2005 12:08  
Anonymous mopt a écrit...

La différence majeure entre le google bombing et l'utilisation "abusive" des adwords google par l'UMP n'est pas une différence droite/gauche, mais une différence de nature. Les adwords sont une action délibéré du parti lui-même, avec rétribution sonnante et trébuchante tandis que le google bombing est une oeuvre peut-être plus "désintéressée" de particuliers.

29 novembre, 2005 12:41  
Anonymous Nagual a écrit...

« Ou pour le dire d'une manière plus volontairement polémique : cette pratique est-elle ignoble quand elle vient de droite, mais sympathique quand elle vient de gauche ? »

Sans parti-pris, je n'ai pas le souvenir d'avoir reçu un SPAM d'un candidat de gauche, ni du centre d'ailleurs ; ni le souvenir de liens vers un parti de gauche sur des sujets racolleurs (si ce n'est anecdotique)... Vous faites dans votre tentative d'apologie de l' e-campagne UMP une confusion entre des pratiques de professionnels de la com. et une forme de contre-pouvoir spontanné réagissant devant ce qui apparaît comme une méthode douteuse : il y a une franche différence entre une action stratégique de prise de territoire rationnalisée, par tous les moyens, et celle consistant à lui résister avec les moyens du bord.

Nagual.

29 novembre, 2005 12:50  
Anonymous Frondeur a écrit...

Le Google Bombing est à mon avis tout aussi peu condamnable que l'achat de mots-clé adwords par l'UMP: car ou bien on est pour la liberté, la liberté des google bombers et la liberté des partis politiques de "communiquer", ou bien on est contre, effectivement, et il faut condamner les deux pratiques.

Mais le Google bombing est vraiment du détournement de mots-clé, c'est une action subversive et anonyme (résultant d'une action collective), tandis que l'achat d'Adwords se fait au grand jour...

'yr' cite "le fait de cliquer sur RATP en s'attendant à obtenir le plan du métro parisien et se retrouver sur la tronche d'un présidentiable" mais on ne voit pas à quoi il fait référence: s'il y a des personnes qui croient qu'en cliquant sur une pub pour l'UMP, signalée comme telle, sous la bannière "liens commerciaux", elles vont obtenir le plan du métro parisien, il me semble qu'on serait en droit de doubler leurs impôts, pour cause de naïveté irréparable...

Quant aux spams ("pourriels" dans le vocabulaire francophonement correct), il est extrêmement facile de s'en protéger (can you say bayesian filtering?), tandis que les mesures liberticides mises en place pour tenter de les éradiquer ne manqueront pas de faire des dommages collatéraux très-horrifiques.

29 novembre, 2005 14:05  
Anonymous MKe a écrit...

frondeur : l'ump ne cherche certes "à vendre des T-shirts du PS au rabais", ni meme des tickets de métro

par contre elle utilise (utilisait) le nom de l'entreprise RATP pour mieux nuire à la RATP en tant que service public..

29 novembre, 2005 14:35  
Anonymous blop a écrit...

J'ai essaye : Montebourg, PCF et LCR ne marche pas (ou plus).
Par contre "Parti Radical", "Lutte Ouvriere", "Noel Mamere", "de Villiers" marchent tres bien.

Et la question interessante devient : "qui a ete oublie ? et pourquoi ?"
(Vraiment, vous ne voyez pas ? Fermez un oeil, ca aide...)

Et puisqu'on s'interesse aux rapport de l'UMP avec le web, quels sont les "mots cles" du site web de l'UMP (il suffit de demander a voir la "source" de la page web) ?
...Roulement de tambour....
'sarko,sarkozy,sarkosy,brice,hortefeux,ump,union,mouvement,populaire,mehaignerie,gaudin,politique,retraite,famille,securite,reforme,decentralisation,economie,entreprise,justice,chantier,cancer,handicapes,prisons,environnement,integration,chirac,europe,election,politique,ministre,jeunes,federations,gouvernement,chomage,sante,rpr,udf,dl,raffarin,senat,assemblee,parlement,communique,campagne,agenda,adhesion,citoyen,sondage,europeen,forum,cyber,vote,presidentielle,portfolio,photo,photographe,sarkozy,nicolas,insertion,national,region,cantonal,equipe,retraite,senior,femme,politicien,elus,debat,discours,video,congres'

Bon, hormis qu'on y trouve deux fois "sarkozy" et une fois "sarkosy". Il est amusant de voir que juste apres on trouve "brice" et "hortefeux". Mais si...! Brice Hortefeux, ministre delegue aux collectivites territoriales, mais surtout bras droit du precedent. Et puis surtout, encore une fois, dans la liste des noms propres, il semble en manquer un... non ? Allez, je vous aide: pendant que Brice Hortefeux devenait ministre de je-sais-plus-quoi, lui devenait premier ministre...

29 novembre, 2005 14:40  
Anonymous nagual a écrit...

« les mesures liberticides mises en place pour tenter de les éradiquer ne manqueront pas de faire des dommages collatéraux très-horrifiques. »

Bien d'accord avec vous ! Sachant que les mesures liberticides ne manquant pas de faire des dommages collatéraux sont, pour le moment, le produit du gouvernement actuel dont les membres éminents font de la "communication", le google-bombing m'apparaît être une manoeuvre bien dérisoire pour les désamorcer.

29 novembre, 2005 15:38  
Blogger all a écrit...

Position-squatting = délit de contrefaçon

Mais personne n'ose porter plainte contre l'UMP

29 novembre, 2005 16:10  
Anonymous Herode a écrit...

Mon cher nagual, je ne cherche pas à faire "l'apologie de l'e-campagne" de l'UMP, pour une raison bien simple : je trouve ces détournements détestables. Je cherche juste à pointer le caractère assez hémiplégique de la plupart des condamnations.

Les actions de google-bombing ne sont d'ailleurs pas plus désintéressées que la e-campagne de l'UMP. Elles fonctionnent juste sur un autre mode. Ce qui les rend sympathiques (à certains), c'est leur positionnement politique. A ce propos, j'attends toujours de trouver sur la Toile une condamnation quelconque de la e-campagne du PS. Accessoirement, je suis également prêt à parier que le jour où des sympathisants d'extrême-droite disposeront des réseaux nécessaires pour du google-bombing, on ne parlera plus de "résistance au système" mais sans doute de mépris des internautes, de piratage de l'information etc. On aura raison, d'ailleurs. On aurait tout aussi raison d'en faire autant aujourd'hui.

Quant à savoir comment s'opposer à ces phénomènes... Comme l'observe mopt, il est très difficile de réguler cela sans courir le risque de mettre en place des mesures potentiellement liberticides. Je pense tout de même qu'il y a des points d'attaque possibles. Par exemple une réflexion sur un éventuel statut-juridique du mot-clé, par opposition à l'usage normal du mot dans un texte. Mais ce serait là un vaste et délicat débat, qui ne tiendra pas bien sur un commentaire de blog ;o)

29 novembre, 2005 16:36  
Anonymous YR a écrit...

@frondeur
s'il y a des personnes qui croient qu'en cliquant sur une pub pour l'UMP, signalée comme telle, sous la bannière "liens commerciaux", elles vont obtenir le plan du métro parisien, il me semble qu'on serait en droit de doubler leurs impôts, pour cause de naïveté irréparable...

C'est marrant çà, parce que moi, quand je vois RATP écrit en bleu et souligné, je vois un lien vers la RATP, et pas vers un parti politique. Quand bien même il serait écrit en dessous que "non, non, c'est pas vers la RATP que pointe ce lien mais vers un parti qui utilise cette marque pour récupérer des adhérents potentiels".

Je ne doute pas qu'il s'agit de profiter d'une certaine actualité pour se présenter en première ligne sur les pages g00gle, ce qui est assez bien joué, en terme d'exposition.
Mais il me semble également évident qu'il s'agit de profiter de l'inattention de certaines personnes cherchant des renseignements liés à la RATP (ou tout mot clé approchant) et donc de tromper l'internaute.

Sur ce, je préfère ma naïveté insondable aux calculs politiciens de certains. Si en plus çà double ma prime pour l'emploi, c'est parfait ;o)

29 novembre, 2005 17:11  
Blogger all a écrit...

C'est quoi ce spam avec plein de liens ? j'ai vu ça aussi chez Eolas

29 novembre, 2005 18:10  
Anonymous Nagual a écrit...

Cher Hérode. Il est vrai que je m'étais focalisé sur les derniers évènements et vous avez bien fait d'ajouter quelques points de réflexion. Pour reprendre, entre l'outil et les motivations la confusion ne doit pas demeurer : nous pouvons tout aussi bien tuer un homme qu'agrémenter un appartement avec un vase, ce dernier n'est pourtant pas incriminé. Statuer sur l'utilisation d'un mot clef ne devrait se faire que dans des circonstances clairement préjudiciable envers un individu ou une collectivité et surtout au cas par cas, mais il est vrai ici que les responsabilités seraient délicates à déterminer, et plus certainement dans le bureau d'un legislateur que sur un blog (quoique... il y en des très bien ;) ).

30 novembre, 2005 01:50  
Anonymous Sarah a écrit...

...ou bien on est pour la liberté, la liberté des google bombers et la liberté des partis politiques de "communiquer"...

Il y a une différence entre la liberté d'individus (les google bombers) et la liberté d'une institution (les partis politiques).

Ces dernières sont tenues à un certain respect des citoyens, et ne doivent pas profiter des moyens dont ils disposent pour abuser des internautes.
Quand ils se mettent carrément dans l'illégalité, comme avec les spams, ou les pourriels, de Nicolas Sarkozy, cela devient scandaleux !

30 novembre, 2005 16:41  
Anonymous Alexandre a écrit...

Contrairement à ce que dit yr plus haut, je pense que les liens ne sont pas là pour être cliqués par mégarde mais pour faire des associations d'idées rapides. On connait la puissance des images subliminales et je doute fort qu'un lien vers l'UMP lorsque l'on cherche RATP ou SNCM nous laisse indifférent. Le rapport sera rapidement fait, au moins de manière implicite dans nos cerveaux. Et lorsque l'on dira RATP, un reflexe quasi-pavlovien nous fera adhérer à l'UMP. Cependant on ne peut adhérer qu'une seule fois et vu le prix, il vaut mieux éviter. Le fait d'utiliser une marque pour faire sa pub n'est pas réprimandable. Un designer, Ora Ito, a été lancé en faisant des contrefaçons virtuelles d'objets de marques. Et Télé2 fait ses campagnes de pub sur le dos de France Télécom ou SFR et Orange. Mais bon, il faut être bête pour taper ratp dans Google puisqu'il suffit d'abord d'essayer une adresse banale, http://www.ratp.fr, par exemple et on tombe directement sur le site.

30 novembre, 2005 18:25  
Anonymous sriou a écrit...

1 --- À propos des sources

@YR

C'est marrant çà, parce que moi, quand je vois RATP écrit en bleu et souligné, je vois un lien vers la RATP [...]

Effectivement, c'est marrant ! Parce que moi, quand je VOIS la copie d'écran [disponible ici --- pour éviter d'aller rechercher plus haut dans l'article], je vois Grèves des transports écrit en bleu et souligné. Ce qui n'est pas la même chose que RATP écrit en bleu et souligné...


2 --- Effet rhétorique

@ALEXANDRE
On connait la puissance des images subliminales

Il ne me semble pas que nous soyons dans un cas d'images subliminales. Faire appel au « pouvoir » des images subliminales dans cette argumentation ne me parait pas légitime.


3 --- Pour nos amis ethnométhodologues

@ ALEXANDRE

Mais bon, il faut être bête pour taper ratp dans Google puisqu'il suffit d'abord d'essayer une adresse banale, http://www.ratp.fr,

Même pas besoin d'aller jusqu'au ratp.fr, ratp suffit ! C'est vraiment plus pratique...


4 --- Considérations liminaires sur l'analyse d'un document

@ un peu tout le monde ;-)

Pour l'influence ou non des publicités dans Google.

a) Il faut prendre en compte le côté pratique (praxique même --- pour ceux qui utilisent la notion de praxis) de l'utilisation de son navigateur, de l'internet et de l'artefact ordinateur en général. En ayant pris cela en considération, il faut également s'intéresser à la taille de l'écran (en fait de la fenêtre du navigateur). Je ne suis pas certain qu'avec une taille de 1024 x 854 l'effet d'influence des publicités soit aussi important. J'ai testé les recherches google en 800 x 600 : la proximité des publicités peut interférer la lecture des résultats. En 1280 x 854... elles sont vraiment lointaines. Si des personnes de chez FT [ils ont des super-lunettes ;-)] (ou des ethnométhodologues) peuvent tester où le regard se pose vraiment dans la consultation d'une réponse google, on aura une vrai réponse... (Je viens de donner une idée aux publicitaires là ?)

b) Par contre, je trouve plus « gênant » le fait d'avoir directement la pub juste au dessus des résultats, par exemple si l'on recherche achat ordinateur apple ...

01 décembre, 2005 16:06  
Anonymous MKe a écrit...

Bien bien.

Sinon, quelqu'un peut m'expliquer CA ?

01 décembre, 2005 18:39  
Blogger Jean Véronis a écrit...

MKE> Très curieux (ce n'est pas un lien commercial). Je n'ai pas entendu parler de MSN bombing pour l'instant... En tous cas quelqu'un est intervenu et l'UMP ne sort plus (on l'a encore sur la requete porn sarkozy).

02 décembre, 2005 08:54  
Blogger Jean Véronis a écrit...

Bonjour à tous. Il y a eu décidément beaucoup de commentaires sur ce billet, ce qui montre que cette nouveauté médiatico-politique mérite un débat! Je n'ai pas pu réagir au fur et à mesure, parce que j'ai eu une semaine horriblement chargée (si! je bosse un peu en dehors du blog ;-).

Je remercie Hérode de souligner que je ne cherche pas à m'en prendre spécialement à l'UMP. Croyez-moi, je n'hésiterai pas à épingler d'autres partis ou tendances si l'occasion se présente.

Ceci étant, on "s'en prend" toujours plus au pouvoir en place. C'est une tradition dans tous les pays démocratiques, et je crois qu'elle est saine! Justement, pour faire le lien avec un autre thème abordé dans les commentaires, il me semble que la différence avec le "Google bombing" est bien celle-là. Les techniques se ressemblent (jusqu'à un certain point) mais elles se distinguent par un facteur primordial: leurs auteurs! D'un côté nous avons une campagne du pouvoir en place (avec un curieux mélange des genres entre un parti et un ministre de l'Intérieur, qui donne à la chose un petit côté orwellien), de l'autre une action humoristique due à des agitateurs impertinents. Je crois que l'impertinence --les Guignols, les Coluche-- sont nécessaires aux démocraties... Les pays où on ne peut pas faire ça sont la Chine, l'Iran ou la Corée du Nord.

Merci en tous cas pour la qualité et le ton de vos commentaires: sur d'autres forums et sur des thèmes analogues le débat se résume à peu près à l'invective et à l'insulte... C'est bon de pouvoir laisser un billet comme celui-là (sujet chaud) sur la première page, et de pouvoir revenir quelques jours après sans trouver un pugilat électronique généralisé. Vraiment merci à tous (et heureusement que nous ne sommes pas tous d'accord)!

02 décembre, 2005 09:47  
Anonymous Anonyme a écrit...

Firefox 1.5 + CustomizeGoogle et hop plus d'AdWords.

02 décembre, 2005 17:13  
Anonymous hermes a écrit...

sriou: "Si des personnes de chez FT [ils ont des super-lunettes ;-)] (ou des ethnométhodologues) peuvent tester où le regard se pose vraiment dans la
consultation d'une réponse google, on aura une vrai réponse..."

La societe EyeTools a fait des recherches dans ce sens ( http://blog.eyetools.net/eyetools_research/ ), justement sur les resultats de google : http://www.eyetools.com/inpage/research_google_eyetracking_heatmap.htm

Par contre ceux ci ne prennent pas en compte (a premiere vue, je n'ai pas lu le detail) la resolution de l'ecran.

Lien vers une "heatmap" en haute resolution : http://eyetools.com/blog/images/google/eyetools_google_search.jpg

05 décembre, 2005 12:34  

Enregistrer un commentaire

jeudi, novembre 24, 2005

Texte: Nuages dynamiques

Les lecteurs assidus de ce blog auront noté mon intérêt pour les représentations graphiques du texte sous toutes ses formes. Les nuages de mots [voir dialogue, banlieues1, banlieues2, Chirac] me paraissent par exemple être très prometteurs pour la visualisation de l'information et la navigation -- mais ils sont tout de même un peu rustiques au niveau graphique! Quand j'ai découvert (voir ici) l'affiche dynamique réalisée par Marc-André pour leroidelacapote.com [sur une idée de Jared Tarbell], j'ai eu un déclic dans ma petite tête: j'ai vu dans cette animation plus qu'une simple pub. Ne pourrait-on réutiliser l'idée pour visualiser le champ sémantique de textes? Il suffirait d'injecter dans l'animation les mots les plus fréquents (à part les mots-outils), de rendre les liens cliquables, etc. J'ai suggéré l'idée à Marc-André, en lui envoyant mes "mots des banlieues", et il m'a renvoyé ce superbe "nuage dynamique" (les mots émergent tout doucement, c'est exprès ;-) :






Rechargez la page pour obtenir une autre représentation
Clic droit pour zoomer à l'infini !

Les mots qui apparaissent représentent l'univers lexical des blogs francophones à propos des banlieues (voir méthode ici). Chaque mot est cliquable, et renvoie vers les blogs recensés par Technorati. Contrairement à mes premiers essais de nuages façon TagCloud, la taille ne reflète pas ici la fréquence, mais est aléatoire: on a une nouvelle image à chaque rafraîchissement de la page, et je trouve cette part d'aléatoire fascinante. Une nouvelle lecture émerge à chaque fois... L'oeuvre ouverte.

J'avais un peu tendance à avoir une aversion viscérale pour Flash: sites lourds qui plombent votre navigateur, impossibles à indexer, etc. Mais en y réfléchissant bien, c'est peut-être un préjugé qu'il faudrait que je réexamine de plus près. Tout d'abord, j'ai été extrêmement étonné de voir que ce fichier Flash ne "pèse "que 13 ko. Rien du tout par les temps qui courent: moins que bien des images jpg ou autres. Côté indexation, certes Flash pose un problème aux moteurs, mais ai-je vraiment envie que Google et les autres viennent indexer cette liste de mots? Je n'en suis pas encore à créer tout mon blog en Flash, rassurez-vous! Mais il y a peut-être des usages de Flash (représentations sémantiques, couplage avec des "tags", intégration de fils RSS, etc.) qui méritent un examen plus approfondi. Est-ce que finalement le fameux Web 2.0 avec lequel tout le monde se gargarise ces temps-ci, ce n'est pas un ensemble d'efforts pour trouver des technologies variées qui nous fassent sortir du carcan d'un bon vieil HTML qui nous paraît chaque jour un peu plus limité et un peu plus poussiéreux ?

Flash y aura-t-il sa place? J'aimerais bien savoir ce que vous en pensez.

Un grand merci à Marc-André et longue vie au Roi de la Capote !

30 Commentaires:

Blogger all a écrit...

[La page est lente à charger]


Clic !

24 novembre, 2005 18:57  
Blogger Eric Baillargeon a écrit...

Le Big Picture sémantique de CNET News est aussi un des rares exemples où je trouve l'utilisation du Flash assez bonne pour la visualisation de l'information et la navigation entre les articles publiés.

24 novembre, 2005 19:17  
Anonymous michaël a écrit...

« on a une nouvelle image à chaque rafraîchissement de la page, et je trouve cette part d'aléatoire fascinante. Une nouvelle lecture émerge à chaque fois... »

sur le plan esthétique, la réussite est indéniable ; sur le plan du sens, je serai plus réservé. chaque "nouvelle lecture" en est-elle vraiment une ? si tu entends par là que cette part d'aléatoire, en quelque sorte un point de vue de la machine porté sur le lexique extrait par les automates, donne une chance à un mot peu fréquent de nous sauter à l'oeil, pourquoi pas. mais ce résultat pourrait aussi être atteint par des processus pilotés et non par l'aléatoire.

« Flash y aura-t-il sa place ? »

en soi, la technologie flash est remarquable. mais, comme pour toute technologie déployée sur Internet, il me paraît plus important de contribuer à la promotion et au déploiement de standards ouverts, en l'occurrence le format scalable vector graphics (svg), plutôt que de favoriser l'adoption d'un format propriétaire comme flash.

a]m[+

24 novembre, 2005 19:25  
Blogger Jean Véronis a écrit...

All> Les mots apparaissent tou doucement mais c'est exprès (j'ai ajouté un petit avertissement dans le texte). Sinon, je n'ai pas l'impression que ça plombe la pge. 13 ko, ça n'est pas grand chose.

NetDisaster: Excellent! J'aime bien celui-là aussi!

24 novembre, 2005 19:28  
Blogger Jean Véronis a écrit...

Eric> Oui, je trouve Big Picture assez réussi moi aussi (je voulais en parler, et puis les journées n'ont que 35 heures, alors c'est parti aux oubliettes...)

24 novembre, 2005 19:30  
Anonymous Luc Bentz a écrit...

Superbe ! Un bonheur pour ce traitement des mots, d'autant plus apprécié que je suis personnellement totalement infoutu d'imaginer comment mettre en oeuvre l'appareillage technique et intellectuel (procédure) qui est derrière. Chapeau !

24 novembre, 2005 19:45  
Blogger Jean Véronis a écrit...

Luc> Merci, c'est gentil!

24 novembre, 2005 21:11  
Blogger Jean Véronis a écrit...

Michaël> si tu entends par là que cette part d'aléatoire [...] donne une chance à un mot peu fréquent de nous sauter à l'oeil: oui, tout à fait! L'inconvénient des TagClouds est qu'ils imposent une lecture unique et figée. les mots peu fréquents sont absents ou enfouis. Je suis d'accord: d'autres mécanismes sont sans doute imaginables pour arriver à un même résultat.

format propriétaire: complètement d'accord. Souhaitons que SVG se développe (je crois qu'Adobe le soutient, ce qui n'est pas négligeable).

24 novembre, 2005 21:14  
Anonymous christophe a écrit...

Je me joins à Michaël. D'accord, il y a des emplois très judicieux de Flash, mais on ne peut pas oublier que c'est un format fermé et propriétaire : tout le contraire du web qui repose sur des formats et des protocoles ouverts.

24 novembre, 2005 21:15  
Blogger Jean Véronis a écrit...

Christophe> Nos messages se sont croisés. Bien d'accord sur la question des formats ouverts!

24 novembre, 2005 21:19  
Blogger вирус a écrit...

Mille bravos! L'aléatoire semble effectivement mieux mettre en valeur la diversité des lectures possibles du textes. Il y a toujours cette ambivalence de la relation Forme / Fond: une forme récurrente peut être saillante, mais aussi - à l'inverse - être à se point répétée et usée qu'elle s'en trouve au contraire reléguée au statut fond ; d'ailleurs, cette dernière position de fond, à son tour, est ambivalente : "information" neutralisée ou, a contrario, présente de manière presque subliminale...
Vos prouesses techniques font naître l'envie de voir même des procédés en plus: la couleur et même le relief pourraient peut-être capter la fréquence de l'item (qui n'en reste pas moins une donnée importante, indépendamment de son interprétation), voire d'autres dimensions (lexicales par exemple).
En fait, de la première représentation demeurent deux seules choses qui me paraissent nécessiter une réflexion: la linéarité, bien sûr, mais aussi et surtout: la réduction de la matière du texte en mots clefs figurés par des infinitifs, des adjectifs et des substantifs sans articles. Je pense qu'il faut réfléchir à ce qui se passe à cette étape, pour l'instant un tantinet arbitraire.

24 novembre, 2005 22:55  
Blogger вирус a écrit...

(zut, pardon, plein de fautes de frappe: "lectures possibles du texte", "reléguée au statut de fond"; d'autres sans doute... pardon, je ne m'habitude pas à cette interface si peu pratique).

24 novembre, 2005 22:58  
Anonymous Alex a écrit...

Ces présentations ne sont pas très claires. Les mots qui tombent au hasard sont assez peu réalistes comme 'bois' par exemple. il faudrait pouvoir combiner le Tag cloud et ce genre de présentation tout en jouant sur le hasard. Une petite remarque, concernant les favicons de votre site, que vous pourriez personaliser.

24 novembre, 2005 23:18  
Blogger Jean Véronis a écrit...

вирус> réduction du texte aux infinitifs, des adjectifs et des substantifs sans articles: oui! c'est la pratique traditionnelle en matière d'extraction de mots-clés, mais elle pose fortement problème. Mon billet banlieues2 était une tentative pour en sortir (un peu)... Mais c'est tout un secteur de recherches qui se dessine ici (et sur lequel la communauté est peu avancée).

25 novembre, 2005 07:12  
Blogger Jean Véronis a écrit...

Alex> bois est un bug, qui provient de la segmentation, à tort, de clichy-sous-bois. Pas très compliqué à améliorer.

il faudrait pouvoir combiner le Tag cloud et ce genre de présentation tout en jouant sur le hasard: oui c'est tout à fait ma perception.

25 novembre, 2005 07:13  
Anonymous MBt a écrit...

"Clic droit pour zoomer à l'infini !"
N'est-ce pas un peu prétencieux ?
Après quelques clics on arrive vite à "l'infini"...;o)
me tromperais-je?

25 novembre, 2005 09:42  
Anonymous Anonyme a écrit...

« les mots peu fréquents sont absents ou enfouis. »
On ne peut pas repprocher ça au TagClouds puisque c'est justement leur raison d'être !
L'aspect aléatoire est certe artistique, mais l'objectif de la représentativité de la fréquence est perdu.

« L'inconvénient des TagClouds est qu'ils imposent une lecture unique et figée. »
Ne pourrait-on pas faire des TagClouds avec l'esthétique du "nuage dynamique" mais en gardant une représentativité de la fréquence, non pas directement proportionnelle, mais probabilistiquement proportionnelle ? Ainsi, la taille des mots reste statistiquement proportionnelle à leur fréquence mais la lecture n'est plus figée. A chaque rafraîchissement, le "nuage dynamique" change, tout est restant représentatif de la fréquence des mots ...

Laurent

25 novembre, 2005 09:58  
Anonymous erwan a écrit...

Pour ce type de représentation, un javascript peut être employé assez facilement, les mots étant encapsulés dans des div avec des propriétés de style permettant de jouer sur leur taille, leur position, et pourquoi pas aussi sur leur couleur en faisant varier la luminosité ?
Le coté artistique est sympatique, mais le signifiant m'est plus intéressant.

25 novembre, 2005 11:49  
Anonymous Catweed a écrit...

Personellement, je n'aime pas Flash car il est très mal optimisé sous MacOS X et mon pauvre G4 à 400mhz rame comme c'est pas permis :(

25 novembre, 2005 14:35  
Anonymous olivier a écrit...

Salut Jean,
je crois que je t'ai trouvé de quoi faire un très joli nuage :-)

25 novembre, 2005 16:16  
Anonymous max a écrit...

Pour rendre à César ce qui est à César, l'idée de cet assemblage de mot vient de l'artiste Jarred Tarbell (qui distribue en plus son code en open-source) L'oeuvre en question.

En ce qui concerne Flash et le sempiternel "SVG c'est mieux", Flash progresse très vite et depuis la version 5 (2000) ne se résume plus à un outil d'animation vectoriel. C'est aujourd'hui plus proche d'une machine virtuelle à-la-java capable de se connecter à des webservices, de lire du XML de manière asynchrone (depuis 2000 !). Ce qui fait la puissance de Flash, c'est la qualité des outils de développement de Macromedia, qui ciblent les developpeurs comme les 100% graphistes (ce qui manque cruellement à SVG), mais c'est aussi son format OUVERT (mais propriétaire) qui permet à n'importe qui de générer des SWF; la communauté Open-Source Flash est d'ailleurs très forte : OSFlash

28 novembre, 2005 11:11  
Blogger Jean Véronis a écrit...

Max> Merci pour le lien vers Jarred Tarbell, que je ne connaissais pas. J'ajouterai un petit lien dans le billet. Très intéressant.

Flash/SVG: merci aussi. Débat à suivre!

28 novembre, 2005 11:53  
Blogger bd a écrit...

Bonjour jean,

Je suis tres impressioné par votre nuage dynamique. Je lui plusieurs applications dans differents univers. Pourrions nous en parler ensemble ?

Sincerement

benoit

ps: votre blog est une merveille merci de tant de generosite dans votre investissements...

29 novembre, 2005 16:51  
Anonymous Marc-André a écrit...

Ce qui a été à César est toujours à César, Max! J'ai déjà laissé un commentaire dans le billet précédent, je vais donc résumer:
Je n'ai JAMAIS prétendu que ce code était le mien...
...Les redresseurs de torts feraient mieux de connaître les règles de la communauté Opensource... Le Copyright est toujours dans le code utilisé et fourni à Monsieur Jean Veronis.
Essayez donc de faire avancer les mots au lieu de chercher la petite bête...

Marc-André

01 décembre, 2005 22:50  
Anonymous Max a écrit...

Marc-André : Pardon, je n'ai jamais voulu dire que vous aviez volé le code de Jarred; celui-ci est d'ailleurs tellement connu dans la communauté Flash que le plagiat est à mon sens impossible ;) D'ailleurs s'il fournit ses sources, c'est bien pour qu'on puisse les ré-utiliser et les étendre, et l'application qui en est faite ici et très judicieuse.

02 décembre, 2005 11:37  
Anonymous François-Xavier a écrit...

Comme que le flash est cliquable, on ne peut plus déplacer l'animation une fois celle-ci agrandie. Dommage.

02 décembre, 2005 17:31  
Anonymous sakura a écrit...

Voilà une idée que les dadaïstes, dont je viens de voir l'expo à Beaubourg, n'auraient pas renier, ni même les futuristes avec les mots en liberté. Sauf qu'à un alignement horizontal, ils auraient sans doute préféré une oblique ou une diagonale ;)
Par contre je ne m'attendais pas tomber toujours sur le même site quand je clique sur un mot; Peut-être que c'est le jeu mais même si les pages sont différentes, je pensais naviguer vers différentes adresses. En tous cas je vois déjà là tout un poème!
Super les nuages dynamiques!
Quand à la technologies Flash et oui il y en a qui sont pour, d'autre contre... mon avis? c'est un outil, avant tout, l'indexation pose un problème certes, et la souplesse de cet outil offre aussi de gros avantages.

02 décembre, 2005 23:02  
Anonymous Anonyme a écrit...

...Les redresseurs de torts feraient mieux de connaître les règles de la communauté Opensource... Le Copyright est toujours dans le code utilisé et fourni à Monsieur Jean Veronis.
Une des règles de la communauté opensource, est aussi le respect ... reprendre un code, qui, à la base est une "oeuvre numérique" à des fins marketing ... et donc commerciales ...

05 décembre, 2005 15:41  
Blogger audrey a écrit...

L'idée originale se trouve sur http://levitated.net/daily/levEmotionFractal.html. J. Tarbell a fait ça en 2002.

27 janvier, 2009 16:45  
Blogger Jean Véronis a écrit...

Oui, je le cite dans le texte ;-)

28 janvier, 2009 13:17  

Enregistrer un commentaire

mercredi, novembre 23, 2005

Ortograf: OpenOffice vs Microsoft



La sortie de la nouvelle version d'OpenOffice en français il y a quelques jours m'a incité à étendre mon petit comparatif des correcteurs orthographiques. Dans une étude précédente [ici], j'avais comparé le correcteur de Microsoft Word avec la fonction de correction offerte par la barre Google. L'avantage était clairement à MS Word (avec le patch qu'il est important de télécharger), cet avantage provenant essentiellement d'un bon traitement des noms propres, et dans une moindre mesure, de ses capacités en matière d'orthographe grammaticale (accords en particulier). On va voir qu'avec OpenOffice le match est plus serré.



J'ai gardé le même texte fautif pour l'évaluation (un article du journal Le Monde passé au "pourrisseur" de textes : ici), et les résultats sont les suivants (le bruit est constitué des fausses alertes et le silence correspond aux erreurs non repérées):

%
BruitSilence
MSWord (avec Patch)1,721,3
OpenOffice0,025,3
Google1,724,0

Sans noms propres et mots étrangers

%
BruitSilence
MSWord (avec Patch)9,320,0
OpenOffice6,027,6
Google34,722,4

Avec noms propres et mots étrangers


Si l'on ignore les noms propres et les mots anglais cités dans le texte, OpenOffice donne un peu moins de fausses alertes que MSWord, mais ignore un peu plus de mots fautifs. La tendance est la même si l'on prend en compte les noms propres et les mots anglais: un peu moins de bruit, et plus de silence. Il est important de bien régler OpenOffice sur l'option "détecter toutes les langues": la détection de la langue semble assez bien faite, du moins sur mon exemple. La phrase "Do you like roast-beef?" citée en anglais dans le texte est bien repérée comme anglaise par OpenOffice, alors qu'elle ne l'est pas dans MSWord (il faut dire que la détection de la langue sur des fragments aussi courts est extrêmement délicate!).

On voit donc que les résultats se tiennent dans un mouchoir de poche. Globalement, il y a un léger avantage pour MSWord par rapport à OpenOffice (Google est loin derrière). Je ne veux pas être trop technique, mais on peut le mesurer précisément (si l'on pénalise de la même manière le bruit et le silence) en utilisant la moyenne harmonique de la précision et du rappel (mesure F), et elle est légèrement plus élevée dans les deux cas pour MSWord (87,4% contre 85,4% dans le premier cas; 85,0% contre 81,8% dans le second).

La performance n'est tout de même pas mauvaise pour OpenOffice, compte tenu de son caractère libre et des moyens sans aucun doute plus limités dont il dispose pour son développement. Bien sûr, il faudrait faire des tests à plus grande échelle, avec d'autres types de textes, et mon expérience n'a qu'une valeur indicative. Il me semble toutefois que les développeurs de la version française d'OpenOffice doivent faire preuve de vigilance: Microsoft a manifestement réouvert le chantier du correcteur français, avec une équipe très compétente, et sur certains points son avance conceptuelle est forte, même si elle ne transparaît pas encore beaucoup dans les chiffres. C'est le cas de la correction de l'orthographe grammaticale, sur laquelle, comme je l'ai signalé l'autre fois, Microsoft est en train d'améliorer notablement les choses. Notons également qu'OpenOffice n'intègre pas encore l'orthographe recommandée (depuis 1990...) par le Conseil Supérieur de la Langue Française et l’Académie Française telles que règlementaire, révolver, ambigüe, etc. (mais elle serait très simple à intégrer).


Post-scriptum


1. PYves (commentaire ci-dessous) a fait la même évaluation avec TextEdit sous MacOS 10.4. Voici ses résultats:

%BruitSilence
TextEdit - Sans NP/étr.025,3
Avec NP/étr.19,225,9

Performances identiques à OpenOffice si l'on ne compte pas les noms propres et les mots étrangers. Si on les compte, la performance est un peu meilleure en termes de silence, mais moins bonne en termes de bruit . Très intéressant. Merci PYves !

2. Thierry Fontenelle a traduit ce texte en anglais sur le blog de Microsoft consacré au correcteur, avec quelques commentaires introductifs (je suis totalement d'accord avec ses commentaires).

Libellés :


11 Commentaires:

Anonymous MKe a écrit...

Bonjour,

Rien à voir mais je me disais que ça pouvait vous intéresser.

http://www.u-blog.net/resetparam/note/58079

23 novembre, 2005 12:07  
Blogger Jean Véronis a écrit...

Mke> Oui! je reçois l'info de plusieurs sources à la fois: l'UMP récidive.

J'ai mis un lien vers votre copie d'écran dans "Aix-Echos" (cadre en haut à gauche). Merci!

23 novembre, 2005 12:20  
Blogger ulhume a écrit...

Bonjour,

J'avais fait un petit scripte bien utile pour partir d'un lien sponsorisé connu (ex. ratp dans ce cas) et remonter à d'autres mots via les meta keywords de la page cible. Le résultat est dans notre cas amusant. Si le scripte interesse, je peux le donner mais il n'a rien de techniquement intelligent.

Ulhume

Pour l'UMP donc, nous avons :
sarko
sarkozy
politique
securite
reforme
chirac
election
politique
ministre
raffarin
vote
debat

23 novembre, 2005 15:58  
Anonymous BJ a écrit...

J'utilise OpenOffice et même si cela m'a pris un temps d'adaptation, j'ai finalement presque complètement abandonné Microsoft Office... sauf pour la correction de textes. Je copie-colle dans Word car j'y trouve plus d'erreurs, notamment pour la grammaire. Beaucoup de fautes ne sont pas (encore) détectées par OO. Dommage mais quand on compare le nombre de versions et les moyens mis en oeuvre des 2 côtés, je trouve que Microsoft fait figure de Goliath. Et je garde ma nouvelle lessive.

23 novembre, 2005 17:58  
Anonymous Alex a écrit...

Pour revenir à Nicolas Sarkozy, bien que ce ne soit pas par plaisir, ni le lieu, ni le moment, si l'on tape sarkozy dans google, justice est faite puisque la troisième entrée est: Iznogoud.

23 novembre, 2005 18:19  
Anonymous JCM a écrit...

Et pour revenir à nos moutons, dommage de ne pas avoir fait de comparatif avec le moteur intégré de MacOs X. En effet, que ce soit avec l'éditeur de texte TextEdit, Safari ichat (AIM) ou autre logiciel offrant la possibilité d'écrire, la correction automatique est activée. Très pratique, mais je ne sais pas ce que cela donne vs OO ou Word…

23 novembre, 2005 23:05  
Anonymous Sabin a écrit...

Au secours !

Je double-clique le mot "révolver" par réflexe moteur, de la même manière qu'au cinéma, quand un zombi surgit dans le dos d'un héros, je m'agrippe à l'accoudoir de mon fauteuil.

Et là, ça lance le chargement d'une drôle de fenêtre qui me propose la traduction du mot en anglais. Fenêtre qui perturbe ma lecture et met deux secondes à se charger, et me propose, hasard fâcheux et donc pratiquement obligatoire, une traduction bien entendu inutile pour ce mot-là.

La fonction est utile, mais j'avoue que du point de vue de l'accessibilité, je la préférerais activable en option, plutôt qu'automatiquement activée... Surtout que mon triple clic habituel quand je veux sélectionner un paragraphe pour le lire ne fonctionne plus :/
Enfin bon, c'est plutôt une jolie initiative qui montre la richesse des pages dynamiques récentes, je ne veux pas cracher dans la soupe non plus :)

23 novembre, 2005 23:14  
Anonymous PYves a écrit...

jcm> J'ai fait le test pour TextEdit sur MacOS 10.4 :
Sans NP/étr. bruit=0,0% ; silence=25,3%
Avec NP/étr. bruit=19,2% ; silence=25,9%

24 novembre, 2005 17:49  
Blogger Jean Véronis a écrit...

Merci PYves! J'ai copié vos résultats en PS dans le message.

24 novembre, 2005 21:30  
Anonymous JCM a écrit...

Merci pyves.
Apple a donc bien travaillé, étonnant de leur part quand on connaît leur peu d'entrain à s'occuper d'autres langues que l'Anglais. C'est bien sûr largement perfectible avec NP…

24 novembre, 2005 23:43  
Anonymous wallaye a écrit...

Bonjour

Openoffice utilise myspell, un correcteur ortografik dérivé de ispell... Il marche correctement, mais est en passe d'etre remplacé par hunspell, qui gère tres bien l'utf-8 (utile pour mes dictionnaires en moore, bambara...). Il est telechargeable à l'adresse suivante:

https://sourceforge.net/project/showfiles.php?group_id=143754

et je voudrai bien voir les resultats de votre test avec hunspell :)

Etienne

26 novembre, 2005 09:29  

Enregistrer un commentaire

lundi, novembre 21, 2005

E-Pub: A mots couverts

Marc-André me signale une jolie pub animée qu'il vient de réaliser [sur une idée de Jared Tarbell] pour un site spécialisé dans la vente en ligne de petits vêtements sans couture:


Cliquer sur l'image pour voir l'animation

Le parallèle avec la superbe exposition qui a lieu en ce moment même au Centre Pompidou (voir commentaire chez Fuligineuse) est peut-être un peu osé, mais je me dis que si Flash et Actionscript avaient existé à l'époque, les dadaïstes ne les auraient sans doute pas dédaignés:


Cliquer sur l'image pour voir l'animation

En tous cas, leroidelacapote.com m'a donné le vertige: moi qui ne suis pas de la "génération capote", je n'aurais jamais soupçonné que l'offre était aussi diversifiée (et parfois franchement marrante)! Ca donne envie de se mettre au LaTeX latex.

6 Commentaires:

Anonymous Pierre Arlais a écrit...

"Marc-André me signale une jolie pub animée qu'il vient de réaliser"

Oui et bien Marc andré pourrait tout de même signaler qu'il n'a pas "réalisé" cette animation, mais qu'il a simplement copié / et réutilisé un script de J. Tarbell (fait en 2002).

Voici l'adresse du script :
http://levitated.net/daily/levEmotionFractal.html

Copier et créer c'est bien, mais citer quand même l'artiste à l'origine de la réalisation me paraît être le minimum.

--
Pierre Arlais

29 novembre, 2005 14:15  
Blogger Jean Véronis a écrit...

Merci pour le lien, Pierre. Il y a d'autres choses superbes sur ce site!

30 novembre, 2005 09:57  
Anonymous Pierre Arlais a écrit...

Oui, on parle tout le temps de Joshua Davis ou de Yugo Nakamura, mais, dans le domaine de l'exploration - création visuelle basés sur des math / physique (via Flash ou Processing), je trouve les travaux de J. Tarbell plus aboutis.


A visiter donc pour ceux qui sont intéressés :
http://www.processing.org
http://www.flight404.com

--
Pierre Arlais

30 novembre, 2005 17:00  
Anonymous Marc-André a écrit...

Quelle agressivité concernant ce code !
Oui ce code est de Monsieur J. Tarbell, et oui je cite mes sources, car le copyright est toujours dans le code utilisé en cours, et je n'ai JAMAIS prétendu que ce code était de moi. Non mais!
Avant de penser être un redresseur de tort la prochaine fois, renseignez-vous au moins sur les pratiques de l'Opensource. On peut utiliser le code comme bon nous semble, si on respecte le copyright de l'auteur du code au sein de celui-ci, ce que j'ai fait.
Pour finir, mon intention était d'attirer celle de Monsieur Jean Veronis pour qui j'ai beaucoup de respect, justement sur ce bout de code que j'avais en stock, concernant ses travaux linguistiques, car je me suis dit que cela pourrait l'intéresser. Lui, au moins il essaye de faire avancer le schmilblick, pauvres aigris que vous êtes.
Essayez-donc ne serait-ce que de faire au moins la moitié de ce que Monsieur Veronis à fait et à transmis à ces élèves!


Marc-André

01 décembre, 2005 22:41  
Anonymous Pierre Arlais a écrit...

1 - Agressivité
Là je ne vois pas trop d'agressivité :
à la phrase : "Marc-André me signale une jolie pub animée qu'il vient de réaliser", il était important de préciser qui est l'auteur du travail puisque ce n'est pas le dit Marc André.

2 - Open Source
Comme le précise J. Tarbell, son travail relève de la license GNU General Public License
(http://www.gnu.org/copyleft/gpl.html)
Or quand on regarde la page (http://www.leroidelacapote.com/condom/blog/?p=34) où est publiée ta version de l'animation de J. Tarbell, il n'est possible nulle part de télécharger le code source ou mention précisant qu'il est possible d'en faire la demande.
Donc tu ne respectes pas les obligations liées aux articles 2 et 3 de la license GNU General Public License...
Pour ton instruction, car tu as l'air d'en avoir grand besoin : License GPL ne veut absolument pas dire domaine public ! Il serait bon de te renseigner un petit peu avant de sortir des énormités sur l'Open Source.

Si le code source mentionnant J. Tarbell était disponible sur la page afin que d'autres puissent faire évoluer le travail de J. Tarbell, alors tout serait pour le mieux. Ce n'est pas le cas.

Qui plus est le lien sur l'animation renvoie vers un site qui n'a de fins que commerciales, le travail fourni par J. Tarbell, que tu n'as en aucun cas fait évolué (simple réutilisation sans enrichissement en terme de fonctionnalités ou autres), a donc juste été copié pour créer du click sur un lien commercial.

04 décembre, 2005 13:37  
Blogger sigmund a écrit...

pomper les créations des autres est le passe temps favori de Marc andré. Sa boutique ressemble étrangement au concept développé par preservatifstore.com et condozone.com la plus grande boutique de préservatifs à ce jour.
Ton petit film de c.. dans ta boutique est également inspirée d'un site dont j'ai oublié le lien qui publie des vidéos d'orgasme..
Ton logo ressemble étrangement à celui d'arthur le gars de la TV et de fun radio. Bref... un pompeur quoi.

10 mai, 2006 23:56  

Enregistrer un commentaire

vendredi, novembre 18, 2005

Lexique: Diplopie

Tout le monde se demande pourquoi le président Chirac a ressorti ses lunettes du temps du Bébête Show (vous vous rappelez l'aigle Black Jack?)...



C'est peut-être Libération qui a la réponse: le président souffrirait de diplopie. Voilà un mot bizarre. Voyons ce que le TLFi nous en dit:
DIPLOPIE, subst. fém.
MÉD. Trouble de la vision consistant à percevoir deux images ou plus pour un seul objet (cf. strabisme) [TLFi]

En gros, la diplopie c'est le fait d'y voir double... C'est ce qui arrive quand on a un peu trop forcé sur la bouteille, mais il paraît que Jacquot tient bien la Corona. En revanche, on savait qu'il souffrait d'un "léger trouble oculaire" lié à son accident vasculaire cérébral (AVC), sans en connaître la nature exacte. Je ne suis pas médecin (peut-être que des lecteurs pourront nous éclairer?), mais si on lit les sites spécialisés [par exemple ici] la diplopie semble effectivement être l'une des conséquences possibles des AVC. Et ça colle assez bien: si le problème était simplement une intolérance aux lentilles, on pourrait toujours lui écrire son discours en caractères géants sur les pancartes... Par contre, si le problème est mécanique, il n'y a plus que les lunettes, qui peuvent agir comme des prismes pour remettre la vision d'aplomb.

Je ne sais pas si ça peut lui permettre d'éviter de nous confondre avec des veaux, comme son Illustre Modèle, qui s'est lui aussi décidé à porter de grosses lunettes noires -- trop tard d'ailleurs (je n'ai pas réussi à trouver une seule image du Général avec ces célèbres lunettes sur le Net: incroyable, non?). En tous cas, nous aurons appris au moins un mot.

Au fait, diplo, ça veut dire "double" en grec. Comme dans diplodocus:


17 Commentaires:

Anonymous Anonyme a écrit...

Vous m'étonnez !..... :

"prime" en lieu et place de "prisme",

ainsi que :

"je ne sais pas si ça lui permettre"

Le stress ? une surcharge de travail ?

Ces observations n'enlèvent en rien la valeur de l'article cependant.

Mais n'y à t'il pas un risque de dévalorisation de votre image ?

;-))

18 novembre, 2005 11:39  
Anonymous Anonyme a écrit...

Match nul : 1 partout.

J'aurais mieux fait de me relire et/ou de me taire au vu de ce commentaire :

"Ces observations n'enlèvent en rien la valeur de l'article cependant."

Promis, la prochaine fois je fais un effort !

;-))

18 novembre, 2005 11:42  
Anonymous Anonyme a écrit...

Non : 2 - 1 :
"Mais n'y à t'il pas un risque de dévalorisation de votre image ?"
Et de votre grammaire ? :-)
Les coquilles ne sont pas importantes...
Encore bravo Monsieur Véronis.

18 novembre, 2005 11:50  
Anonymous Anonyme a écrit...

très juste !

18 novembre, 2005 12:02  
Blogger Jean Véronis a écrit...

Ouh là là! La fatigue... ou la myopie!

Merci!

18 novembre, 2005 12:06  
Anonymous Zulunation a écrit...

Et bien il y a une photo du Général avec ses fameuses lunettes, en train se signer le registre municipal de St Remy des Monts en 1965, ici : http://www.saosnois.com/St-remy-des-monts/Charles%20De%20Gaulle.htm
(je reconnais qu'elle est subtile mais ...)
Et puis aller, puisque je suis en forme, une autre ici 7 ans plus tôt mais déjà les droles de montures : http://www.elangelcaido.org/fotografos/horvat/horvat04.html

18 novembre, 2005 14:34  
Anonymous Lui a écrit...

Euh : Au fait, diplo, ça deux dire "double" en grec.

Deux et double font quatre. ;o)
Fatigué? Mais toujours intéressant!

18 novembre, 2005 22:13  
Anonymous isarmel a écrit...

Double, comme dans diplodocus, ou comme dans diplomate. Mais "mate", alors, ça veut dire quoi ?

19 novembre, 2005 00:39  
Anonymous Anonyme a écrit...

Sûrement du verbe "mater", regarder. Ce qui donne Diplomate : personne qui y regarde à deux fois avant de prononcer une parole malheureuse....

19 novembre, 2005 09:25  
Blogger Jean Véronis a écrit...

Lui> On dirait que j'ai besoin d'un petit week-end de repos, moi (ou de lunettes: j'ai relu au moins trois ou quatre fois!). Merci!

19 novembre, 2005 09:55  
Anonymous Vincent Ramos a écrit...

Diplôme vient du grec διπλωματ- diplômat, réduit à δίπλωμα díplôma au « nominatif » (c'est-à-dire la forme que prend un mot quand il est sujet ou quand on le cite dans un dictionnaire) parce que le grec ancien n'accepte pas qu'un mot se termine par un /t/. C'est de ce radical qu'il faut partir pour expliquer des mots comme diplomat-ique ou diplomat-e (dérivé du premier).

Le radical de διπλω-ματ- diplômat- est proprement le διπλο- diplo- dont parle Jean (et -ματ est un suffixe de formation de noms neutres comparable au latin -men : ainsi, à part pour l'initiale, le grec ὄνο-ματ- óno-mat- répond au latin no-men, qui nous a donné le mot nom), utilisé comme préfixe au sens de « double ».

Ce radical, à son tour, se décompose en δι- di- et πλο- plo- : le premier signifie « deux fois » et correspond exactement au latin bi- (tous deux issus d'un étymon *dwi-) tandis que le second est dérivé d'une racine verbale *pl- « plier, tresser, entrelacer », qu'on retrouve dans le latin plico (même sens ; cf. im-pliquer), verbe lié à plecto en latin, qu'on retrouve à son tour sous la forme πλέκτω pléctô en grec.

Ainsi, δι-πλο- diplo- signifie proprement « plié en deux ». Ce qui est « plié une seule fois », en revanche, est ἁ-πλο- ha-plo-, où ἁ- ha- est l'équivalement du latin sim-, tous deux issus de *sm-, « une seule fois » (pour les plus courageaux, le /h/ grec est issu de *s en début de mot et /im/ en latin vient de /em/, qui corresond à /a/ en grec de la même manière que /men/ en latin correspond à /ma/ : il s'agit de la « vocalisation » d'une nasale). Donc, ἁ-πλο- ha-plo- (penser à haplo-logie et haplo-ïde) trouve son frère jumeau latin sous la forme sim-plu-, qui nous donne « simple ».

J'en reviens à diplôme : le sens étymologique de ce mot est δι-πλω-ματ- di-plô-mat- : « chose (-ματ- -mat-) pliée (πλο- plo-) deux fois (δι- di-) ». Un diplomate est donc celui qui porte les diplômes, c'est-à-dire des actes officiels repliés (peut-être parce qu'ils sont scellés).

Enfin, il faut savoir qu'en grec ancien le δίπλωμα díplôma était au sens premier une « quantité double » puis un « objet double », que ce soit une tablette repliable, un vase formé de deux récipients ou une feuille pliée. Le sens actuel est donc limité au dernier mentionné.

Pour aller plus loin, on pourra se référer au Dictionnaire étymologique de la langue grecque de Chantraine, au Dictionnaire étymologique de la langue latine d'Ernout, au Dictionnaire grec français de Bailly (ou au Liddell/Scott, accessible en ligne : http://perseus.mpiwg-berlin.mpg.de/cgi-bin/resolveform).

19 novembre, 2005 13:18  
Anonymous Vincent Ramos a écrit...

Oups... Toutes mes excuses à feu Meillet : il est aussi auteur du Dictionnaire étymologique de la langue latine au même titre qu'Ernout.

Petite question : saurez-vous retrouver le second radical de diplopie ?

19 novembre, 2005 13:23  
Blogger Jean Véronis a écrit...

Vincent> Superbe, cette discussion sur diplomate. J'en suis plié.

Quant à diplopie, la deuxième partie vient de ops, opos, l'oeil, non? ou bien y a-t-il un piège?

19 novembre, 2005 13:37  
Anonymous Vincent Ramos a écrit...

Oui, c'est bien sûr le radical ὠπ- ôp- / ὀπ- op-, qui donne le nom ὤψ ôps / ὠπ-ός ôp-ós ou ὄψ ops / ὀπ-ός op-ós, « œil » mais aussi « visage » dans Αἰθι-οπ- Aithi-op-, « au visage (οπ- op-) brûlé (αἰθ- aith-, devenu æth- en latin puis éth- en français ; cf. l'éther, espace céleste igné) ». C'est de cet Αἰθι-οπ- Aithi-op- que nous tirons le nom de l'Éthiopie, proprement le « pays des visages brûlés », par référence au mythe de Phaéton (dont les maladresses ont bûlé une partie de l'Afrique et de ses habitants, disaient les Anciens).

Ce qui est moins connu, cependant, c'est que le radical indo-européen d'où est issu ὀπ- op- se manifeste aussi dans des mots à l'allure différente parce que cet étymon se terminait par un consonne complexe (une occlusive à appendice labio-vélaire : pour la petite histoire, ce radical est noté *h3ek^w- [^w = w en exposant]) dont le grec s'est débarrassée de diverses manières et qui a évolué bien différemment en latin. En effet, c'est toujours le même radical indo-européen dans des mots grecs comme optométrie, métope, prosopopée, cyclope, ou ophtalmologie mais aussi dans des mots issus du latin comme oculiste, atroce (latin atr-oc-, littéralement « à l'œil noir »), féroce (latin fer-oc-, littéralement « à l'œil farouche ») voire véloce (dans ce dernier cas, oc- n'a plus de valeur sémantique mais a été utilisé comme suffixe de dérivation permettant de former des adjectifs sur le modèle des mots précédents).

Enfin, le mot moderne en grec démotique est μάτι máti, aussi issu de ce radical : c'est le résultat d'une aphérèse et d'une apocope du diminutif ὀμμάτιον ommátion, ou le radical ὀπ- op- est devenu ὀμ- om- devant le suffixe -ματ -mat décrit plus haut. On retrouve ce radical modifié dans des mots peu courants comme ommatidie, d'après le Petit Robert : « du gr. ommation “petit œil” ; Biol. Unité optique de l'œil composé des arthropodes, formant en soi un photorécepteur complet ».

Jean, j'arrête de squatter votre blog avec mes remarques étymologiques, promis. Le mot choisi pour ce billet était très tentant, je dois dire.

19 novembre, 2005 15:19  
Anonymous Anonyme a écrit...

"Au terme de vingt jours de violences dans les banlieues, Dominique de Villepin s'inquiète du "climat d'excitation" dans le pays.

Il sent les Français déboussolés et sa majorité se raidir. "Une ambiance anti-bougnoules", dit un de ses proches.

Jeudi encore, comme les jours précédents, Matignon a reçu quelque 2 000 courriers électroniques remplis de haine et de racisme."
Christophe Jakubyszyn
Article paru dans l'édition du 20.11.05
http://www.lemonde.fr/web/article/0,1-0@2-706693,36-711961@51-704172,0.html

19 novembre, 2005 16:51  
Blogger Alanis a écrit...

super tu pense la meme chose que moi je vais en parler sur mon blog et peut etre meme conseiler le tien
voila mon adresse:
www.passepresent futur.blogspot.com

19 novembre, 2005 19:02  
Anonymous Anonyme a écrit...

il était aussi possible de double-cliquer sur diplopie...

21 novembre, 2005 09:02  

Enregistrer un commentaire

jeudi, novembre 17, 2005

Writing: The Nomina Sacra under the prison

It’s quite symbolic, really. A prisoner is carrying out some digging work in Meggido prison in Israel (which "plays host” to some 1,200 Palestinian prisoners), when the blows from his pickaxe uncover two beautiful mosaics, one of which represents Ichtus, a sign by which early Christians recognised each other (see my previous post [fr]):



Here in France we were distracted by other events [fr], but this story has caused quite a stir all over the world (Washington Post, Yahoo News, National Geographic). Some people believe these mosaics could have belonged to the first church in the Holy Land and perhaps in the whole of Christendom. Indeed, they appear to date from the end of the 3rd century, long before the emperor Constantine legalized Christianity in 313 and up until now believed to be a time when Christians, who were persecuted, were not in a position to build places of worship. The Israeli authorities and the Vatican immediately turned this into a major media event (the discovery could encourage tourism for the former, and strengthen faith for the latter – something which they both seem to be in real need of...) but it’s best not to get over-excited yet: the discovery is of such enormity that we ought to step back and let the experts make a calm judgement.

In any case, another picture took my breath away while I was looking through the photo albums on Yahoo and National Geographic.



Or, in modern characters:
ΠΡΟΣΗΝΙΚΕΝ
ΑΚΕΠΤΟΥΣ·
ΗΦΙΛΟΘΕΟΣ
ΤΗΝΤΡΑΠΕ
ΖΑΝΘΩ·ΙΥ·ΧΩ
ΜΝΗΜΟΣΥΝΟΝ
This translates as something along the lines of "The devout Akeptus dedicates this memorial to the God Jesus Christ" (see discussion and comments on Brandon Wason’s blog).

The three sets of letters which I have marked in pink are examples of what is called nomina sacra, something which I already talked about a few months ago [fr]. The nomina sacra is a system of abbreviations developed by the first Christians, but unlike other shorthand systems such as the Tironian notes (developed by Tiron, Ciceron’s secretary) they are only used for sacred words (God, Lord, Jesus, and such). Here, we can recognize:
Θ[Ε]Ω : God
Ι[ΗΣΟ]Υ : Jesus
Χ[ΡΙΣΤ]Ω : Christ
The nomina sacra was developed very early on (probably at the end of the 1st century, since we find it in the Egerton Papyrus 2 [1, 2]— if you liked the Da Vinci Code you’ll like Egerton ;-).



Examples of nomina sacra in epigraphy (especially inscriptions on monuments) are much less common, and there don’t seem to have been any before the fourth century (it must have been risky to display your religious beliefs on the walls... [see the discussion on Phil Harland’s blog]).

As you can imagine, I am following the story with much interest, and quite frankly with great excitement...

By the way, does Meggido ring any bells? Armageddon is the location of the Apocalypse (as well as the title of a bad film) : Har Meggido means the "mountain of Meggido" in Hebrew, and the transliteration in Greek would have given Harmagedôn (but of course, as is always the case there is some controversy surrounding this…). If you want to find out more, you can always read the cabalistic thriller of a trendy French woman writer [fr], but if you want a real Revelation, you’d be better off reading the original. It’s a bit wild, mind -- history doesn’t record what the apostle might have been smoking!


And he gathered them together into a place called in the Hebrew tongue Armageddon.
And the seventh angel poured out his vial into the air;
and there came a great voice out of the temple of heaven, from the throne, saying, It is done.
And there were voices, and thunders, and lightnings;
and there was a great earthquake, such as was not since men were upon the earth,
so mighty an earthquake, and so great.
And the great city was divided into three parts, and the cities of the nations fell:
and great Babylon came in remembrance before God,
to give unto her the cup of the wine of the fierceness of his wrath.

0 Commentaires:

Enregistrer un commentaire

mercredi, novembre 16, 2005

Ecriture: La Nomina Sacra sous la prison

L'histoire est tout un symbole: un détenu participe à des travaux dans la prison de Meggido en Israël (qui "accueille" quelque 1200 prisonniers palestiens), quand ses coups de pioche mettent à jour deux superbes mosaïques, dont l'une représente l'Ichtus, un des premiers signes de reconnaissance de la Chrétienté [voir précédent billet]:



Nous avions le regard tourné ailleurs, mais l'affaire a fait grand bruit à travers le monde (Washington Post, Yahoo News, National Geographic). Selon certains, ces mosaïques pourraient avoir appartenu à la première église de la Terre Sainte et peut-être de la chrétienté. En effet, elles semblent dater de la fin du IIIè siècle, bien avant la légalisation du Christianisme par l'empereur Constantin (313), à une époque où l'on pensait jusqu'ici que les Chrétiens, persécutés, n'étaient pas en mesure de bâtir des lieux de culte. Les autorités israéliennes et le Vatican ont immédiatement fait un tapage médiatique (la découverte pourrait renforcer le tourisme pour les uns, la foi pour les autres -- les deux semblent en avoir bien besoin...) mais il convient de rester les pieds sur terre: la découverte est si énorme qu'elle demande du recul et une analyse à tête reposée par les spécialistes compétents.

En tous cas, j'ai eu le souffle coupé par une autre image en parcourant les albums photos de Yahoo et National Geographic:



Soit, en caractères modernes:
ΠΡΟΣΗΝΙΚΕΝ
ΑΚΕΠΤΟΥΣ·
ΗΦΙΛΟΘΕΟΣ
ΤΗΝΤΡΑΠΕ
ΖΑΝΘΩ·ΙΥ·ΧΩ
ΜΝΗΜΟΣΥΝΟΝ
Quelque chose comme "Ce mémorial est dédié par la pieuse Akeptus au Dieu Jésus-Christ" (voir discussion et commentaires de Brandon Wason).

Les trois couples de lettres que j'ai encadrés en rose sont des exemples de ce qu'on appelle nomina sacra, et dont j'ai déjà parlé il y a quelques mois. La nomina sacra est un système d'écriture abrégée développé par les premiers chrétiens, mais contrairement à d'autres systèmes d'abréviation, comme les notes tironiennes, dévelopées par Tiron, le secrétaire de Cicéron, elles ne concernent que les mots sacrés (Dieu, Seigneur, Jésus, etc.). Ici, nous reconnaissons :
Θ[Ε]Ω : Dieu
Ι[ΗΣΟ]Υ : Jésus
Χ[ΡΙΣΤ]Ω : Christ
La nomina sacra a été développée très tôt (probablement à la fin du Iè siècle, puiqu'on la trouve dans le papyrus d'Ergerton II [1, 2]-- si vous avez aimé le Da Vinci Code vous aimerez Egerton ;-).



Les exemples de nomina sacra en épigraphie (en particulier sur des inscriptions monumentales) sont beaucoup moins courants, et on ne semble pas en avoir avant le quatrième siècle (ce devait être risqué d'afficher son appartenance religieuse sur les murs... [voir discussion chez Phil Harland]).

Alors, vous imaginez que je suis l'affaire avec grand intérêt, et pour tout dire avec une grande excitation...

Ah oui, au fait, Meggido, ça ne vous rappelle rien? Armaguédon, c'est le lieu de l'Apocalypse (en plus du titre d'un mauvais film) : Har Meggido signifie la "montagne de Meggido" en Hébreu, et la translittération en Grec aurait donné Harmagedôn (mais bien sûr, comme toujours il y a des controverses...). Si vous voulez en savoir plus, vous pouvez toujours lire le thriller kabalistique d'une écrivaine branchée, mais si vous voulez vraiment avoir la Révélation, lisez plutôt l'original. C'est assez déjanté (l'histoire ne dit pas ce qu'il avait fumé, l'apôtre!).

Ils les rassemblèrent au lieu dit, en hébreu, Harmagedôn.
Et le septième ange répandit sa coupe dans l'air ;
alors, partant du temple, une voix clama : " C'en est fait ! "
Et ce furent des éclairs et des voix et des tonnerres,
avec un violent tremblement de terre ;
non, depuis qu'il y a des hommes sur la terre,
jamais on n'avait vu pareil tremblement de terre, aussi violent !
La Grande Cité se scinda en trois parties,
et les cités des nations croulèrent ;
et Babylone la grande, Dieu s'en souvint pour lui donner la coupe
où bouillonne le vin de sa colère.

12 Commentaires:

Anonymous Sébastien a écrit...

Comme quoi on a encore beaucoup de choses à découvrir. Le sujet s'avère ici d'autant plus pationnant mais il faut espérer que cela ne va pas tourner au sensationnalisme (du genre faites un pélérinage sur le premier lieu de culte du monde, organisé par "les amis de la foi" ^^ ou que cela repris dans des bouquins du genre le da vinci code, genre littéraite qui cartonne pour le moment). Sinon question plus pratique, ces nomina sacra reposent-elles sur une phonétique( i.e. qu'en prononçant ces caractères ont retrouve une sonorité proche du mot signifié) ou sur une symbolique(comme les poissons que les premiers Chrétiens trçaient dans la terre pour se reconnaître)?

16 novembre, 2005 13:48  
Blogger Nicolas Brouard a écrit...

Cela me surprend toujours de voir à quel point une découverte bouleverse et surtout réécrit l’Histoire. C’est vraiment intéressant et cela montre encore une fois qu’il faut toujours gardé l’esprit ouvert sur ce qu’on présente comme étant la vérité, alors que ce n’est qu’une image élaborée à partir de ce qui est connu.
Excellent billet, Jean ! Je voudrais seulement te signaler une petite faute de frappe à la dernière phrase : l'histoire ne dit pas ce qu'est-ce qu'il avait fumé, l'apôtre!

16 novembre, 2005 14:12  
Blogger Jean Véronis a écrit...

Sébastien> En fait, ça n'est ni l'un ni l'autre. La nomina sacra prenait le plus souvent la première et la dernière lettre, par exemple KS pour KristoS. Un peu comme nous faisons quand nous écrivons en agrégé tt = tout ou qd = quand.

L'origine de ce procédé est assez mystérieuse. On peut voir une parenté avec le tétragramme sacré des Juifs, YHWH, mais c'est quand même assez différent, puisque là ce sont toutes les consonnes du mot qu'on conserve. De plus, la gamme des mots sacrés et beaucoup plus étendue, et il n'y avait pas dans la chétienté d'interdiction de prononcer ces mots...

16 novembre, 2005 14:17  
Blogger Jean Véronis a écrit...

Nicolas> Merci! (pour les compliements comme pour la coquille!)

16 novembre, 2005 14:19  
Blogger all a écrit...

ΜΝΗΜΟΣΥΝΟΝ, mnèmosunonn
encore aujourd'hui

16 novembre, 2005 16:34  
Anonymous dany a écrit...

petite remarque qui donne un coté actuel à la "nomina sacra".

pour le tétragramme des juifs, il faut souligner le fait que c'est toute la langue hébraïque qui est écrite avec des consonnes. les voyelles sont des simples ajouts aux mot ( au dessus et en dessous) et ne sont pas révélatrices de sens : les sens des mots sont liés à leur racines de trois lettres, et les mots liés par leur racine commune ont un sens proche.

en résumé, en hébreux : une lettre est une consonne.

d'autre part il est fréquent encore aujourd'hui que dans les prières en hébreu (et même dans leur traduction) on abrège le nom de D... de cette manière, pour traduire le coté inexprimable du nom.

enfin, la tradition juive rapporte l'existence de 2 niveaux de grec, l'un parlé par tout le monde, et l'autre par des personnalités supérieures (diplomates).
cette "langue" de niveau supérieur ( ou plutot "langue-pensée") est une forme de grec supérieur dans lequel a été traduite la thora en grec pour la première fois par des rabbins : il s'agit de la septante. on dit que cette langue est la seule à part l'hébreu qui permette de traduire la thora sans en dénaturer le sens.

je vois là aussi un parallèle intéressant avec la nomina sacra.

16 novembre, 2005 17:25  
Anonymous Vincent Ramos a écrit...

J'ajouterai à ce très intéressant billet que « nomina sacra » est un pluriel neutre en latin et non un féminin et que si « la nomina sacra » peut choquer un latiniste, c'est une confusion très fréquente dans l'histoire de notre langue, dans laquelle de nombreux neutres pluriels (latins ou grecs puis latins) ont été réinterprétés comme des féminins : « Biblia » (les livrets) --> « la Bible », « folia » (les feuilles) --> « feuille », etc. J'ai donné d'autres exemples dans http://fr.wikipedia.org/wiki/Langue_romane concernant ce procédé.

D'autre part, « Ichtius » a un i en trop.

17 novembre, 2005 07:19  
Blogger Jean Véronis a écrit...

Merci Vincent! bel article sur Wirkipedia. Je mets un lien cliquable : langue romane.

17 novembre, 2005 07:56  
Anonymous Marsyas a écrit...

Hum ! Pas mal d'inexactitudes dans ce billet. C'est certes une grosse découverte mais certainement pas la première église de la chrétienté et probablement même pas la première connue de Palestine : la Maison de Pierre à Capharnaüm est probablement un édifice de culte/pèlerinage chrétien dès la fin du Ier s. L'édifice chrétien (domus ecclesiae) de Doura Europos en Syrie est antérieur à la destruction de la ville en 256-257. Par ailleurs, les chrétiens n'ont pas attendu 313 pour construire des églises ! Dès la seconde moitié du IIIe s. il y a quantité de domus ecclesiae dans tout l'Empire et à Rome en particulier (les tituli) : en effet, pendant la "Petite Paix de l'Eglise", entre 261 et 295, les chrétiens ont eu tout loisir d'aménager des édifices de culte. Bien sûr on n'en a pas ou presque de traces archéologiques (elles ont disparu sous les églises postérieures) mais ils sont connus par les sources littéraires, y compris non chrétiennes... Donc attention à ne pas entrer dans le jeu médiatique de l'interprétation hyperbolique d'une telle découverte.

17 novembre, 2005 17:04  
Blogger Jean Véronis a écrit...

Marsyas> Pas mal d'inexactitudes... Vous n'en pointez qu'une, que d'ailleurs je ne reprends pas à mon compte, celle de "première église de la Terre Sainte et peut-être de la Chrétienté". Je dis bien que l'affaire "demande du recul et une analyse à tête reposée par les spécialistes compétents". Si vous lisez les débats actuels, vous verrez que tous ne sont pas aussi péremptoires que vous. Je suppose que tout est dans la définition qu'on veut bien donner au mot église. Bien entendu, il y a eu des lieux de culte depuis l'origine même du Christiannisme, mais beaucoup d'auteurs s'accordent à mentionner Dura-Europos (en Syrie) comme première église proprement dite (connue, bien sûr). Comme vous dites, elle est datée de la première moitié du IIIè siècle. Donc, tout dépendra de la date qu'on finira par fixer à l'édifice de Meggido, mais en tous cas, la localisation de cette découverte est exceptionnelle.

Je suis d'accord avec vous sur le battage médiatique. Mais il a lieu surtout à l'étranger. L'absence inverse d'information en France est surprenante.

17 novembre, 2005 22:41  
Anonymous Anonyme a écrit...

Si je puis me permettre, en passant, je voudrais rappeler que mettre à jour n'est pas mettre au jour. Rien de bien grave, je vous l'accorde.

18 novembre, 2005 14:57  
Blogger Chantal Raza a écrit...

Ixtus est un anagramme grec le voici....

Poissons en Grec = Ixtus
Le u en grec se prononce i


Soit IXTIS

I = Iesou = Jésus
X= Xristos = Christ
T = Theo = Dieu
I = Ios = Fils
S = Sotir = Sauveur

Ixtus

A bientot! ;)

03 février, 2008 07:01  

Enregistrer un commentaire