Technologies du Langage: octobre 2005

jeudi, octobre 20, 2005

Blogs: Blogger blocked up?

Fingers are starting to be pointed at Blogger as the prime polluter of the blogosphere [see Randy, Martin]. Some have even gone so far as to express a desire to “kill Blogger” … While it’s true that the proportion of splogs on Blogger is frankly incredible (see here), I fear that splog will turn out to be just like the Lernaean Hydra, whose heads grew back whenever they were cut off. If Blogger were to close, splog would quickly reappear somewhere else.

Blogger (and its owner Google, with BlogSearch) seems to have decided to take matters in hand. They recently added a “Flag” button to all Blogger blogs that lets people report splogs (a somewhat derisory measure), and most importantly they have begun putting in place a system of captchas (those funny little impossible-to-copy letters designed to prevent automated sign-ups), supported by anti-splog algorithms. Blogger Buzz (Blogger’s blog) confirmed on the 18th of October that from now on, whenever a new blog is created, Blogger will run it through its anti-splog filters.

All well and good, but detecting splogs is no easy matter, as I demonstrated a few days ago. Sploggers are smart and the content of their splogs now looks more and more like real posts written by human beings… Or at least close enough to fool a dumb machine (an interesting and unexpected reminder of the Turing test, which I may well have to write about some day). The risk, as I showed, is that some real blogs could also be filtered out by such broad-sweeping mechanisms, if they don’t conform to what these algorithms imagine to be the statistical characteristics of a good blog.

I experienced this myself only yesterday. In its rush to put its house in order before the blogosphere rises up in arms, Blogger has clearly tightened the noose too far. Despite making several attempts, I tried in vain to create a new blog – or rather, after screwing up my eyes and twisting my fingers round the captchas, I did manage to create one, but then I couldn’t write any posts. The first one (after I had successfully negotiated the captcha) was created correctly, but afterwards, I couldn’t create another. Blogger no longer seemed to love me; yet I’ve been registered for over a year and have several blogs that don’t appear to give them any cause for concern that I’m aware of.

These may just be teething troubles, so let’s wait and see. But given the difficulty of the problem, I fear that it can never be completely solved. Good bloggers are bound to end up suffering. In my opinion, we’re on the verge of seeing some major changes in the blogosphere, and I wonder how much longer this place of freedom and creativity that we’ve come to know and love is going to last.

Post-Scriptum

20 Oct - Blogger seems to have realised the problem and speaks about it on its... blog.

Libellés : Blogs

1 Commentaires:

Anonyme a écrit...: Ye of little faith !; 22 octobre, 2005 00:15

Enregistrer un commentaire

mercredi, octobre 19, 2005

Blogs: Ca bloque chez Blogger

[ Version anglaise - English version ]

Blogger est de plus en plus clairement montré du doigt comme pollueur N°1 de la blogosphère [voir Randy, Martin] Certains vont jusqu'à vouloir "tuer Blogger"... Il est vrai que la proportion de splogs sur Blogger est simplement hallucinante (voir ici), mais j'ai bien peur que le splog soit comme l'Hydre de Lerne, dont les têtes repoussent au fur et à mesure qu'on les coupe. Si on fermait Blooger, le splog réapparaîtrait ailleurs aussitôt.

Blogger (et sa maison mère Google, concernée avec BlogSearch) semblent décidés à prendre les choses en main. Il y a quelques jours, Blogger avait déjà ajouté un bouton "Flag" permettant de dénoncer les splogs (mesure bien dérisoire), mais surtout a commencé à mettre en place un système de "captchas" [en] (ces petites lettres tordues impossibles à recopier, mais qui sont censées décourager les robots), doublé d'algorithmes antisplogs. Blogger Buzz (le blog de Blogger) confirme (18 octobre) que dès qu'on crée un blog, Blogger le passe désormais dans ses filtres anti-splog.

Très bien, mais la détection des splogs est un exercice difficile, comme je l'ai montré il y a quelques jours. Les sploggeurs sont malins et leurs splogs ressemblent de plus en plus à de vrais billets, écrits par des humains... En tous cas suffisamment pour feinter de bêtes machines (on a là une réminiscence intéressante et inattendue du test de Turing dont il faudra peut-être que je parle un jour). Le risque, comme je l'ai montré, est de filtrer massivement de vrais blogs, mais qui ne satisfont pas à ce que les algorithmes imaginent être les caractéristiques statistiques des bons blogs.

J'en ai fait l'expérience hier. Dans sa précipitation pour faire la police chez lui-même avant que la blogosphère n'entre en insurrection, Blogger a manifestement serré les boulons un peu fort. J'ai essayé en vain, malgré de multiples tentatives de créer un blog -- ou plutôt, après m'être tordu les yeux et les doigts sur les captchas, j'ai réussi en en créer, mais il m'était alors impossible de créer des billets. Le premier (après passage au captcha) se créait correctement, mais ensuite, impossible d'en créer un deuxième. Blogger ne m'aimait plus; pourtant je suis enregistré depuis un an et j'ai plusieurs blogs qui ne leur posent pas souci à ma connaissance.

Peut-être que ce sont de petits problèmes de réglage. Attendons donc. Mais j'ai peur, étant donné la difficulté du problème, qu'il ne puisse être totalement résolu. Les bons bloggueurs vont certainement être pénalisés. A mon avis, on est à la veille de changements importants dans la blogosphère. Je me demande si l'espace de liberté et de créativité que nous avons connu jusqu'ici va subsister bien longtemps.

Post-Scriptum

20 oct - Blogger a pris conscience du problème et en parle sur son... Blog.

Libellés : Blogs

12 Commentaires:

all a écrit...: « We're sorry, but we were unable to complete your request »
J'ai eu ce bug hier sur un blog ouvert il ya 48h

Pas de captchas ce jour, plus de pb, mais aucune explication de blogger.; 20 octobre, 2005 10:12
all a écrit...: Suite ..
vous pouvez publier vos images chez blogger ("ajouter une image") je vois qu'elles sont toujours hébergées sur le serveur de l'université.; 20 octobre, 2005 10:16
Anonyme a écrit...: Oui, en effet, c'est bien inquiétant pour la suite. Mais enfin, en même temps, ces pollutions paraissaient fort prévisibles du fait de l'extrême facilité de référencement des blogs en général et de blogger en particulier...
Attendons de voir les nouveaux "patchs" ;); 20 octobre, 2005 11:14
Jean Véronis a écrit...: All> vous pouvez publier vos images chez blogger -- Je sais, mais je ne veux pas mettre tous les oeufs dans le même panier... On ne sait jamais ;-); 20 octobre, 2005 11:29
Jean Véronis a écrit...: Miss Tics> ces pollutions paraissaient fort prévisibles -- Oui, et Google a même joué avec le feu en "boostant" aussi fort les blogs de sa filiale Blogger dans le classement. J'en ai bénéficié, mais bon... ils ont fabriqué une véritable pompe à spam.; 20 octobre, 2005 11:31
J2J2 a écrit...: Copie d'un commentaire que j'ai déjà laissé chez Miss Tics:

"Tim Bray, l'un des pères d'XML proposait récemment sur son blog d'utiliser des e-timbres pour lutter contre le spam de tout genre."; 20 octobre, 2005 12:18
Anonyme a écrit...: Jean, juste un petit commentaire pour signaler que, (peut être je suis à la traine mais je viens de le decouvrir), MSN a mis en place un peu le système de classement des sites en plusieurs dimensions dont je parlais sur ton billet sur les splogs...
Il y a maintenant 3 critères: fréquence de mise à jour, popularité et exactitude de correspondance. En jouant avec ces paramètres, il doit etre possible d'éviter des splogs.....; 20 octobre, 2005 17:51
SB a écrit...: J'en viens à me demander si mon dernier blog passerait les barrières anti-splog...
Il est ici : http://bailly.blogs.com/blabla_du_web/; 21 octobre, 2005 11:26
Jean Véronis a écrit...: Sébastien> Assourdissant!

Mais TypePad est peut-être moins sous le feu des projecteurs, et en plus comme il faut payer (il me semble qu'il n'y a pas de version gratuite?), ça limite le splog. C'est finalement un peu le principe de l'e-timbre dont parlait Jérôme plus haut.; 21 octobre, 2005 16:06
VinZ a écrit...: Caroline> Sarkozy a été victime d'un "google bombing". Quelques internautes, énervés par le mailing qu'ils avaient reçu de Sarkozy, un peu comme du spam, ont décidé de se venger.

Google, pour faire son classement, utilise notamment les liens qui pointent vers chacune des pages, et le texte que contiennent ces liens. Si vous avez beaucoup de liens contenant le mot "voiture" qui pointent vers un site, Google se dit que le site en question doit traiter de voiture.

Les google-bombeurs ont détourné cela. L'idée, qui a été fortement relayée, transmise de blog en blog, était de créer des liens "Nicolas Sarkozy" pointant sur le site officiel d'Iznogoud, et des liens "Iznogoud" pointant sur la page de la bio de sarkozy sur le site du ministère de l'Intérieur...
L'algorithme de Google ne sachant évidemment pas détecter les blagues, il a indexé tous ces liens, et au bout de quelques jours, a présenté le site d'iznogoud parmi les premiers résulats pour "sarkozy" ou "nnicolas "sarkozy", et la bio de sarko parmi les premiers résultats pour "iznogoud"; 21 octobre, 2005 17:38
Jean Véronis a écrit...: Il y a un article dans Wikipedia (la version anglaise est largement plus détaillée).; 21 octobre, 2005 18:05
FR a écrit...: Pour en revenir au sujet de l'article, Blogger impose maintenant un captcha pour chaque article posté.; 22 octobre, 2005 00:50

Enregistrer un commentaire

mardi, octobre 18, 2005

Ortograf: Ça repart chez Microsoft

La plupart d'entre vous ont probablement raté le long commentaire de mon ami Thierry Fontenelle, chercheur chez Microsoft à Redmond, sur le billet "Correcteurs orthographiques en panne?" Il faut dire que ce commentaire est arrivé en plein pendant les vacances d'été... Je m'interrogeais sur l'apparente stagnation de la recherche dans le domaine, mais la réponse de Thierry montre que Microsoft a pleinement pris conscience de l'enjeu et que son équipe (le Speech & Natural Language Group) est à fond sur le sujet. Je recopie son commentaire ci-dessous, car il est trop dommage que cette réponse longue et documentée reste enfouie dans les commentaires d'un vieux billet (si, déjà vieux: le temps de la blogosphère est rapide, trop rapide!). J'en ai profité pour refaire ma petite évaluation...

Bonjour Jean,

Tout d’abord, un tout grand merci pour ce blog, tout aussi intéressant et passionnant que les précédents. Il a retenu toute mon attention parce qu’il traite justement de problèmes sur lesquels je viens de travailler ces derniers mois. En novembre dernier, nous (je parle ici de Microsoft, puisque c’est pour cette société que je travaille) avons sorti une nouvelle version de notre correcteur grammatical pour MS Word. En avril 2005, nous avons également mis gratuitement à la disposition des utilisateurs d’Office 2003 une version complètement remaniée du correcteur orthographique (voir ici pour savoir comment télécharger ce nouvel outil). Puis-je demander si ce sont ces deux nouvelles versions qui ont été utilisées dans le cadre de l’expérience menée sur cet article du Monde ? Je pense que ce n’est pas le cas car un test rapide vient de me montrer que certaines des fautes introduites intentionnellement dans cet article sont repérées et corrigées par le nouveau correcteur grammatical (notamment « a Singapour » --> « à Singapour », ou encore « a-t-il déclarer » --> a-t-il déclaré). J’ai aussi été surpris de voir que certaines chaînes de mots en majuscules étaient considérées comme des fautes (6,75 MILLIARDS D’EUROS…). Je ne suis pas parvenu à reproduire ce comportement avec le nouveau correcteur.

Je voulais préciser ici que nous ne nous désintéressons pas du tout de la recherche relative aux outils de correction linguistique, loin de là. J’en ai d’ailleurs parlé à Lorient l’an dernier lors du congrès de l’Association européenne de lexicographie, Euralex). Les deux produits que nous venons d’offrir gratuitement à nos utilisateurs francophones sont le fruit d’investissements importants et nous continuons à investir dans ce domaine pour améliorer ces outils et couvrir un plus grand nombre de langues. Nous sommes parfaitement conscients qu’ils ne sont pas infaillibles, mais je puis vous assurer que les nouvelles versions sorties ces derniers mois ont bénéficié d’améliorations plus que substantielles. Nous avons augmenté de plus de 10% le nombre de cas où la première proposition est la bonne, par exemple (par rapport au correcteur précédent). Nous avons aussi réduit de 74% le nombre de fausses alertes (le descriptif consultable ici donne de plus amples informations). La prise en compte de la féminisation des noms de métiers (j’en ai parlé brièvement ailleurs sur ce site il y a quelques semaines) et de l’orthographe recommandée par le Conseil Supérieur de la Langue Française et l’Académie Française est le résultat de notre souci de faire évoluer nos outils en même temps que la langue française et de répondre aux besoins de nos utilisateurs, tant en France qu’au Québec, en Belgique, en Suisse, en Algérie, au Maroc ou ailleurs.

Tous ces nouveaux outils sont également basés sur des analyses d’erreurs réelles (ce qui nous a justement permis d’améliorer la qualité des propositions de corrections). Dans l’expérience que tu décris, il est exact que ni le correcteur orthographique ni le correcteur grammatical ne sont en mesure (actuellement) de repérer la faute dans « les cinq vies candidates pour les JO 2012 ». Une rapide recherche sur le web (tant sur Google que sur MSN) montre que la chaîne « vies candidates » n’est pas présente sur le web (à part sur ce site ;-), ce qui démontre sans doute l’aspect artificiel de cette erreur de nature plus sémantique que grammaticale. Mais nous travaillons sur la question… (je ne peux en dire plus pour le moment ;-)

Il est un autre aspect sur lequel je souhaitais faire un commentaire. Les noms propres ont été intentionnellement ignorés dans l’évaluation. Je pense néanmoins qu’ils devraient être pris en compte lors du calcul de la précision et du rappel, qui utilisent la notion de bruit. Si on en tient compte, on s’aperçoit alors que la précision du correcteur de MS Word dépasse celle de la Toolbar de Google. Un exemple : là où Google montre que son lexique d’entités géographiques et de noms de personnes est très pauvre (Londres, Madrid, New York, Moscou, Singapour et Chirac… sont considérés comme des fautes au même titre que Londre et Chriac, le correcteur de MS Word ne soulignera que Londre et Chriac (à juste titre) et n’attirera pas inutilement l’attention de l’utilisateur sur des fautes qui n’en sont pas, tout en proposant les bonnes versions de ces noms propres en cas d’erreur). J’ai la faiblesse de croire que cet aspect est également important pour nos utilisateurs (de ce côté, je dois avouer que nos synergies avec nos collègues d’Encarta nous ont permis de bénéficier de leurs bases de données de termes géographiques et de personnages célèbres pour enrichir notre dictionnaire et ainsi réduire le bruit).

En guise de cerise sur le gâteau, je ne résiste pas à la tentation de donner quelques exemples de tournures fautives maintenant repérées par la nouvelle version du correcteur grammatical :

Si j’aurais su, je l’aurais fait.
Je m’ai trompé.
Je l’ai fait fonctionné.
Je les ai vu. (La correction propose ici « vus » ou « vues » puisque le contexte ne permet pas de lever l’ambiguïté)
Elle s’est cassée la jambe.
J’ai télécharger les mises à jour.
J’ai téléchargé les mises à jours.
Le gouvernement ne parle qu’en terme de budget et d’économies.

La concordance des temps, le choix de l’auxiliaire, l’accord du participe passé ou le choix du participe passé ou de l’infinitif comptent parmi les difficultés les plus répandues sur lesquelles ont porté les améliorations de ce correcteur.

Merci de m’avoir lu jusqu’ici, en espérant avoir pu contribuer à la discussion. Il reste effectivement beaucoup à faire, mais nous y travaillons. Merci aussi de nous faire part de tous ces commentaires très constructifs!

Thierry Fontenelle (Microsoft Speech & Natural Language Group)

J'avoue que j'avais loupé l'annonce de ce "patch" pour Office 2003 (et vous?). On s'y perd un peu dans tous les patches de Microsoft, à dire vrai, et je ne sais pas pourquoi celui-ci n'a pas été détecté automatiquement par le système de mise à jour automatique de Windows. Peu importe, je me suis évidemment jeté sur le lien que signale Thierry, et j'ai testé le nouveau correcteur. Je confirme donc tout ce que dit Thierry. J'espère pouvoir revenir plus tard dans un autre billet sur la "nouvelle orthographe" (qui n'est plus très nouvelle...), car le sujet mérite une discussion approfondie.

J'ai relancé mon évaluation de juillet avec le nouveau correcteur, et bien sûr avec la Toolbar de Google. Première constatation: la Toolbar n'a pas bougé d'un iota. Pourtant, il y avait matière à amélioration, au niveau des noms propres en particulier, et il n'est pas bien difficile, comme le fait remarquer Thierry, de se procurer de telles listes (je peux leur vendre la mienne ;-). J'avais exprimé mon admiration à propos de la nouvelle version de la Toolbar lorsqu'elle est sortie en février (voir ici), mais je dois dire que je suis déçu par sa non-évolution, malheureusement assez typique des produits Google. Les produits sortent des Google Labs avec une frénésie qu'on a parfois du mal à suivre, mais ils ont tendance ensuite à stagner indéfiniment, dans d'éternelles version bêta sur lesquelles il semble que plus personne ne travaille (je pourrais en dire autant d'autres fonctions que j'ai appréciées à leur sortie comme Google Suggest, Google News, etc.). Le but de tout cela n'est-t-il pas finalement de rechercher plutôt des effets d'annonce?

Par ailleurs, en reprenant mon évaluation, je suis tombé d'accord avec Thierry. Il faut intégrer les noms propres dans l'évaluation, car après tout, peu importe au rédacteur qu'il s'agisse d'un nom propre ou pas: ce qu'il souhaite c'est laisser le moins de fautes possibles dans son texte. Bien sûr, c'est extrêmement difficile pour les correcteurs, et en l'absence d'une correction contextuelle (il y a des pistes...), l'ajout d'une multitude de noms propres peu fréquents risque de plutôt détériorer les choses. Mais à charge pour les correcteurs de se débrouiller, de trouver les bons compromis et les bonnes astuces. L'utilisateur n'est intéressé que par le résultat! J'ai appliqué la même logique aux mots étrangers du texte, que j'avais dans un premier temps éliminés, me disant que c'était "trop difficile" pour les correcteurs. Pourtant, ils ont des capacités de détection de la langue; elles sont souvent mises en défaut sur des fragments très courts, mais à nouveau, aux correcteurs de se débrouiller.

Voici donc les nouveaux résultats (avec quelques petits correctifs sur ma version précédente, petites erreurs, différente façon de compter certains cas...). Comme vous ne partagez peut-être pas mon point de vue sur les noms propres et les mots étrangers, j'ai fait deux évaluations distinctes (je rappelle que le bruit est constitué des fausses alertes et que le silence correspond aux erreurs non repérées). Mes données sont disponibles aussi sous forme de fichier Excel ici.

%	Bruit	Silence
MSWord	6,7	25,3
MSWord avec Patch	1,7	21,3
Google	1,7	24,0

Sans noms propres et mots étrangers

%	Bruit	Silence
MSWord	21,7	23,5
MSWord avec Patch	9,3	20,0
Google	34,7	22,4

Avec noms propres et mots étrangers

On voit que, comme le disait Thierry, le bruit diminue dans des proportions considérables avec le patch. L'effet est particulièrement spectaculaire si on prend en compte les noms propres et mots anglais: plus du tiers des erreurs signalées par la Toolbar n'en sont pas, alors que cette proportion tombe à moins de 10% avec le correcteur MS Word patché.

J'ai été particulièrement impressionné par les nouvelles fonctionnalités grammaticales. Il reste évidemment beaucoup de travail dans ce secteur. Il est difficile d'améliorer les choses sans déclencher de fausses alertes, qui sont généralement mal acceptées par les utilisateurs (par exemple le nouveau correcteur me signale une erreur sur "les villes candidates" et me propose d'écrire plutôt "candidatent"). Là aussi le problème est celui de l'analyse contextuelle, qui constitue manifestement le principal défi pour les correcteurs du futur.

Je suis très heureux de voir que Microsoft a repris la recherche dans le secteur. D'autres produits existent, Antidote, ProLexis, Correcteur 101, etc. Dominique Laurent de la société Synapse Développement (qui a réalisé les précédentes versions du correcteur de MS Word) me signale aussi la sortie du tout nouveau Cordial 2006. Ce serait intéressant de pouvoir faire un comparatif...

Thierry me dit qu'il est tout disposé à répondre aux commentaires. N'hésitez pas, ça n'est pas souvent qu'on peut interagir en direct avec des chercheurs de Microsoft!

Post-scriptum

Mon texte "pourri" de fautes est ici, si vous voulez faire vos propres tests (j'espère que je n'aurai pas d'ennuis avec Le Monde ;-) C'est pour la bonne cause...

Libellés : Orthographe

9 Commentaires:

J2J2 a écrit...: Désolé Jean pour cette infidélité, mais je vais me touner directement vers Thierry puisqu'il est tout disposé à répondre aux commentaires.. ;-)

Thierry donc, je suis très impressionné par les résultats donnés ici par Jean.
En revanche, je suis très étonné que le correcteur propose "candidatent" pour "les villes candidates".
Ce cas me semble pourtant assez simple et pourrait facilement être résolu par l'utilisation d'une matrice de probabilité d'ordonancement des groupes grammaticaux (ce que vous utilisez probablement) couplée à des statistiques d'utilisation des termes dans chacune des formes.
De manière grossière et simpliste, disons que la matrice donnera très certainement un score à peu prêt équivalent pour les séquences:
Sujet-Complément et Sujet-Verbe
Ici, l'ambiguité est donc de savoir si le deuxième groupe doit être considéré comme un Complément ou un Verbe. Quelques analyses des articles d'Encarta (ou Wikipedia) révèleraient certainement que le terme "Candidat*" est bien plus souvent utilisé dans sa forme Complément que dans sa forme Verbe, et ainsi l'ambiguité est levée.
Non?; 18 octobre, 2005 14:40
Anonyme a écrit...: Merci pour le tuyau Jean !; 18 octobre, 2005 15:10
Moulinvert a écrit...: Juste une question : avez-vous eu l'occasion d'effectuer les mêmes tests avec la version Mac de Word, incluse dans Office Mac:2004 ? Le correcteur est-il le même ?

Bravo encore pour le travail accompli, et surtout communiqué !; 18 octobre, 2005 15:24
Jean Véronis a écrit...: Moulinvert> Non, je n'ai pas de Mac sous la main. Je ne sais pas trop comment se correspondent les versions. Peut-être d'autres lecteurs auront-ils l'info?; 18 octobre, 2005 15:29
Kaa a écrit...: Il me semble que sous Mac, le correcteur utilisé par MS Word est Cordial, justement...; 18 octobre, 2005 15:41
Kaa a écrit...: J'ai une petite question pour Thierry : j'ai entendu parler de "listes noires" politiquement correctes appliquées chez MS, certains mots seraient donc volontairement absents du dico, car considérés comme offensants. Je n'ai pas réussi à en trouver en faisant qq tests, mais est-ce vrai ?; 18 octobre, 2005 15:51
Anonyme a écrit...: Bonjour à tous,

Un tout grand merci à Jean d’avoir tenu compte des commentaires que j’avais formulés en juillet et d’avoir rouvert le débat avec une nouvelle évaluation tenant compte des mises à jour.

Je vais essayer de répondre aux diverses questions :

1) Les deux nouveaux correcteurs (le grammatical et l’orthographique) sont directement intégré au Service Pack 2 d’Office 2003. Lorsqu’il a été lancé en avril dernier, il fallait une démarche volontaire de la part de l’utilisateur pour installer les produits. Ce n’est plus le cas si vous installez le SP2 d’Office 2003, qui est disponible depuis 3 semaines environ.
2) La version Mac n’a pas encore été mise à jour. Le correcteur qui tourne aujourd’hui sous Mac est donc inchangé et n’intègre donc pas encore la réforme de l’orthographe. Cette mise à jour est prévue, mais je ne peux pas être plus précis pour le moment quant aux dates.
3) Concernant « les villes candidatent », c’est vrai qu’on n’est plus tout à fait dans le domaine du correcteur orthographique au sens strict. Le problème est que le verbe « candidater » est fréquemment utilisé dans le monde universitaire (surtout français), ce qui provoque de nombreuses ambiguïtés (ou ambigüités ;-)) syntaxiques (il ne serait d’ailleurs pas erroné de dire que des villes ont candidaté pour obtenir le droit d’organiser les Jeux Olympiques, même si ce verbe est surtout réservé au monde académique). Les statistiques sont très difficiles à utiliser (pour une forme erronée correctement identifiée, combien de formes correctes allons-nous malencontreusement souligner, en gênant l’utilisateur ?). Nous travaillons sur ce type de problèmes, je peux vous l’assurer, mais le développement de ce genre de produit est assez long, justement pour réduire le bruit…
4) S’agissant les « listes noires », il existe effectivement des mots que nous ne souhaitons pas suggérer car ils peuvent offenser les utilisateurs. Je tiens toutefois à préciser que ces mots ne sont pas absents du dictionnaire, contrairement à ce qui est écrit plus haut. Ils sont bien présents, ce qui signifie que le correcteur les considère comme corrects (s’ils étaient absents, le correcteur les soulignerait en rouge). Pour diverses raisons, nous devons tenir compte de certaines sensibilités (très difficiles à définir pour le linguiste que je suis, plus habitué à décrire la langue, à l’analyser et à tenter d’en percer les secrets qu’à gérer des problèmes juridiques potentiels ou réels avec des utilisateurs qui ne comprennent pas toujours comment fonctionnent ces outils et qui prêtent à leurs concepteurs des intentions qu’ils n’ont évidemment pas).

J’espère que ceci répondra à vos questions. N’hésitez pas non plus à consulter notre blog. Nous essayons de tenir compte de vos avis, de vos besoins et nous essayons aussi de communiquer les nouveautés telles que celles-ci. Mon billet d’hier concernait justement l’intégration de la réforme de l’orthographe et les diverses options que nous offrons aux utilisateurs.

Bien à vous,

Thierry

Thierry Fontenelle [MSFT]
Microsoft Speech & Natural Language Group; 18 octobre, 2005 18:45
Jean Véronis a écrit...: Merci Thierry pour cette réaction! La question des "listes noires" est effectivement un problème délicat -- et c'est plus un problème de société qu'un problème d'informatique. On se souvient de l'affaire du mot "anti-arabe"... Je me fais un petit pense-bête pour y revenir un de ces 4.; 19 octobre, 2005 21:34
pankkake a écrit...: Ca me rappelle une vieille version de Word ou Works... il y avait une faute dans la boîte de dialogue "a propos" du correcteur !; 10 novembre, 2005 21:05

Enregistrer un commentaire

jeudi, octobre 13, 2005

Outil: Un trésor de liens

J'ai exprimé à diverses reprises mon admiration pour le Trésor de la Langue Française (TLF), dictionnaire monumental réalisé par l'Institut National de la Langue Française (INaLF) dans les années 60 à 90 (histoire). Informatiser la chose n'était pas une évidence. Je me rappelle de multiples réunions auxquelles le directeur de l'époque, Robert Martin, avait eu la gentillesse de me convier, et pendant lesquelles tous les experts présents faisaient l'étalage de la plus grande perplexité: 16 tomes de 1000 à 1400 pages chacun, les premiers composés au plomb, et le reste disponible sous forme de bandes de photocomposition aux formats les plus disparates... La superbe réalisation du génial informaticien "maison" Jacques Dendien, disponible en CD-ROM et sur le Web, n'en est que plus remarquable:

Pourtant, à la fin de mon dernier billet, j'exprimais ma frustration de ne pouvoir mettre de lien direct vers les entrées du TLFi (i pour" informatisé")... Ca m'a rappelé mon coup de gouguele du printemps, à propos de la fonction "define" de Google (lequel n'a pas fait le moindre effort pour améliorer quoi que ce soit depuis, soit dit en passant). J'y déplorais déjà que notre Trésor reste caché, inaccessible à nos liens.

J'ai longuement discuté avec mon ami Jean-Marie Pierrel, directeur de l'Atilf (qui succède à l'INaLF), et il me dit que l'équipe prépare un "TLF Direct" de toute beauté. Je suis impatient de voir le bébé. En attendant, je mets à disposition un petit "haque" (anglais "hack, hacker", de "hackney" qui a aussi donné le français "haquenée" [ou peut-être pas... voir discussion dans les commentaires]), qui vous permettra de mettre des liens vers notre trésor national. Il vous suffit de mettre un lien vers l'url :

http://www.up.univ-mrs.fr/veronis/tlfi.php?mot=votre_mot

[Lire le Post-Scriptum !]

Exemple: misologue

Pardonnez la rusticité (ça ne m'a pris que 15 minutes chrono), mais je crois que même en l'état ça pourra être utile, pour éclairer vos billets, ou bien pour les profs de français:

La lune prêta son pâle flambeau à cette veillée funèbre. Elle se leva au milieu de la nuit, comme une blanche vestale qui vient pleurer sur le cercueil d'une compagne. Bientôt elle répandit dans les bois ce grand secret de mélancolie, qu'elle aime à raconter aux vieux chênes et aux rivages antiques des mers... [Chateaubriand ;-) via Sablier].

A vos liens! Déliez-vous les mots.

Post-scriptum

1. Promesse tenue! et à toute vitesse, encore! Jacques Dendien nous annonce (voir son commentaire ci-dessous) qu'il a ouvert le TLFi. Oubliez mon petit haque et utilisez l'adresse officielle:

http://atilf.atilf.fr/dendien/scripts/fast.exe?votre_mot

Bravo Jacques et un grand merci de la part de tous les amoureux du français!

Vous pouvez donc mettre des liens vers les mots, comme ceci, ou bien ajouter un formulaire de recherche sur vos sites :
Code à recopier:

<form action="http://atilf.atilf.fr/dendien/scripts/fast.exe" method="get">
<center><input name="mot"><input value="TLFi" type="submit"></center></form>

2. Des lecteurs me demandent un plugin pour Firefox (voir par exemple Boris dans les commentaires). Wawa en a fait un aussi. Le mien est sur Mozdev, grâce à un lecteur anonyme:

Plugin TLFi pour Firefox

53 Commentaires:

Anonyme a écrit...: Marrant, je viens de faire la même chose aujourd'hui, avec un search-plugin Firefox en plus :); 14 octobre, 2005 01:08
Anonyme a écrit...: La différence, c'est que ça ne m'a pas pris 15 minutes :); 14 octobre, 2005 01:10
Anonyme a écrit...: « un petit "haque" (de l'anglais "hack, hacker", lui même du français "haquenée") », dis-tu.

je n'ai rien d'autre que la version numérique du New Oxford Dictionary (2nd edition) sous la main mais voici ce que j'y trouve :

« Hack [...] 2 informal an act of computer hacking. • a piece of computer code that performs some function, esp. an unofficial alternative or addition to a commercial program : freeware and shareware hacks.
[...]
ORIGIN Old English haccian [cut in pieces] ; related to Dutch hakken and German hacken. »

quant au hack venant de hackney, voici ce qu'il en est dit :

« 1 a writer or journalist producing dull, unoriginal work.
[...]
2 a horse for ordinary riding.
[...]
ORIGIN Middle English (sense 2) : abbreviation of hackney. Sense 1 dates from the late 17th cent »

jean, serais-tu quelque maquignon matois décidé à nous vendre quelque haquenée pour belle jument?; 14 octobre, 2005 04:52
Anonyme a écrit...: Merci bien pour ce petit outil !
Bah, une haquenée n'est pas forcément une jument qui n'est pas jolie. Les dames préféraient sûrement de jolis chevaux.; 14 octobre, 2005 06:48
Jean Véronis a écrit...: wawa> Les grands esprits se rencontrent!; 14 octobre, 2005 08:32
Anonyme a écrit...: Wawa, il est où ton plugin firefox? Ce serait bien qu'on puisse le télécharger à partir de mozdev. Je crois que ça intéresserait beaucoup de personnes...; 14 octobre, 2005 08:43
Jean Véronis a écrit...: Michaël> Hmm... D'autres dicos le font dériver de "hack writer", de "hackney", etc. Voir par exemple ci-dessous (de Online Etymology Dictionary) On est peut-être dans un de ces cas de contamination dont j'ai déjà parlé, avec deux étymologies qui se télescopent.. Je vais rajouter une petite note de prudence dans le corps de mon texte (merci!).

--

hack (1) in O.E. tohaccian "hack to pieces," from W.Gmc. *khak- (cf. O.Fris. hackia, Du. hakken, O.H.G. hacchon), perhaps infl. by O.N. höggva "to hack, hew," from PIE *kau- "to hew, strike." Sense of "short, dry cough" is 1802. Noun meaning "an act of hacking" is from 1836; fig. sense of "a try, an attempt" is first attested 1898. Slang sense of "cope with" (such as in can't hack it) is first recorded in Amer.Eng. 1955, with a sense of "get through by some effort," as a jungle.

hack (2) c.1700, originally, "person hired to do routine work," short for hackney "an ordinary horse" (c.1300), probably from place name Hackney (Middlesex), from O.E. Hacan ieg "Haca's Isle" (or possibly "Hook Island"). Now well within London, it was once pastoral. Apparently nags were raised on the pastureland there in early medieval times and taken to Smithfield horse market (cf. Fr. haquenée "ambling nag," an Eng. loan-word). Extended sense of "horse for hire" (1393) led naturally to "broken-down nag," and also "prostitute" (1579) and "drudge" (1546). Special sense of "one who writes anything for hire" led to hackneyed "trite" (1749); hack writer is first recorded 1826, though hackney writer is at least 50 years earlier. Sense of "carriage for hire" (1704) led to modern slang for "taxicab." Hacker "one who gains unauthorized access to computer records" is 1983, from slightly earlier tech slang sense of "one who works like a hack at writing and experimenting with software, one who enjoys computer programming for its own sake," 1976, reputedly coined at Massachusetts Institute of Technology. Hack (v.) "illegally enter a computer system" is first recorded 1984.; 14 octobre, 2005 08:45
Jean Véronis a écrit...: Boris> Je ne sais pas où est celui de Wawa, mais le mien est là:

http://www.up.univ-mrs.fr/veronis/tlfi/tlfi.src; 14 octobre, 2005 08:48
Anonyme a écrit...: Il faudrait créer une extension pour Firefox qui permettrait de coller un texte en gardant la mise en forme, en mettant automatiquement les balises HTML. Également pour les balises SPIP, pourquoi pas. Ah, si je savais coder...

De toute façon, haquenée semble dériver du moyen anglais hackney (cf. TLFi, par exemple).; 14 octobre, 2005 09:18
Jean Véronis a écrit...: Yannick> Oui, encore que Pierre Guiraud doute de cette étymologie, et voit dans cette idée de cheval qui bat l'amble (c'est-à-dire une allure qui secoue quelque peu) une dérivation du normand "haqueter" (=hoqueter). Comme quoi l'étymologie c'est bien difficile!

P. Guiraud. Dictionnaire des étymologies obscures. Payot, 1982.; 14 octobre, 2005 10:50
Anonyme a écrit...: Le mien est là : http://wawa.over-blog.com/article-1003790-6.html; 14 octobre, 2005 12:25
Anonyme a écrit...: C'est embêtant l'UTF-8 ne fonctionne pas...
Lorsque je tape http://www.up.univ-mrs.fr/veronis/tlfi.php?mot=haquenée le TLFI ne comprends que le Latin-1, et donc ne sait rien faire de mes lettres accentuées UTF-8. :-/; 14 octobre, 2005 14:20
Anonyme a écrit...: Thank you for keeping such an interesting blog.; 14 octobre, 2005 14:43
Jean Véronis a écrit...: Anonymous (utf-8)> je n'arrive pas à reproduire votre problème, ni sous Linux ni sous Windows (Firefox et IE).

Quelqu'un d'autre a-t-il le même souci?; 14 octobre, 2005 15:14
Anonyme a écrit...: J'ai le même problème que l'anonyme plus haut : si je tape "granulé", par exemple, j'obtiens ce message de l'ATILF :

"Veuillez utiliser exclusivement des caractères alphabétiques, des blancs, des tirets ou des points."

J'utilise le searchplugin de wawa.; 14 octobre, 2005 16:12
Anonyme a écrit...: Oups, pardon pour l'anonymat du message ci-dessus, je croyais avoir tapé mon nom quelque part, déjà...; 14 octobre, 2005 16:13
Jean Véronis a écrit...: Merome> Et en tapant directement

http://www.up.univ-mrs.fr/veronis/tlfi.php?mot=granulé

dans la barre d'URL de votre navigateur, ça donne quoi?
(pourriez-vous svp préciser quel système et quel navigateur vous utilisez?)

Merci de votre aide!; 14 octobre, 2005 16:17
Anonyme a écrit...: ah mince, suite à cette excellente nouvelle, j'en avais fait un cette nuit de plugin de recherche :
http://www.sherlock-cherche.org/plugins_dictionnaire.php#Dictionnaires

Du coup ça fait double emploi. Vous voulez que je le retire de ce site, ou bien mettre le votre à la place ?
(Remarquez, ce sont les mêmes à peu de choses prés); 14 octobre, 2005 17:33
Anonyme a écrit...: quand je tape
http://www.up.univ-mrs.fr/veronis/tlfi.php?mot=granulé
il me le transforme en granul%C3%A9 et je tombe sur une page d'erreur :
Veuillez utiliser exclusivement des caractères alphabétiques, des blancs, des tirets ou des points.

Ça me le fait avec Firefox et Opéra sous Linux; 14 octobre, 2005 17:37
Jean Véronis a écrit...: Arno> Pour le plugin faites comme vous voulez, ça n'est pas bien grave!

Par contre, cette histoire de bug utf-8 erratique m'inquiète. Mon Firefox sous LInux ne crée pas ce problème (et je n'ai aucun pb sous windows non plus). Et je vois que le programme qu'a écrit wawa tout à fait indépendemment a le même souci.

Difficle à débugguer sans pouvoir reporduire... Si quelqu'un a des idées?; 14 octobre, 2005 17:43
Anonyme a écrit...: je ne sais pas si ça peut aider, mais je viens de voir que je n'ai plus ce problème dans Firefox si je modifie une valeur de about:config
network.standard-url.encode-utf8
si je la mets à false, ça marche (mais j'ai l'impression que la valeur par défaut est true); 14 octobre, 2005 17:58
Anonyme a écrit...: Il y avait un bug chez moi que j'ai résolu d'une manière franchement pas élégante mais bon... Ca marche à présent pour les minuscules accentuées sans avoir besoin de faire une mise à jour du plugin. Pas pour les majuscules accentuées en revanche. Si vous constatez d'autres bugs sur mon plugin, faites-en plutôt le rapport chez moi, ça évitera de polluer le blog de M. Veronis :); 14 octobre, 2005 18:09
Anonyme a écrit...: Il est né le divin enfant !

Une version rapide du TLF a vu le jour :
http://atilf.atilf.fr/dendien/scripts/fast.exe?

Le point d'interrogation final doit être suivi, au choix :
1) De votre mot en Latin1 (ISO-88-59-1) en clair (peut ne pas fonctionner avec certains navigateurs)
2) De votre mot en Latin1 sous la forme "url-encoded"
3) Dans les cas 1 et 2 ci-dessus, le mot peut être précédé de la chaîne de caractères mot=

Il vous est donc possible de taper l'URL dans la barre d'adresse de votre navigateur ou ce qui est + pratique, de vous définir un formulaire en local du genre :

<html><body>
<form action=http://stella.atilf.fr/dendien/scripts/fast.exe method=GET>
<center>Indiquez votre mot :<br>
<input name=mot><input type=submit value=VALIDER></center></form></body>
</html>

Cette version est incomparablement plus rapide. De grâce, je vous prie d'arrêter les bricolages qui ont pour effet d'initialiser une nouvelle session à chaque mot que vous recherchez et de surcharger le serveur.

Faites-moi part de vos commentaires !

Jacques Dendien
jacques.dendien@atilf.fr; 14 octobre, 2005 18:53
Anonyme a écrit...: Merci beaucoup.

Pour l'info, mon système est Linux+Firefox avec l'UTF-8 par défaut. À chaque fois que je vais sur le site du TLFI, je dois passé manuellement d'UTF-8 à Latin-1 car il n'y pas d'entête spécifiant le code utilisé sur la page. network.standard-url.encode-utf8 est déjà fausse ici, et la changée ne change rien au résulat «Mot non trouvé .»

À part ce problème c'est vraiment génial.; 14 octobre, 2005 19:55
Jean Véronis a écrit...: Jacques> Un immense bravo, et un grand merci! Je reconnais une fois de plus ton talent!

J'ai transformé mon URL en simple redirection sur la tienne. Tu n'auras donc plus de soucis de sessions ;-)

Je vais mettre à jour mon billet, etc. etc.
Amitiés et bon week-end!; 14 octobre, 2005 20:18
Anonyme a écrit...: J'ai essayé de mettre les 2 plugins sur mozdev mais rien n'y fait. Si quelqu'un s'y connait davantage, voilà le type d'erreur obtenu:
* Error: Update URI 'http://mycroft.mozdev.org/plugins/tlfi.src' does not point to the correct location.
* Error: UpdateIcon URI 'http://mycroft.mozdev.org/plugins/tlfi.gif' does not point to the correct location.; 14 octobre, 2005 21:41
Anonyme a écrit...: Je viens de le mettre.
Je me suis permis de faire les modifications nécessaires pour qu'il soit accepté : modifier les urls de mise à jour, modifier le nom de l'icone, et ajouter une balise searchform.

http://mycroft.mozdev.org/download.html?name=tlfi&submitform=Find%20search%20plugins; 14 octobre, 2005 22:12
Jean Véronis a écrit...: Eh bien c'est sympa, Anonymous. J'étais justement en train de regarder ce qui n'allait pas... Merci!; 14 octobre, 2005 22:17
Anonyme a écrit...: Super ! J'ai déjà évoqué ce dictionnaire mais là, par un expert, c'est drôlement mieux !
Et puis le coup du hack, extra !!!!
nb : la famille véronis a le temps de voir le sieur Jean de temps en temps ?! Quelle énergie !! Pour ma part, j'adore !; 15 octobre, 2005 11:33
Anonyme a écrit...: Ca fait des mois que, moi aussi, j'attendais cette fonctionnalité, que je viens donc de rajouter à manhack.net, une interface de recherche qui permet d'interroger plus de 200 moteurs et bases de données à partir d'un seul et même formulaire.

A quand la même fonctionnalité pour le Journal Officiel ?...; 15 octobre, 2005 11:44
Anonyme a écrit...: À quand cette fonctionalité pour le Grand dictionnaire ? http://www.granddictionnaire.com/; 15 octobre, 2005 16:23
Anonyme a écrit...: A quel bonheur d'avoir un plugin firefox qui marche parfaitement. Quel bonheur de voir aussi que les choses bougent!! (Merci Jacques Dendien) (ça fait des années que je regardais tous les ans si il n'y avait pas un plugin sur mozdev pour le tlf)

Pour autant, ce serait le paradis si le TLFi évoluait avec son temps avant qu'il ne soit dépasser par le wiktionnaire qui , si il est encore loin de l'exhaustivité du TLF, avance à grand pas. (et est libre de droit ce qui est la cerise sur le gâteau quand on travaille dans ce domaine)
http://fr.wiktionary.org/; 15 octobre, 2005 17:32
Jean Véronis a écrit...: Boris> Jean-Marie Pierrel me dit que l'Atilf travaille sur des suppléments. Ils ne seront sans doute pas intégrés au corps des entrées (trop coûteux, on le comprend), mais qu'ils apparaîtront sans doute sous forme de notes ou renvois à la fin des articles. J'attends avec impatience!; 15 octobre, 2005 17:37
Anonyme a écrit...: Boris new> pour un dico français libre de droit (car contenu passé dans le domaine public depuis bien longtemps), il y a le XMLittré.
Evidemment, c'est très spécifique, puisque les définitions ont été rédigées vers 1870, mais ça donne parfois des choses bien cocasses.
On peut par exemple comparer la vestale du TLFi avec celle du Littré :
http://francois.gannaz.free.fr/Littre/xmlittre.php?requete=vestale
D'autre part, c'est (légèrement) collaboratif, puisque le développeur demande qu'on lui signale les erreurs (qui sont essentiellement des erreurs d'OCR ou de formattage automatique), et les corrige régulièrement.; 15 octobre, 2005 22:56
Jean Véronis a écrit...: Gall> Oui, ressource très intéressante, en particulier pour étudier l'évolution de la langue. Et les très nombreux exemples littéraires sont très précieux eux aussi (Corneille, Molière, Beaumarchais, etc.). Je suis sûr que c'est un autre "trésor" pour les profs...; 16 octobre, 2005 09:01
VinZ a écrit...: Grâce au florilège du Littré proposé sur le site dont Gall donne le lien, j'ai découvert l'expression "conduite de Grenoble", que je connaissais pas du tout, bien qu'étant moi-même grenoblois...

Comme quoi, on peut apprendre des choses grâce à l'Internet...; 17 octobre, 2005 11:57
Anonyme a écrit...: C'est le bocson ! même pas en wap...; 17 octobre, 2005 22:07
Anonyme a écrit...: Bon ben il n'y a plus d'obstacle à développer une base sémantique libre du français tel que Wordnet...
Espérons que quelqu'un s'y mette bientôt...
Un bon Wordnet et un bon étiqueteur grammatical libres seraient vraiment super précieux pour toutes les personnes travaillant sur le français...; 17 octobre, 2005 22:10
Anonyme a écrit...: Bonjour,

Il existe une autre version du Littré, qui permet en outre la recherche sur les formes fléchies:
http://www.lesensdesmots.com/

Il permet aussi des liens statiques directs vers les mots-vedette:
http://www.lesensdesmots.com/v/vestale

(sans accents ni caractères spéciaux si on utilise ces liens statiques:
http://www.lesensdesmots.com/v/ebahi par exemple)

D'autres fonctionnalités de recherche (non encore documentées) permettent de chercher dans des champs spécifiques; par exemple:
http://www.lesensdesmots.com/search?q=auteur:racine; 19 octobre, 2005 09:16
Anonyme a écrit...: eb> la fonctionnalité de recherche sur les formes fléchies est sympathique, mais ce site est quand même curieux :
il ne mentionne nulle part le nom de Littré, ni aucune source.
Pourtant j'ai fait plusieurs recherches (en comparant avec le XMLittré de François Gannaz), et le contenu semble exactement le même.

L'absence de référence est pour le moins curieuse, je trouve.; 21 octobre, 2005 14:41
Jean Véronis a écrit...: Gall> Avis partagé!; 21 octobre, 2005 14:46
Anonyme a écrit...: Voici une information fournie par le TLF (dont je reste un aficionado),mais quelquefois, je reste confondu: :)

Explication de la parenté entre "vieillotte" et "vieillotte".

NOTA : Dans les explications qui vont suivre, vous pourrez quelquefois trouver des éléments pouvant sembler discutables (ressemblances orthographiques ou phonétiques appoximatives). Ces approximations sont en fait sciemment voulues, afin d'accroître les chances du logiciel de retrouver ce que vous cherchez, même lorsque la donnée fournie en est éloignée.
D'autre part la parenté peut souvent s'expliquer de multiples façons. Le logiciel vous fournit la première explication trouvée : ce n'est pas toujours la plus directe.

Vous avez recherché "vieillotte" dans le TLF, et le logiciel a décidé de rechercher également "vieillotte".

La raison en est la suivante :

"vieillotte" est identique à "vieillotte".

"vieillotte" est donc apparenté à "vieillotte".; 22 octobre, 2005 14:23
Jean Véronis a écrit...: JPK> Je ne sais pas où vous avez eu cette page qui est effectivement un peu embrouillée, mais lorsque je recherche vieillote (via l'interface en ligne"), j'obtiens:

* vieillotte n'a pas été trouvé dans une entrée du TLF. Le logiciel a donc décidé d'activer son correcteur d'erreurs pour rechercher vieillotte et les mots apparentés dans tout le texte du TLF.
*vieillotte a été trouvé ailleurs que dans des entrées. Le logiciel a également trouvé des mots apparentés.

etc.
Ca me semble logique...; 22 octobre, 2005 15:52
Anonyme a écrit...: J'ai obtenu cette page en suivant les indications données quelques lignes après celles que vous indiquez.
Ainsi: "Vous pouvez cliquer dans le tabeau sur les différents mots pour que le logiciel vous explique pourqoui ils ont été considérés comme apparentés à "vieillote"."
J'ai simplement cliqué sur le mot "vieillote" dans le tableau. Cela ne retire rien à la qualité des informations obtenues par ailleurs.; 22 octobre, 2005 23:33
Anonyme a écrit...: Merci pour ce lien avec le TLFI. Je viens de trouver votre blog grâce à une visiteuse du mien et j'apprécie votre effort méthodique.; 23 octobre, 2005 23:56
Jean Véronis a écrit...: JPK> Ah oui, je vois! C'est l'explication dans la petite fenêtre qui s'ouvre. Petit bug, manifestement. jacques, si tu nous lis...; 24 octobre, 2005 08:46
Jean Véronis a écrit...: Garde-mots> Moi non plus, je ne connaissais pas votre site. Je le mets dans mes fils de lecture! Merci à notre visiteuse commune.; 24 octobre, 2005 08:47
Anonyme a écrit...: ça serait bien d'avoir un

"action=http://stella.atilf.fr/dendien/scripts/fast.exe method=GET
Indiquez votre mot :
input name=mot input type=submit value=VALIDER center
"

pour le tlfi qui tourne sur les PCs aussi...; 27 octobre, 2005 09:12
Anonyme a écrit...: Rebonjour !

Certains utilisateurs ayant éprouvé des problèmes avec l'UTF-8, je mets à disposition du public le point d'entrée suivant pour le TLF:

http://atilf.atilf.fr/dendien/scripts/fastutf8.exe

Il accepte les codes UTF-8 "URL encoded"

Exemple pour chercher le mot "mère" (dont la repésentation UTF-8 s'encode : m%C3%A8re

http://atilf.atilf.fr/dendien/scripts/fastutf8.exe?m%C3%A8re

ou

http://atilf.atilf.fr/dendien/scripts/fastutf8.exe?mot=m%C3%A8re

NOTA :
Les résultats retournés sont en ISO-8859-1 (Latin1)
Les en-têtes HTTP retournés comportent désormais la mention
charset=ISO-8859-1

Normalement, cet en-tête est décodé par le navigateur client : même s'il est réglé pour fonctionner en UTF-8, il ne devrait pas y avoir de problème (j'ai vérifié ceci avec FIREFOX)

L'ancien point d'entrée
http://atilf.atilf.fr/dendien/scripts/fast.exe
n'a pas subi de modification.

Cordialemnt à tous

J.Dendien (jacques.dendien@atilf.fr); 28 octobre, 2005 16:47
Anonyme a écrit...: Petite question.
Si je tape "ortograf" ou "voi", est-il possible d'envoyer la requête au correcteur plutôt que de nous laisser avec le message 'mot non trouvé'.
Merci de vos réponses.
Bill; 30 octobre, 2005 00:23
Anonyme a écrit...: etant tombe par pur hasard sur ce blog, et finalement sur cette page, je ne peux qu'en feliciter l'auteur et les contributeurs.
du coup, je vais peut etre m'offrir le TLFi pour la fin de l'annee, mais je me posais la question de son eventuelle "script-abilite" via d'autres langages pour des applications maisons ? (pas de commerce derriere, juste de la curiosite :) et pas envie de consommer de la bande passante du serveur a chaque erreur de mise au point ou requete); 07 novembre, 2005 21:32
Anonyme a écrit...: j'appuie la requête de Laurent.; 27 novembre, 2005 09:34
Anonyme a écrit...: Pour ceux que ça intéresse, j'ai réalisé une extension firefox permettant d'accéder d'un simple clic droit à la définition TLFi d'un mot sélectionné dans la page web courante. Elle est téléchargeable ici :
http://www.websiteburo.com/tlfi/; 26 janvier, 2007 13:27

Enregistrer un commentaire

samedi, octobre 08, 2005

Récré: Dialogue entre blogues

En ce samedi d'octobre, Fuligineuse nous a offert une jolie petite ode aux b(l)ogues. En retour, je lui fais cadeau d'un nuage de rimes en -ogue:

Pour les technologues, c'est le catalogue des mots en -ogue du TLFi, présenté façon TagClouds. La taille des mots reflète leur fréquence dans les blogues francophones d'après Technorati (en tout petit petit petit, les mots qui ne sont pas du tout présents). Derrière chaque mot se cache un lien cliquable. Ce qui m'a vraiment étonné en tant que lexicologue, c'est que si plein de mots en -ogue sont absents des blogues, sept d'entre eux sont totalement absents du Web indexé par Yahoo (ils ne sont même pas dans des listes de spam): apogogue, coenologue, ignéologue, modilogue, monadologue, ptyalagogue, thyréologue. Savez-vous ce qu'ils veulent dire? Hélas, je ne peux pas vous mettre un lien direct vers les entrées du TLFi (mes collègues du CNRS réfléchissent ;-)

J'aime les nuages... les nuages qui passent...
là-bas... là-bas...
les merveilleux nuages!

Charles Baudelaire

Post-scriptum

19 oct - Pour en savoir plus sur les nuages, lire l'explication d' Olivier, qui nous signale aussi le billet Towards Tag Poetry sur un blog très intéressant :
WRT: Writer Response Theory (Explorations in Digital Character Art)

17 Commentaires:

Antoine Vekris a écrit...: Une petite idée pour thyréologue juste : du grec thyréos, l'équivalent latinisant de héraldiste.
Mais ce n'est qu'une petite idée. Pour quelqu'un qui porte un nom grec ça devrait aller de soi ;-); 08 octobre, 2005 19:29
Antoine Vekris a écrit...: Oh ! et du fin fond de mes souvenirs des cours d'anatomie : ptyalagogues sont soit les cellules produisant de la salive, soit les conduits que la salive traverse. Salivaire on dirait pour les latinistes :-); 08 octobre, 2005 19:36
Jean Véronis a écrit...: OldCola> Eh, eh! "Thureos", le bouclier, l'écu... Bien vu!

Plus prosaïquement le "thyréologue" est le médecin spécialiste de la thyroïde. Mais là où l'histoire, comme toujours avec les mots, est passionnante, c'est que la quasi totalité des dictionnaires nous dit que "thyroïde" vient de "thura", la porte: "thuroeidês", en forme de porte, ce qui est idiot.

En fait, un copiste s'est trompé en recopiant Oribas et a transcrit "thuroeidês" au lieu de "thurëoidês", en forme d'écu, de bouclier. Le Dictionnaire de Trévoux au XVIIIè siècle a milité pour un rétablissement de la bonne orthographe, mais en vain.

Je ne pensais pas reparler aussi tôt de la métathèse! Les mots sont délicieux...; 08 octobre, 2005 19:46
Jean Véronis a écrit...: OldCola (again)> Oui, ptyalagogue, qui fait saliver! On dit aussi sialagogue.

Et de deux!; 08 octobre, 2005 19:50
Antoine Vekris a écrit...: Jamais deux sans trois disait l'autre. Alors un petit hack pour sortir des mots et partir vers des nouvelles aventures.
Je suis quasi certain de pouvoir tranformer ça en lien direct en me creusant les meninges...
En fait en écrivant ses quelques mots la lumière m'a frappé au front :
exemple lexicologue yeah !; 08 octobre, 2005 21:00
Jean Véronis a écrit...: Oui, mais attention, si vous codez "en dur" le numéro de la "session" qu'ouvre notre ami Jacques Dendien (dans votre exemple: s=3125131845), ça ne va marcher que quelques heures. J'ai fait un "hack" un peu plus compliqué qui résout la question, mais j'hésite à le mettre en ligne. Je ne sais pas trop quelle serait la réaction des collègues de l'Atilf...; 08 octobre, 2005 21:10
Jean Véronis a écrit...: lexicologue

;-); 08 octobre, 2005 22:07
Anonyme a écrit...: Absents du WEB... absents du WEB ?

a) Quelle drôle d'idée de penser (surtout vous... ) qu'on puisse savoir si un mot est absent du Web. Concernant par exemple "modilogue", une simple recherche sur Google nous offre un lien vers un document qui, il est vrai, n'est pas une production spécifique au Web...

b) amusons nous du fait que si un mot était vraiment absent du Web, jamais aucun blog ne pourrait le mentionner... ...puisque cette simple mention briserait la véracité du fait mentionné... ;-)

Merci pour tout !; 09 octobre, 2005 21:26
Jean Véronis a écrit...: Franck> Absents du Web Oui, j'ai senti en l'écrivant que c'était un raccourci un peu douteux... Les anglophones ont un terme "searchable Web", qui est plus approprié. "Web cherchable" est horrible en français, et je n'ai pas insisté plus: honte à ma paresse intellectuelle, que vous avez bien raison d'épingler. "Web indexé" ? Je vais peut-être corriger (merci). En fait, les mots n'étaient pas absents du "Web caché", puisqu'on pouvait y accéder à l'intérieur du TLFI, à condition de les taper dans le champ adéquat.

amusons nous du fait... Oui, c'est amusant! c'est un peu comme le paradoxe de l'observateur en physique quantique. Grâce à mon billet, tous ces mots sont maintenant dans le Web indexé (Yahoo est passé hier...).

Merci Franck!; 10 octobre, 2005 07:38
Anonyme a écrit...: Absente de Paris, et donc du Web, pendant deux jours, je trouve ce joli cadeau en rentrant. Merci Jean, on ne m'avais jamais offert de nuage jusqu'ici... c'est très poétique.; 10 octobre, 2005 11:31
Anonyme a écrit...: horreur j'ai fait une faute d'orthographe, dans mon émotion ! On ne m'avait avec T bien sûr.; 10 octobre, 2005 11:33
Marianne a écrit...: C'est effrayant le nombre de mots qu'on ne connait pas dans sa propre langue ! Et encore je n'ai regardé que les "gros" :-)
Très joli nuage...; 10 octobre, 2005 15:49
Anonyme a écrit...: Non,mais je rêve !
Un billet qui est essentiellement une liste de mots ; comme tant d'autres que vous accusez régulièrement de polluer les moteurs de recherche.
Comme de plus ils me semblent tous pointer vers le même site, çà ne va pas arranger le classement d'Aixtal comme splog ;-)))

Un petit exemple de "pollution" :
l'an dernier, j'ai passé une semaine de vacance entre Aix et Aubagne ; pour la préparer, j'ai cherché des infos sur les villeges vistables. Dont Auriol !
Malgrés Vincent, Jacqueline, Jean et les autres...

PS: Pardon pour ma blague idiote de la dernière fois : en lisant plus de billet du site, je me suis rendu compte que non seulement elle n'était pas pertinente, mais qu'en plus on vous en avait déjà fait un équivalent.; 10 octobre, 2005 15:56
Anonyme a écrit...: Sans vouloir faire de la pub abusive mais comme c'est gratos alors... Nous avons trouvé une solution miracle concernant les mots un peu... comment dire... "nuageux" ?
Le petit joujou se nomme "alexandria" et est à l'oeuvre par chez nous et chez l'editeur bien sûr. Très convivial et simple d'utilisation :
http://www.pastequepasteque.com/dotclear/index.php?2005/10/03/40-levite-hidrosadenite-ophite-et-dependances; 10 octobre, 2005 17:44
Anonyme a écrit...: Coquille : "ce qu'ils veulent dire"
:); 13 octobre, 2005 15:37
Jean Véronis a écrit...: Oops (j'étais dans les nuages) !; 13 octobre, 2005 20:31
Anonyme a écrit...: Merci pour cette intéressante liste. Y ayant trouvé l'"érotologue" et mesuré sa fréquence, j'ai été surpris de n'y point rencontrer son compère l'"herpétologue" (ou "erpétologue" à en croire l'excellente maison Larousse). Il est en fait absent du TLF lui-même.; 31 octobre, 2005 14:12

Enregistrer un commentaire

mercredi, octobre 05, 2005

Lexicon: Let's dance the metathesis!

[ French version - Version française ]

When I was writing yesterday’s post I must have had the gift of foresight: I see that today the Nobel Prize has been awarded to a Frenchman, Yves Chauvin, and two Americans, Robert H. Grubbs and Richard R. Schrock ... for their work on metathesis! In this case, it’s chemical metathesis, a reaction which has turned out to be very useful in the production of plastic, rather than phonetic metathesis.

The etymology is the same. The word comes from the Greek metatithenai, which means "to change place, to transpose". That’s exactly what happens to the phonemes in slips of the tongue like aks for ask, or foilage for foliage [fr]. Chauvin and his colleagues make atoms do the same thing, in reactions such as this:

A-B + C-D → A-D + C-B.

The Nobel jury compared metathesis to a dance in which we swap partners [like this]. What a lovely metaphor! Such poets, those scientists. I feel a good chemistry between us.

The AFP tells us of the first reaction (no less!) of Yves Chauvin, now 74 years old, when he heard the news. Extremely modest, he didn’t expect his work to be rewarded thirty-five years later. Let’s just hope he doesn’t have a haert attack [fr]!

0 Commentaires:

Enregistrer un commentaire

Lexique: Dansons la métathèse !

[ Version anglaise - English version ]

Mon billet d'hier était prémonitoire: j'apprends qu'on a aujourd'hui attribué le prix Nobel à un Français, Yves Chauvin et à deux Américains Robert H. Grubbs et Richard R. Schrock pour leurs travaux sur la métathèse! Evidemment, il s'agit de la métathèse chimique, une réaction qui s'est avérée très utile pour la fabrication des plastiques (~~tiens pas encore d'article sur Wikipedia~~ 8 oct. : ça y est Wikipedia a réagi; voir ici -- merci Philippe), et pas de la métathèse phonétique.

L'étymologie est la même. Le mot vient du grec metatithenai, "changer de place, transposer". C'est bien ce qui arrive aux phonèmes dans les aréoports, et les carapaçons. Chauvin et ses collègues font faire la même chose aux atomes, dans des réactions du genre:

A-B + C-D → A-D + C-B.

Le jury Nobel compare la métathèse à une danse où l'on échange les partenaires [animation]. Jolie métaphore! Ils sont bourrés de poésie ces chimistes. Je me sens des atomes crochus.

Quant à l'AFP, elle parle sans se démonter de la première réaction d'Yves Chauvin, maintenant âgé de 74 ans, en apprenant la nouvelle. Faut le faire quand même! Plein de modestie, il ne s'attendait pas à être récompensé 35 ans après. Espérons qu'il ne nous fasse pas un infractus!

3 Commentaires:

Anonyme a écrit...: Prix nobel oblige, wikipedia a deja réagit :
http://fr.wikipedia.org/wiki/M%C3%A9tath%C3%A8se_%28chimie%29; 08 octobre, 2005 16:54
Anonyme a écrit...: Métathèse en chimie
c mieux avec un lien cliquable; 08 octobre, 2005 16:56
Jean Véronis a écrit...: Merci Philippe! J'ai ajouté le lien dans le corps du billet.; 08 octobre, 2005 19:12

Enregistrer un commentaire

mardi, octobre 04, 2005

Speling: Partial eclispe

[ French version - Version française ]

It’s common knowledge that you mustn’t look directly at an eclispe, or you risk burning your eyes. So badly, in fact, that when you go back to your blog, you can’t really see what you’re writing.

That’s what happened to Marianne, one of my loyal readers, who recently treated us to a brilliant post about the "eclispe in Angers" [fr], which she osberved with her colleagues (the story makes no mention of whether or not they turned to the local speciality [fr] to warm themselves up a little during the chilly moment brought on by the eclispe ;-) I’m having a laugh, I know, but I hope she’ll take it in the spirit in which it was intended: Marianne has a lovely little blog, and she leaves some nice comments here as well. Besides, I make plenty of slip-ups like this as well, and I get the feeling that things are not improving with age. When it’s in the title, it’s a real pain: Blogger builds the URL of each post using the words in the title, and changing it breaks all the links …

In fact, I’m very grateful to Marianne for reminding me that one of the recurring themes of this blog is metathesis. I’ve had a good laugh at many an infractus, aréoport and génycologue [fr_1, fr_2]. True metathesis is phonetic in nature: people think that we really do say infractus. Here is it written metathesis – and accidental at that. I’m sure Marianne knows how to spell the word. Our poor eyes have real trouble picking up this kind of mistake. If you don’t believe me, take a look on Yahoo: 113,000 people have already made the same mistake with eclispe! Incredible. I must point out, however, that there are a staggering 55 million pages containing this word on Yahoo, so that’s only 0.2% … but still!

What’s really curious is the difference between French and English:

	eclipse	eclispe	%
English	44,300,000	94,000	0.21
French	2,340,000	1,580	0.07
Others	7,860,000	17,420	0.22
Total	54,500,000	113,000	0.21

Proportionally, errors are 3 times more frequent in English than in French. Strange. With figures like these, this difference can’t be put down to mere coincidence. And let’s not fall back on ridiculous linguistic stereotypes either: French speakers are no better at spelling than English speakers. There must be some hidden variables that explain the difference. The French-language web, for instance, may well be different in its make-up from the English-language web: if there are more texts on the English-speaking web that are written hastily (blogs, forums, etc), that might explain the difference. There may also be other alternative hypotheses. Perhaps you’ll have a better idea than me … In any case, I’m sure it would make an interesting research topic for students looking for a subject for their master’s degree :-)

So, no hard feelings, Marianne? You said in a recent comment [fr - corresponding English post here] that your blog was referenced by seven sites; well, with this post that’ll make eight once Technorati’s robots drop by. I hope that’ll be enough for you to forgive me ...

PS: Oh, I see that since you posted your comment, you’ve been referenced by two new sites; well, it will soon be 10. Only 1963 more, and you’ll be in the Tpo 100! You’ll have to celebrate that with a nice glass of Cointreau [fr].

Libellés : Orthographe

1 Commentaires:

Anonyme a écrit...: pages in spanish with eclipse 517,000
pages in spanish with eclispe 139
% .03
mmmmm...; 06 octobre, 2005 20:16

Enregistrer un commentaire

Ortograf: Eclispe partielle

[Version anglaise - English version]

C'est bien connu, il ne faut pas fixer les éclispes, ça brûle les yeux. A tel point que lorsqu'on retourne ensuite à son blog, on ne voit plus très bien ce qu'on écrit.

C'est arrivé à Marianne, une de mes fidèles lectrices, qui nous a éblouis tout à coup avec un titre allumé sur l'éclispe à Angers, qu'elle a osbervée avec ses collègues (l'histoire ne dit pas s'ils n'ont pas aussi un peu forcé sur la spécialité locale pour se réchauffer pendant le petit coup de froid de l'éclispe ;-) Je ris un peu, mais pas méchamment: Marianne a un bien joli blog, et elle laisse régulièrement ici des gentimentaires. En plus, ce genre de coquille, j'en fais moi-même des tonnes, et j'ai l'impression que ça ne s'arrange pas avec l'âge. Quand c'est dans le titre en plus, c'est vraiment la poisse, parce que Blogger fabrique l'URL du billet avec les mots du titre, et le changer bousille tous les liens...

En fait, je suis très reconnaissant à Marianne, parce qu'elle m'a rappelé qu'un des thèmes récurrents de ce blog était la métathèse. Je me suis amusé à diverses reprises sur les infractus, les aréoports et les génycologues [1, 2]. La vraie métathèse est de nature phonétique: les gens croient qu'on dit réellement infractus. Ici il s'agit d'une métathèse graphique --et involontaire. Je suis sûr que Marianne sait comment le mot s'écrit. Nos pauvres yeux ont beaucoup de mal à voir ce genre de coquille. Pour preuve, un petit contrôle sur Yahoo: 113000 personnes ont déjà fait la même faute sur eclispe! Incroyable, quand même. Il faut dire qu'il y a près de 55 millions de pages contenant le mot dans Yahoo (ça donne le tournis) et donc ça ne fait que 2 pour mille, mais tout de même!

Ce qui est vraiment curieux, c'est la différence entre le français et l'anglais:

	eclipse	eclispe	Pour 1000
Anglais	44300000	94000	2,1
Français	2340000	1580	0,7
Autres	7860000	17420	2,2
Total	54500000	113000	2,1

Les erreurs sont proportionnellement 3 fois moins fréquentes en français qu'en anglais. Bizarre. Sur des chiffres pareils, la différence ne peut pas être due au hasard. Ne tombons pas dans le stéréotype linguistique ridicule: les francophones ne sont pas meilleurs en orthographe que les anglophones. Il doit y avoir des variables cachées qui expliquent la différence. Il est possible par exemple que la composition du web francophone soit différente de celle du web anglophone: s'il y a plus de textes écrits rapidement (blogs, forums) dans la partie anglophone, cela pourrait expliquer la différence. Il y a sans doute d'autres hypothèses possibles. Peut-être que vous serez plus perspicaces que moi... En tous cas, voilà un beau sujet de recherche pour des étudiants en mal de sujet de master ;-)

Sans rancune Marianne? Vous disiez dans un commentaire récent que vous aviez sept sites qui citent votre blog, eh bien ça va faire huit avec ce billet, le temps que les robots de Technorati veuillent bien passer. J'espère que ça suffira à me faire pardonner...

PS: oh, en fait je vois que depuis votre message vous avez déjà gagné deux sites référents, donc ça va faire bientôt 10. Plus que 1963, et c'est bon pour le Tpo 100! Faudra arroser ça au Cointreau.

PPS: Ecl... hips!

Libellés : Orthographe

18 Commentaires:

Marianne a écrit...: Hahaha :-)
Magnifique !

J'ai observé que quand je fais un billet un peu long et fouillé dont je suis très fière, tout le monde s'en fiche, et des fois, un petit billet écrit en dix minutes (voire en une trente comme celui-ci) suscite beaucoup plus de réactions. Aujourd'hui c'est le ponpon :-) ! Et en plus c'est PARCE qu'il a été écrit trop rapidement qu'il a autant de succès ! Faut vraiment que je réfléchisse à la pertinence de ma ligne éditoriale... :-)

En tout cas merci beaucoup pour ce billet et pour le coup de pouce à mon blog dans les stats qui ne va pas manquer de suivre !

(Bon j'ai relu 10 fois ce commentaire, j'espère que je n'ai pas laissé de coquille... :-) ); 04 octobre, 2005 17:29
Anonyme a écrit...: J'ai remarqué que mes billets qui contiennent des fautes d'orthographe on plus de succes que les autres. En effet, je ne suis pas très bien placé dans google, mais lorsque je suis le seul à faire la même faute que la requête google, alors c'est mon blog qui sort...

J'ai beaucoup moins de visites depuis que j'ai corrigé les fautes.; 04 octobre, 2005 18:02
Anonyme a écrit...: Tiens, ça me rapelle l'étude passée un peu partout il y a quelques temps qui disait que la position des lettres à l'intérieur d'un mot fréquent n'avais pas grande importance.; 04 octobre, 2005 22:12
Anonyme a écrit...: Quand c'est dans le titre en plus, c'est vraiment la poisse, parce que Blogger fabrique l'URL du billet avec les mots du titre, et le changer bousille tous les liens...

Marianne devrait utiliser href="http://dotclear.net">dotclear. On peut y corriger ce qu'on veut, y compris les liens, sans casser tout le bouzin...

Dotclear, c'est bon, mangez-en !; 04 octobre, 2005 23:13
Anonyme a écrit...: ...Ah, et les liens marchent, aussi, sous dotclear... ;); 04 octobre, 2005 23:14
Anonyme a écrit...: Pour les fautes, une piste à suivre est peut-être le fait que la proportion de pages en anglais écrites par des gens dont l'anglais n'est pas leur langue maternelle est plus importante que pour les pages en français, et donc ils feraient plus de fautes.
Mais je ne suis pas spécialiste !; 05 octobre, 2005 01:27
Jean Véronis a écrit...: Olivier G.> La fameuse "étude" de Cmabrigde. Tiens il faudra que j'en parle un de ces 4!; 05 octobre, 2005 07:13
Jean Véronis a écrit...: Peyu> Oui, très bonne piste ! Encore que le fait d'être locuteur natif n'intervient peut-être pas trop sur ce type de faute (les gens savent comment ça s'écrit, ce sont plutôt des fautes d'inattention). A voir!; 05 octobre, 2005 07:14
Anonyme a écrit...: Les métathèses s'expliquent de plusieurs façons :
a) Difficulté articulatoire d'une séquence phonique ou d'un phonème précis. C'est notammment le cas des métathèses de r en français, cette consonne est instable.
b) Attraction par un autre phonème. Très courant dans les mots en i.
c) Analogie avec d'autres mots. Il me semble que les séquences en -isp (whisp, crisp, lisp, etc.) sont plus fréquentes qu'en français. Si, en outre, le sens de ces mots s'ajoute au premier mot par connotation, le tour est joué !; 05 octobre, 2005 07:18
Anonyme a écrit...: Une petite précision... Pour vérifier les proportions de fautes, il vaut mieux éviter d'utiliser un mot qui est aussi le nom d'un logiciel de programmation Java comme eclipse...; 05 octobre, 2005 13:00
Jean Véronis a écrit...: Boris> Je ne pense pas que Yahoo fonctionne comme Google en ce qui concerne le + : eclipse et +éclipse représentent la même requête.

Les petites fluctuations que tu oberves (2 420 000 contre 2 410 000, soit 0,4%) sont à mon sens normales et simplement dues au fait que les moteurs ne donnent jamais des chiffres exacts, mais toujours des approximations, qui viennent du fait de l'indexation distribuée. Le moteur n'a nulle part la valeur exacte mais la calcule à chaque requête à partir de différents serveurs. Ca n'est pas du même ordre que certaines aberrations que j'avais observées, qui étaient du genre 200%!; 05 octobre, 2005 16:51
Jean Véronis a écrit...: jérôme k> Oui, bien vu. Eclipse est aussi un modèle de véhicule "Mitsubishi eclipse" (3 340 000 occurrences sur Yahoo). Dans une étude sérieuse, il faudrait évidemment tout un tas de mots, bien contrôlés pour ce genre de facteur pertubateur...; 05 octobre, 2005 16:56
Jean Véronis a écrit...: Jean> Il y a des gens qui m'ont dit qu'ils ne se sont aperçus de la faute qu'à la fin du billet, comme quoi on ne les voit pas.

Le mail ça devait être celui-là?

Sleon une édtue de l'Uvinertisé de Cmabrigde, l'odrre des ltteers dnas un mtos n'a pas d'ipmrotncae, la suele coshe ipmrotnate est que la pmeirère et la drenèire soit à la bnnoe pclae. Le rsete peut êrte dnas un dsérorde ttoal et vuos puoevz tujoruos lrie snas porlblème. C'est prace que le creaveu hmauin ne lit pas chuaqe ltetre elle-mmêe, mias le mot cmome un tuot.

Je pense que c'est ce à quoi Olivier G. faisait allusion plus haut (attention, c'est un canular, il n'y a jamais eu d'étude de cet type à Cambridge - voir ici), mais ça n'en reste pas moins tout à fait étonnant!; 05 octobre, 2005 17:22
Anonyme a écrit...: L'illustration est lumineuse !!
La métathèse est-elle liée au lapsus révélateur ? je veux dire, ne faut-il y voir qu'une histoire de phonétique et d'inattention ?; 05 octobre, 2005 20:37
Anonyme a écrit...: Tout d'abord félicitation pour la qualité de ce blog que je lis régulièrement depuis près d'un an.
Je suis peut-être hors-sujet, mais dans la série des mystères de Google, j'ai fait une expérience étrange, dont peut-être vous connaissez la réponse (?). Comment expliquer les résultats d'une recherche en mettant http:// dans le champs de recherche de google.fr ?; 05 octobre, 2005 20:44
Jean Véronis a écrit...: Ben> Merci de votre fidélité! vos compliments me vont droit au coeur.

Comment expliquer les résultats d'une recherche en mettant http:// ?

Vous voulez dire en tapant exactement ces 7 caractères (ou bien une URL complète avec son http:// ?). Si c'est bien ça que vous voulez dire, il me semble que Google fait une simple recherche sur les pages contenant la chaîne "http" (en enlevant les caractères non alphanumériques ://). Comme il y a évidemment plein de pages qui remplissent ce critère, il en trouve 6,5 milliards (mais on sait qu'on ne peut guère ce fier à ce chiffre). Il nous sort les sites par popularité décroissante: Le Monde, Microsoft, WWW Consortium, BnF, etc. Je ne vois rien de particulierement bizarre?

Donc, je n'ai pas dû comprendre la question...; 06 octobre, 2005 21:25
Anonyme a écrit...: Bien plus de mots en anglais comprennent la combinaison "sp" en fin de mot, comparativement au français, peut-être?

Gasp, glipse, corpse, et je ne sais quoi d'autre.

Quand un combinaison de lettre (sp) est plus fréquente qu'une autre (ps), c'est facile de taper celle qu'on a l'habitude de faire.

Enfin, c'est une autre explication!

D'après moi, le nombre de pages qui en parle (on parle plus d'éclipses en anglais)est une mauvaise explication, compte tenu du pourcentage de référence.; 07 octobre, 2005 22:22
Anonyme a écrit...: Le lien sur la page en anglais de "l'étude Cambridge" a été déplacé.

http://www.mrc-cbu.cam.ac.uk/~mattd/Cmabrigde/

J'apprécie votre blog, bonne continuation !; 10 octobre, 2005 20:30

Enregistrer un commentaire

lundi, octobre 03, 2005

Blogs: The last will never be the first

[ French version - Version française ]

The site Technorati ranks blogs based on their popularity. The metric used is simple: Technorati takes into account the number of sites that point to the blog in question (and not the number of links), over a period of the last six months. I see that Technologies du Langage is ranked 4724th, with 655 links from 210 different sites (it’s this last figure that’s taken into account for the ranking).

Not bad for the old ego! 4724th out of the 18.7 million blogs currently tracked by Technorati is no mean feat! All the more so since the disproportion between languages means that blogs in French are at somewhat of a disadvantage (although, I admit, this one is a bit bilingual). The first blog written in French appears to be Standblog (197th) [please correct me if I’m wrong]. No French blogs appear in the Top 100.

I took a closer look at how this relationship between ranking and number of referring sites works in practice, by carrying out a survey of around one hundred blogs that go from one end of the ranking to the other. Technorati seems a little buggy: sometimes the ranking is mentioned, sometimes it isn’t, but by using the Web interface and the API, I was able to obtain an indication of the ranking for most of the sites I was looking at. As you might expect, the relationship roughly follows a “power law”, i.e. if we put the ranking on one axis, and the number of sites on another, and we put the whole thing in logarithmic coordinates, we get a more or less straight line:

Such an organisation can be found in a large number of fields that have very little in common, such as the vocabulary of a text (the famous Zipf’s law, which I alluded to briefly while on the subject of spam, and to which I must certainly return one day), social relationships, the physical structure of the Internet, or the hypertextual organisation of the Web. It’s so surprising that books have even been written about it...

There’s therefore nothing unusual about the fact that blogs follow this sort of law, but it’s interesting to note that the curve is only linear in the upper part (pink line). From numbers 5000 to 10,000 in the ranking onwards, it lessens to take on a parabolic shape (blue line), moving progressively away from the power law. In a way, there are “too many” blogs who have few incoming links. Unless there’s some horrible Technorati bug, this looks like it’s due to the invasion of spam blogs or "splogs", which as we know now make up an ever-increasing part of the blogosphere (Philip Lensenn recently counted as many as 60% on Blogger – see here). It’s all but impossible (or certainly too costly) for spammers to have hundreds of sites that reference them, but splogs with no references or only a few are legion (just type keywords like “Viagra” or “Babe” in Technorati and see for yourself). This is certainly what’s dragging the curve down.

Splogs or not, the "power law" in question can lead bloggers to despair: it means that a tiny minority of blogs get nearly all the references, while the immense majority of blogs are not quoted (or perhaps even read) by anyone, or certainly by very few people ... In fact, from the 777,745th spot onwards, each blog is only referenced once. Obviously, there has to be a cut-off point, and Technorati doesn’t rank those blogs that are not referenced at all. Nonetheless, we can make an estimate based on the last ten known ranks:

If we extrapolate the curve, we can estimate the number of blogs referenced by a single site to be around 460,000. If we add this number to the previous 777,744, we have an estimate of around 1,235,000 blogs that are referenced by at least one site. That means that 17.5 million blogs are not referenced by anyone, which is more than 93% of all blogs. Does anyone read them? Many of them are undoubtedly spam, as I said before. Others are blogs that have just been created. And others still are blogs of no interest whatsoever that will, in all probability, not last very long at all.

A few (but how many?) will manage to climb up the ranking … They may even make it into the Top 100 one day, but don’t count on it! Technorati recently adopted a limit of six months when calculating referring sites; without a time limit, a new site has virtually no chance of appearing in the upper echelons of the ranking, simply because of the inertia of the “big guys” already in place. Indeed, even with this limit, chances are still virtually nil. Cases like that of Michael Barnett’s blog (interdictor), which came in 90th after just a few months, are complete exceptions and it takes events on a global scale to push up a blog up the slope so quickly (in this case, his coverage of Hurricane Katrina) . Note also that interdictor has already slipped to 100th place (the Top 100 list given by Technorati is out-of-date).

To be in the Top 100, at the time of writing you need to be referenced by 1973 sites. That may not seem much, but it’s not easy (since only 100 blogs have managed it ;-). The table below gives the number of sites you need to be referenced by to make it into the Top 100, 1000, etc:

Top	Number of referring sites
100	1973
500	817
1,000	552
5,000	200
10,000	120
100,000	20

Oh dear! Even if the number of sites talking about Technologies du Langage were to double (go ahead, friends, link to me!), this blog would never get beyond the 1600th place in the world ranking. And what’s more, since that won’t happen overnight, the “big guys” will also be referenced more and more, and the borderline will have moved even further out of reach. It would take a hurricane in the ICT world for me to make it into the Top 100 or even the Top 1000… Giving Google a dressing down will never be enough.

Sniff. I think I’m going to write about celebs instead.

Libellés : Blogs

0 Commentaires:

Enregistrer un commentaire

Blogs: Les derniers ne seront jamais les premiers

[Version anglaise - English version]

Le site Technorati propose un classement des blogs en fonction de leur popularité. La mesure utilisée est simple: Technorati prend en compte le nombre de sites qui pointent vers le blog à évaluer (et non le nombre de liens), dans les six derniers mois. Je vois ainsi que Technologies du Langage est classé 4724^ème avec 655 liens provenant de 210 sites différents (c'est ce dernier chiffre qui est pris en compte dans le classement).

Pas mal pour l'ego! 4724 sur les 18,7 millions de blogs recensés par Technorati à ce jour, ça n'est pas si mal! D'autant que la disproportion entre langues fait que les blogs francophones sont défavorisés (oui, d'accord, celui-ci est un peu bilingue). Le premier blog francophone me semble être Standblog (197^ème) [merci de me corriger le cas échéant]. Le Meur n'est que 694^ème. Aucun blog francophone n'apparaît dans le Top 100.

J'ai regardé plus en détail comment se présentait la relation entre le rang et le nombre de sites référents, en faisant un sondage sur une centaine de blogs qui couvrent toute la gamme du classement. Technorati semble un peu buggé: le rang est parfois mentionné, parfois pas, mais en utilisant à la fois l'interface Web et l'API, j'ai réussi à avoir une indication de rang pour la plupart d'entre eux. Comme on pouvait s'y attendre, la relation suit approximativement une "loi de puissance", c'est-à-dire que si on reporte les rangs sur un axe, le nombre de sites sur un autre, le tout en coordonnées logarithmiques, on obtient grosso modo une droite:

Ce type d'organisation se retrouve dans un grand nombre de domaines, qui n'ont pas grand chose à voir entre eux, comme le vocabulaire d'un texte (c'est la fameuse loi de Zipf, à laquelle j'ai fait allusion très brièvement à propos du spam, mais sur laquelle il faudra certainement que je revienne), les relations sociales, la structure physique de l'internet, ou l'organisation hypertexte du Web. C'est si surprenant qu'on en a fait des livres...

Que les blogs suivent ce type de loi n'a donc rien d'anormal, mais il est intéressant de noter que la courbe n'est linéaire que dans sa partie supérieure (ligne rose). A partir des rangs 5000 à 10 000, elle s'affaisse tout doucement et prend une allure parabolique (ligne bleue), dérogeant ainsi progressivement à la loi de puissance. Il y a en quelque sorte "trop" de blogs qui ont peu de citations. On voit très probablement à l'oeuvre (à moins qu'il ne s'agisse d'un bug grossier de Technorati) l'invasion des spams ou "splogs", dont on sait qu'ils constituent une part très importante de la blogosphère (Philip Lensenn en comptait récemment jusqu'à 60% sur Blogger -- voir ici). Il est à peu près impossible (et en tous cas trop coûteux) pour des spammeurs d'avoir des centaines de sites référents, mais les splogs sans citations ou avec un tout petit nombre de citations sont légion (il suffit de taper des mots-clés comme "Viagra" ou "Babe" dans Technorati pour s'en convaincre). Ce sont certainement eux qui tirent la courbe vers le bas.

Splogs ou pas, la "loi de puissance" en question fait le désespoir des blogueurs: elle signifie qu'un tout petit nombre de blogs accapare la majorité des citations, tandis que l'immense majorité des blogs n'est citée (et peut-être lue) par personne ou presque... En fait, à partir du rang 777 745, les blogs ne sont plus cités qu'une fois. Évidemment il doit y avoir beaucoup d'ex aequo, et Technorati ne donne pas de rang pour les blogs qui ne sont pas cités du tout. On peut toutefois faire une estimation à partir des 10 derniers rangs connus:

En extrapolant la courbe, on peut estimer à environ 460 000 le nombre de blogs ex aequo cités par un seul site. En ajoutant ça aux 777 744 qui précèdent, on obtient une estimation d'environ 1 235 000 blogs qui sont cités au moins par un site. Cela veut dire que17,5 millions de blogs ne sont cités par personne, soit plus de 93% d'entre eux... Sont-ils lus? Beaucoup d'entre eux sont certainement du spam, comme je l'ai dit précédemment. D'autres sont des blogs qui viennent d'être créés. D'autres sont des blogs sans intérêt qui n'auront vraisemblablement aucune vie future.

Quelques-uns (combien?) grimperont la difficile échelle du classement... Peut-être les retrouvera-t-on dans le Top 100 un jour ou l'autre, mais il vaut mieux que leurs auteurs ne rêvent pas! Technorati a, à juste titre, récemment adopté une limite de six mois pour le calcul des sites référents; sans limite temporelle, un nouveau site n'a pratiquement aucune chance d'apparaître haut dans le classement, par la simple inertie des "gros" déjà en place. Même avec cette limite, en fait, les chances sont quasi nulles. Des cas comme celui du blog de Michael Barnett (interdictor) qui est arrivé 90^ème en quelques mois sont tout à fait exceptionnels et il faut des événements planétaires pour remonter aussi violemment la pente (en l'occurrence la couverture de l'ouragan Katarina) -- à noter qu'interdictor est déjà redescendu au 100^ème rang (la liste donnée par Technorati n'est pas à jour).

Pour être dans le Top 100, il faut (à l'heure actuelle) être cité par 1973 sites. Ça n'a l'air de rien, mais ça n'est pas facile (puisque justement 100 blogs seulement y sont arrivés ;-). Le tableau ci-dessous donne le nombre de sites référents qu'il faut avoir pour être dans le Top 100, 1000, etc. :

Top	Sites référents
100	1973
500	817
1000	552
5000	200
10000	120
100000	20

O rage, ô désespoir. Même si le nombre de sites qui parlent de Technologies du langage doublait (mes chers alliés, allez-y, liez!), ce blog ne passerait jamais qu'au 1600^ème rang mondial. Et en plus, comme ça ne se fera pas du jour au lendemain, les "gros" auront encore plus de citations, et les frontières auront reculé. Il faudrait un ouragan dans les TIC pour gagner le Top 100 ou même le Top 1000... Secouer les puces à Google ne suffira jamais.

Snif. Je vais faire du pipol.

Libellés : Blogs

14 Commentaires:

J2J2 a écrit...: Jean, ce n'est tout de même pas la recherche de popularité qui vous fait bloguer tout de même?
;-); 03 octobre, 2005 19:26
Jean Véronis a écrit...: Non, si je recherchais la popularité il faudrait que je change de métier! Mais ça fait du bien tout de même de voir que son travail est apprécié --quite à se prendre quelques bonnes critiques de temps à autre: les commentateurs ne sont pas toujours tendres, et ils ont raison. Ca aide à rester lucide sur soi-même et à regarder tout ça avec un peu de distance, et j'espère un peu d'humour! Il y a un lien subliminal dans mon billet vers un texte vieux de plus de deux mille ans, et qui n'a pas pris une ride...; 03 octobre, 2005 19:50
Anonyme a écrit...: Un asymptote?; 03 octobre, 2005 21:38
Anonyme a écrit...: Si vous tenez vraiment à la popularité, monsieur Veronis, partagez gratuitement en ligne des BDs érotiques de qualité, ajoutez-y des tonnes de commentaires "encyclopédiques" pour partager votre érudition des auteurs et des styles, et c'est ainsi que, quand j'avais un site de ce genre, y'a des années, j'avais 5000 visiteurs uniques par jour, et dans le million de pages vues mensuelles ;)

Plus sérieusement, j'ai été un peu "peiné" par un "biais" de votre article, car vous n'avez pas envisagé que certains blogs pouvaient se satisfaire pleinement de rester dans l'anonymat.

Il est normal d'aimer avoir des visiteurs, c'est sûr !

Mais j'ai l'impression que ceux tenant un blog dont la vocation n'est pas l'audience, ceux dont le blog vise un public limité à ceux auxquels on a donné soi-même l'URL, pourraient se sentir un peu "regardés de haut"...
Je pourrais rajouter un public, ceux utilisant les interfaces gratuites de blog comme architecture toute fait d'hébergement de site web perso, et dans l'univers des "sites perso", là encore on n'a pas que des affamés de stats de fréquentation :)
Alors, bah, parler de «désespoir des bloggers»...

Bon, c'était juste une remarque en passant, hein, pas méchamment, l'article était tout aussi intéressant que d'habitude :); 03 octobre, 2005 23:31
Anonyme a écrit...: salut jean,

j'aime aussi à ausculter le point de vue des machines, et de leurs algorithmes, pour en dévoiler quelques-uns des hoquets. technorati ne manque pas d'être aussi amusant, même si à une échelle beaucoup plus modeste, que ta victime googlienne favorite.

dans le top 100 des blogs, on trouve ce matin (dans mon fuseau, cinq heures d'avance sur le tien, soit 9h20 pour moi à l'instant) :

- le Seth's Blog à la 62e et à la 77e place avec respectivement 5 861 liens de 2 289 sites et 2 791 liens de 2 006 sites. Le premier classé est stocké ici http://sethgodin.typepad.com/seths_blog/ et le second l'est là http://sethgodin.typepad.com/ ;
- le blog du magazine Make arrive en 34e position, avec 10 632 liens venant de 3 319 sites. Pourtant, le blog n'a démarré qu'en février 2005 et n'a pas surfé sur la vague de Katrina... en revanche, il est publié par O'Reilly et joue au maximum des effets de réseau en postant dans toutes les communautés possibles : flickr, blogosphère, del.icio.us, podcasters, etc. ;
- interdictor en 83e position avec 3 372 liens provenant de 1 971 sites.

a]m[+; 04 octobre, 2005 04:21
Anonyme a écrit...: Pour information, la courbe "quasi zipfienne" du nombre de liens entrant correspond bien à une loi dérivée de Zipf mise au point par D. Lavalette en 1996 pour calculer les "facteurs d'impact" d'articles scientifiques en fonction du nombre de références qui leur sont faites (cf. par exemple ici).; 04 octobre, 2005 09:48
Marianne a écrit...: Waoh, grâce à vous je viens de découvrir que j'ai 7 amis qui me lient, dont un(e) que je ne connais pas !! Faut que j'aille les remercier :-)

PS : ça y est vous vous êtes fait spammer à votre tour... ? :-(; 04 octobre, 2005 10:05
Loran a écrit...: Bonjour,
Technorati me parait peu fiable.
Au moins en ce qui concerne la blogosphere Francophone! On a en France un tres bon exemple avec les skyblogs.
A partir du moment ou on n'indexe pas (ou tres tres mal) les 3 Millions de skyblogs, il devient difficile de deduire quoi que ce soit...

Apparement les skyblogs sont indexes s'il sont backlinkes (par exemple http://www.technorati.com/search/decosblog.skyblog.com)
de l'exterieur, mais la structure interne de la plateforme de sky n'est pas du tout prise en compte par technorati.

Qu'elle que soit la qualité des skyblogs (sur 3 millions, quoiqu'on en dise il y en a des tres bons), ce sont tout de même des blogs.
Et, il n'y a finalement que 1794 sites qui referencent le Search Engine Blog (99eme de la liste de Technoratti).

Cordialement,; 04 octobre, 2005 14:09
Anonyme a écrit...: Intéressant commentaire, qui rejoint des recherches universitaires US sur le sujet, souvent appliquées aux blogs politiques, et à l'analyse de "l'écosystème" des blogs.
En fait, la courbe (figure 2) suit une forme plus linéaire en descendant dans le ranking des blogs : il y a de plus en plus de blogs qui ont très peu de liens. On a ainsi un effet classique de 'long tail', avec une top-blogeoisie, souvent constituée d'acteurs anciens (mais pas toujours, certains top blogs sont assez jeunes).
Je pense à quelques exemples, dont les blogs de gawker, qui sont montés très vite dans le top100, ou TPM Café (certes créé par des blogueurs déjà dans le top100) qui ont réussi à intégrer vite les gros blogs.

J'ajoute que ces ratios vont bouger : la blogosphère croit vite en nombre, les liens entre blogs encore plus vite (il y a plus d'un lien sortant par blog). Il faudra dans quelques mois nettement plus de 2000 liens pour entrer dans le top100.

versac (à peine une petite centaine de liens); 04 octobre, 2005 15:14
Anonyme a écrit...: Au sujet du premier blog francophone, j'attire votre attention sur Kiss in the dark, actuellement 111ème chez Technorati.

OK, neuro blogue en Français et en Anglais, OK les liens vers son blog renvoyés par Technorati pointent pour l'immense majorité vers ses thèmes Wordpress, m'enfin techniquement c'est un authentique blog francophone très bien classé ^^

Saiko, même pas dix liens ;); 04 octobre, 2005 19:20
Jean Véronis a écrit...: Saiko> Merci pour le lien vers Kiss in the dark. Je ne connaissais pas. Comme quoi la popularité c'est relatif. Evidemment l'aspect bilingue fausse un peu les choses (comme pour AixTal, d'ailleurs)... Soit dit en passatn j'aime bien la présentation de Kiss in the Dark avec les petits encadrés pour la traduction... J'ai opté pour un système de billets séparés, mais je ne suis pas totalement satisfait.; 04 octobre, 2005 19:33
Jean Véronis a écrit...: Marianne> PS : ça y est vous vous êtes fait spammer à votre tour... ?

Oui...

Tout a basculé quand Blogger a mis en place son système anti-splog ici). Jusque là, les spams dans les commentaires étaient rarissimes, et je n'avais pas mis le "captcha" qui est quand même un peu gonflant! Mais le filtrage des spams a eu un effet pervers: les spammeurs voyant leur efforts anéantis sur les faux blogs se sont apparemment rabattus sur les commentaires dans les vrais blogs. Du jour au lendemain j'ai été envahi...

Alors voilà, maintenant il faut se tordre les yeux et taper "yerqwj", "retjgoiuuh", etc. à chaque commentaire!; 04 octobre, 2005 20:34
VinZ a écrit...: Ah c'est donc ça ? J'ai constaté l'arrivée sur mon blog perso et sur celui d'une amie (tous deux hébergés chez blogger) ces commentaires spams. Souvent, dans les minutes qui suivent la publication d'un billet, j'ai droit à un commentaire de spam... Ils utilisent sûrement pour cela les sites qui présentent les blogs mis à jour récemment... du genre weblogs.com...; 11 octobre, 2005 17:23
Anonyme a écrit...: Si cela t'intéresse technorati et Eldeman ont fait un classement top 100 des bloggueurs francophones les plus influents !

http://imortality.bleublog.ch/autres/technorati-edelman.html

J'ai mis le lien du top100 sur mon blog !
Si cela t'intéresse tu peux toujours faire un tour !
Peut-être te trouveras-tu dans le top100 !; 30 octobre, 2006 11:57

Enregistrer un commentaire

A propos de l'auteur

Billets récents

Archives

Outils

Ma startup

Mes livres

jeudi, octobre 20, 2005

Blogs: Blogger blocked up?

1 Commentaires:

mercredi, octobre 19, 2005

Blogs: Ca bloque chez Blogger

12 Commentaires:

mardi, octobre 18, 2005

Ortograf: Ça repart chez Microsoft

9 Commentaires:

jeudi, octobre 13, 2005

Outil: Un trésor de liens

53 Commentaires:

samedi, octobre 08, 2005

Récré: Dialogue entre blogues

17 Commentaires:

mercredi, octobre 05, 2005

Lexicon: Let's dance the metathesis!

0 Commentaires:

Lexique: Dansons la métathèse !

3 Commentaires:

mardi, octobre 04, 2005

Speling: Partial eclispe

1 Commentaires:

Ortograf: Eclispe partielle

18 Commentaires:

lundi, octobre 03, 2005

Blogs: The last will never be the first

0 Commentaires:

Blogs: Les derniers ne seront jamais les premiers

14 Commentaires:

Cherchez sur ce blog