Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

lundi, juin 05, 2006

2007: Ségo selon Google

Le monde selon Google: au moment même où Ségolène s'attaque aux 35 heures, qui ont conduit à une "dégradation de la situation des plus fragiles" et dont la "répartition de l’effort et des avantages a été fortement inégalitaire" (voir le deuxième chapitre de son livre), le moteur nous donne son point de vue sur le ségolisme:



Suggestion qui ne manque pas de sel...

Libellés :


22 Commentaires:

Anonymous Anonyme a écrit...

Qu'est-ce qui manque pas de sel ?

Le fait que TAL soit repéré dare-dare par les moulins de Gougueul comme créateur et gloseur de néologismes ? Ça me semble assez correct pourtant !

Ou bien le fait qu'à défaut de repérage préalable dans son index, Gougueul nous réoriente vers 'réalisme' plutôt que vers 'royalisme' ?

05 juin, 2006 20:12  
Blogger Jean Véronis a écrit...

Non, je ne pensais pas au fait qu'Aixtal soit classé premier. Ca tient simplement au fait que ce blog a un bon "Pagerank". Ce que je trouve vraiment rigolo c'est cette équation que nous donne en quelque sorte Google: ségolisme = réalisme. Le jour même où elle semble en faire drôlement preuve (de réalisme)...

05 juin, 2006 20:50  
Anonymous Anonyme a écrit...

J'ai une partie de la réponse, qui n'est pas à la faveur de Gougueul :

Si on omet l'accent, le moteur ne propose pas la bifurcation orthographique vers 'réalisme'. Curieux. Ségolène, c'est avec un é, non ?

http://www.google.fr/search?hl=fr&q=segolisme&btnG=Rechercher&meta=

En fait, ça semble venir du fait que vous avez oublié un accent sur le é de ségolisme, dans votre titre !

Votre Pagerank étant au top, le moteur signale l'écart entre lotre page indexée avec 'segolisme' et la requête de l'utilisateur 'ségolisme' en l'approchant sans doute avec une combinaison du type ?é??lisme. D'où réalisme.

Essayez avec ségalisme, et Gougueul vous proposera socialisme.

Maintenant, je préfère ne pas être à votre place pour répondre à cette question de conscience gravissime : faut-il corriger la faute ?

Pierre Schweitzer



Mais pourquoi Gougueul propose-t-il réalisme quand on tape sego et rien quand on tape ségo ?

05 juin, 2006 22:02  
Blogger J2J2 a écrit...

Jean, je te suggère d'essayer une recherche sur aixtalisme ... => capitalisme !!!
En revanche, charronisme nous donne charisme... ;-)

Comme quoi, les suggestions basées sur des statistiques (ngrams) ou sur des calculs de distances (Levenshtein ou autre) ne sont peut-être pas tout à fait adaptés.

Malgré tout, ces algorithmes ne sont pas si mauvais, si on les interprête correctement : il s'agit d'une suggestion de correction syntaxique et non d'une suggestion d'intention de l'utilisateur (recherche associée).
(Bon, je commence a prendre la défense de Google, je vais donc arrêter ce commentaire ici).

05 juin, 2006 22:16  
Anonymous Anonyme a écrit...

Jérôme, je t'en ficherai moi, des "charismes" ;-) Chez moi, peu de surprise "missticisme" donne forcément mysticisme, alors...
Cela dit, il s'agit en effet d'une suggestion syntaxique, mais l'anecdote de Jean valait tout de même le détour et le sourire ;)

06 juin, 2006 09:46  
Anonymous Anonyme a écrit...

Au fait, Jean,
Combien de candidatures pour le poste d'ingénieur d'études?

06 juin, 2006 10:41  
Blogger Jean Véronis a écrit...

Agnès> Sais pas... Le processus est long est comliqué, il y a une première épreuve d'admissibilité, etc. et je n'ai pas accès aux dossiers. Infernale bureaucratie...

06 juin, 2006 10:47  
Blogger Jean Véronis a écrit...

Jerôme> suggestion syntaxique et non suggestion d'intention: bien entendu! Mais c'était quand même rigolo (et fort à propos!).

Evidemment, on ne peut jamais empêcher complètement les "accidents" et les suggestions hasardeuses dans un correcteur orthographique, mais néanmoins, il y a deux petites mesures simples qui améliorent les choses

- utiliser un seuil plus strict dans la distance. En pratique, si un mot a plus de deux lettres de différence avec la suggestion, il y a de grandes chances que la suggestion soit farfelue. On peut moduler ce critère par le suivant:

- pénaliser plus fortement les erreurs au début des mots (particulièrement sur l'initiale) que sur la fin (les utilisateurs font moins d'erreurs sur le début des mots).

On diminue fortement le "bruit" mais on augmente évidemment le "silence". Dans des situations comme celle-là, ça me paraît préférable.

06 juin, 2006 11:04  
Blogger VinZ a écrit...

Ca me rappelle, il y a un an et demi, dans un cours de TALN que je suivais, j'avais eu à étudier une thèse, j'avais choisi une de 1992 sur la correction automatique d'orthographe et de grammaire : j'avais lu dans cette thèse plusieurs références aux travaux d'un certain Jean Véronis ;)

06 juin, 2006 12:35  
Blogger Jean Véronis a écrit...

Vinz> eh eh... je crois que j'ai un peu travaillé sur le sujet, effectivement ;-)

06 juin, 2006 12:37  
Anonymous Anonyme a écrit...

Dans le cas de la place des blogues ou des journaux dans un référencement, il y a aussi une question de date et le billet date du 1er juin seulement : même en mettant le mot clé dans le titre en première position, on se retrouve vite relégué si le billet est ancien. Je suis en 19e position maintenant alors que j'étais 1er ou 2e à la fin du mois de mai. Après un certain temps, ce n'est plus l'actualité de la page qui compte, mais le référencement général du site ou du blogue.

06 juin, 2006 13:08  
Anonymous Anonyme a écrit...

Moi, ce qui me surprends, outre la correction orthographique farfelue (c'était au moins aussi drôle avec "toutesdesbeautés"), c'est le nombre de réponse : 120 000 pour un mot qui n'existe pas vraiment et qui est apparu il y a 1 mois...
Google ne sait pas compté (vous l'avez déja prouvé) ou ce mot a fait tache d'huile sur la toile ???

Tiens, au fait, vous avez vu que google a repris votre chronographe ? http://www.google.com/trends

07 juin, 2006 11:42  
Blogger Jean Véronis a écrit...

Agnès> Merci pour le lien vers Beaude. Très intéressant.

07 juin, 2006 11:48  
Blogger Jean Véronis a écrit...

MoLysS> Il y a une explosion des comptes chez Google, effectivement; en fait se sont des pages dupliquées comme dans une galerie de miroirs... Je suis ça de près et j'en parlerai dans quelques jours.

Google Trends. Ce n'est pas tout à fait pareil. Ils comptent les requ^tes, je compte les documents indexés. Ce serait intéressant de comparer les deux (c'est dans ma pile ça aussi...)

07 juin, 2006 11:50  
Anonymous Anonyme a écrit...

Comment expliquez-vous que GG ne propose pas 'réalisme' quand on lance une requête sur 'segolisme' sans accent ?

08 juin, 2006 09:44  
Blogger Jean Véronis a écrit...

Pierre> Je ne l'explique pas bien. Google a différencier récémment les requêtes avec accents et sans accents, mais leur logique est pour le moins peu claire... Je suis en train d'étudier la question.

08 juin, 2006 11:35  
Anonymous Anonyme a écrit...

Sinon à propos de Ségolène, depuis son discours sur la question sécuritaire, d'autres noms ont fait leur apparition: sarkolène, ségozy...

08 juin, 2006 11:53  
Anonymous Anonyme a écrit...

Pour revenir à "Ségaullisme" (dont la première apparition remonte au 8 mai 2006), Google suggère "Secourisme" quand on l'écrit avec accent et "Socialisme" quand on l'écrit sans.
Les locuteurs étrangers auraient donc besoin de secours et les indigènes de social ?

Ceci dit, merci Jean pour ce blog excellent.

08 juin, 2006 14:00  
Anonymous Anonyme a écrit...

Visiblement, GG distingue les accents dans les requêtes puisque 'ségolime' ne renvoie pas les même pages que 'segolisme'.

Mais on dirait que du point de vue de l'indexation, ségo=sego

Si l'amateur que je suis peut se permettre d'émettre une hypothèse, celle de mon premier post : le pagerank d'aixtal est bon, peut-être excellent même. Donc, que la requete soit 'segolisme' ou 'ségolisme', vous êtes en tête, pour avoir traité du sujet il y a peu.

Mais le titre de votre page que nous propose GG comporte une erreur typographique : vous avez oublié de poser l'accent sur le é de ségolisme, dans le titre de l'article référencé par GG.

N'est-ce pas ce simple oubli qui incite GG à proposer cette variante orthographique ? Il constate qu'il n'y a pas de coincidence parfaite entre la requête et le mot tel qu'il est indexé et donc, il propose un mot du dictionnaire approchant le mot de la requête, avec un accent : réalisme.

Bon, en tout cas, si les distances orthographiques devaient être analysées plus strictement, ça présenterait d'autres inconvénients comme par exemple, ne plus proposer aréopage quand on tape aéropage, etc.

08 juin, 2006 17:18  
Blogger Jean Véronis a écrit...

Pierre> Ce n'est pas un oubli. C'est sciemment que j'ai écris "segolisme" sans accent dans le titre. La raison en est simple. Blogger génère automatiquement les URL des billets à partir des titres, et, en bon système américain, ne gère pas les accents. Avec l'accent, l'URL aurait été:

http://aixtal.blogspot.com/2006/06/2007-sgolisme.html

Or je sais que Google pondère très fort la présence d'un mot dans l'URL (le PageRank n'est pas tout!), j'ai écris "segolisme", et j'ai donc une URL bien indexée:

http://aixtal.blogspot.com/2006/06/2007-segolisme.html

Vous pourrez constater que je joue de cette petite astuce de temps à autres, quand j'ai envie qu'un billet remonte bien ;-)

Sinon, je ne crois pas que la suggestion orthographique soit déclenchée par la présence de tel ou tel résultat, mais plutôt par le nombre faible de réponses (pages similaire exclues), alors qu'il existe un mot "voisin" (ou considéré comme tel), qui, lui, ramène un grand nombre de réponses.

Pour "aéropage" vs "aéropage", tout dépend de la distance qu'on utilise. Si on utilise une "distance d'édition" dans laquelle les interversions valent un point, le couple ne sera pas plus distant que "aéropage" / "aérropage" par exemple. Mais Google n'est pas très fort sur les traitements linguistiques, contrairement à Microsoft, par exemple.

08 juin, 2006 18:04  
Anonymous Anonyme a écrit...

Concernant la suggestion orthographique (déclenchée par Ségolisme et non par Segolisme), ça voudrait dire que Ségolisme génère mois de réponse que Segolisme.

Or, c'est exactement l'inverse qui se produit : Ségolisme génère plus de 300 fois plus de réponse que Segolisme !

Donc le déclenchement de la suggestion orthographique reste visiblement lié à autrechose.

11 juin, 2006 18:15  
Anonymous Anonyme a écrit...

ce-gaulisme??

19 juin, 2006 17:36  

Enregistrer un commentaire