Technologies du Langage: juin 2010

lundi, juin 14, 2010

Text: JG Ballard's manuscripts at the British Library

I love libraries, you won't be surprised to hear. I have often mentioned the BnF [fr-1, fr-2], but the British Library is another of my favorite pilgrimages, where I go religiously each time I happen to be in London (unfortunately not so frequently recently!). I read in the Guardian that it has just purchased the manuscripts of JG Ballard, mythical science-fiction author whose strange and post-apocalyptic work fascinated me when I was a teenager (The Drowned World, The Crystal World, The Drought, etc.) and even later, especially with Crash (1973) which marked a whole generation. It's rather moving to see the manuscripts for these hallucinated works for the first time and to discover how much Ballard's writing process was a tortured one, as can be seen from the first page of Crash, which looks as if it has gone through a few loop-the-loops and somersaults:

First page of Crash

This reminds me of a superb exhibition at the BnF on writers' drafts, I mentioned a long time ago [fr]:

Manuscript for Dolor, a poem by Victor Hugo

Word processing has killed manuscripts. The writing process is now silent: the toing and froing, doubts, wanderings, sudden and lightening finds are a thing of the past. More than the aesthetic loss, it's also a major loss for future historians and philologists. No one will ever know the tortured (or otherwise?) plume of Doris Lessing or J.M. Le Clézio...

6 Commentaires:

Benoit a écrit...: Some writers try to recreate that: http://craphound.com/?p=2171

Flashbake records the text every 15 minutes, with additional metadata (weather, music, etc.).; 14 juin, 2010 12:59
Jean Véronis a écrit...: Thanks for the link (the homepage of the Flashbake projet is here). The Time machine on Macs is impressive as well. However the problem remains, in a way: assuming that authors use such tools, what will become of these backups in a few years, not speaking of centuries ?; 14 juin, 2010 13:08
Motercalo a écrit...: Thanks, I discover the first page of Crash, I didn't see it before.; 30 juin, 2010 10:56
Art a écrit...: Ce manuscrit est très intéressant à lire et à observer. Merci de nous en avoir fait part !; 04 juillet, 2010 21:29
Maurice Lanselle a écrit...: OT (but I don't know how better to write to you, I don't hope nor expect to see this comment on this post): any comments on the new "i write like" app? (iwl.me) There is an interview with its author on the awl: he uses Bayesian classifiers, like a spam filter, but with added features (he says) like number of commas, etc.
Wouldn't an incremental compression measure have been at least as good and easy to cobble together quickly?
Is there a French-language equivalent (or better)?; 19 juillet, 2010 19:29
Maurice Lanselle a écrit...: On topic: the Library of Congress has extensively analyzed a draft of the Declaration of Independence to determine what word Jefferson had written then obliterated to replace by "citizens." See WaPo article Jafferson changed.... As they point out, it couldn't have been done without the original of the draft.; 23 juillet, 2010 09:41

Enregistrer un commentaire

vendredi, juin 11, 2010

Texte: Manuscrits de JG Ballard à la British Library

Je suis amoureux des bibliothèques, ça ne vous étonnera pas. Je vous ai souvent parlé de la BnF [1, 2], mais la British Library est un autre de mes lieux de pélerinage, où je me rends religieusement chaque fois que je traîne à Londres (ce qui est hélas moins fréquent ces derniers temps !). Je lis dans le Guardian qu'elle vient d'acquérir les manuscrits de JG Ballard, auteur mythique de science-fiction dont l'œuvre étrange et post-apocalyptique m'a fasciné quand j'étais adolescent (The Drowned World, The Crystal World, The Drought, etc.) et même après, notamment avec Crash (1973) qui a marqué toute une génération. C'est émouvant de voir pour la première fois les manuscrits de ces oeuvres hallucinées, et de découvrir à quel point le processus d'écriture de Ballard était torturé, comme en témoigne la première page de Crash, qui semble avoir subi elle aussi quelques loopings et quelques tonneaux :

Première page de Crash

Ceci me remet en mémoire une superbe exposition de la BnF sur les brouillons d'écrivains, dont je vous avais parlé il y a bien longtemps :

Manuscrit de Dolor, poème de Victor Hugo

Le traitement de texte a tué les manuscrits. Le processus d'écriture est devenu silencieux : ses aller-retours, ses doutes, ses errements, ses trouvailles soudaines et fulgurantes sont devenus inaccessibles à jamais. Au-delà de la perte esthétique, c'est une perte majeure pour les historiens et les philologues des temps futurs. Personne ne connaîtra jamais le parcours torturé (ou pas ?) de la plume de Doris Lessing ou J.M. Le Clézio...

17 Commentaires:

florent a écrit...: c'est curieux, pour ma part j'ai toujours l'impression que le processus d'écriture est présent quand on lit un bon texte, cela parce qu'il est permis de voir en creux les chemins formels que l'écrivain n'a pas choisi et qui fait que c'est bon. Le fait d'accéder à un manuscrit ou à un système de version administre seulement la preuve que le travail en question n'est pas du flan et on peut comprendre les auteurs qui sont révoltés à l'idée qu'on fouille dans leurs brouillon: c'est une forme de trahison à la forme définitive. Mais tout cela n'est pas grave, puisque plus personne ne lit.; 11 juin, 2010 13:28
Jean Véronis a écrit...: C'est vrai. Une oeuvre intéressante est sans doute une oeuvre qui laisse des chemins ouverts à notre imagination. Celles qui m'ont le plus marqué sont de véritable labyrinthes: Eco, Gibson... Peut-être que c'est la différence entre l'érotisme, qui donne à imagine, et la pornographie, qui montre la chose en gros plan ?; 11 juin, 2010 13:41
Fantômette a écrit...: J'ai lu quelque part que Nietzsche, qui avait des problèmes de vue vers la fin de sa vie, s'était procuré une machine à écrire, et qu'il avait terminé son œuvre en écrivant avec elle. L'un de ses contemporains avait fait la remarque que cela correspondait également à un changement de style dans l'écriture - plus stricte, plus sèche.

Je crois volontiers que le principal effet d'un passage de l'écriture manuscrite à une écriture automatisé - informatisée - est l'effet que cela produit sur le style, et partant, le contenu.

J'en ai eu l'expérience assez précise, il y a quelque temps, lorsque j'ai voulu faire un cadeau à mon frère, pour ses trente ans. J'avais acheté un très beau cahier en papier tibétain, j'ai collé des photos de lui, sa famille, ses amis, de sa naissance à la veille de son anniversaire. Et j'ai également voulu écrire un mot sur chaque page - un souvenir, une émotion à partager, des mots d'encouragement, d'affection, etc...

Comme je ne voulais évidemment pas raturer sur le beau cahier, j'ai fait un brouillon, sur ordinateur, puisque je passe une bonne partie de mes journées derrière un ordinateur. Ensuite, je pensais n'avoir plus qu'à recopier, tout simplement.

Je l'ai fait sur une ou deux feuilles.

Mais ensuite... j'ai divagué.

Était-ce le fait d'avoir le stylo entre les doigts, la texture du papier tibétain, l'aspect sensuel de l'acte d'écrire, les courbes manuscrites, les gestes de la main... qu'en sais-je, mais j'ai commencé de m'éloigner du brouillon que je pensais n'avoir qu'à recopier.

J'ai d'abord pris quelques libertés de ton, de style. Et puis, j'ai rajouté des mots, j'en ai enlevé. J'ai fini le cahier en roue libre, vertigineusement délivrée de la contrainte du brouillon.

Ce fut un réel plaisir, d'ailleurs, même si j'ai repris par la suite l'habitude d'écrire sur écran.

Pour finir, je ne crois d'ailleurs pas que l'on écrit mieux ou moins bien selon que l'on utilise telle ou telle technique.

Mais que l'on écrive différemment - et même que l'on écrive d'autres choses - oui, je le crois.; 11 juin, 2010 16:01
Cobab a écrit...: « Le traitement de texte a tué les manuscrits. Le processus d'écriture est devenu silencieux : ses aller-retours, ses doutes, ses errements, ses trouvailles soudaines et fulgurantes sont devenus inaccessibles à jamais. »

Mmmmh. Pas si sûr, et en tout cas pas si complètement. D’une part, les programmes et les disques conservent la trace de pas mal de modifs ; ensuite, il est vraiment très fréquents d’imprimer pour (se) relire, et ces brouillons papiers sont annotés pour intégration ultérieure, exactement comme la superbe page de Crash dont vous nous faites si gentiment profiter.

Surtout, l’archivage à vie des manuscrits d'ouvrages déjà édités relève avant tout d’un certain rapport de l’écrivain (ou de proches) à son œuvre, que le traitement de texte n’a aucune raison d’éradiquer — et même, l’informatique favoriserait plutôt la collectionnite… il doit y avoir autant de conservateurs systématiques de chaque étape ou version d'un écrit un tant soit peu chiadé que d’archiveurs fous des newsgroup et listes de discussion.

Moi qui ne suis ni écrivain ni collectionneur, je transbahute d’ordi à ordi, à chaque changement de matos, tout un fatras de vieux fichiers texte, de courrier antédiluvien, de tracts etc. qui serait cramé depuis longtemps s’il était sous forme de papier !

(et + 100 pour Fantômette qui a posté pendant que rédigeais); 11 juin, 2010 16:08
See Mee a écrit...: “Toute technique s’accompagne […] d’une posture psychique qu’elle induit et qui influe, à son tour, sur le contenu du message […] la pensée se construit dans le va et vient entre les contraintes imposées par la machine, les échappées libératoires qu’elle permet et le projet du texte qui s’en trouve modifié à chaque instant. Ainsi, elle se construit différemment selon qu’on parle, qu’on écrit sur du papier ou qu’on tape sur un clavier devant un écran d’ordinateur”
Serge Tisseron, L’intimité surexposée, 2001.

Cité et prolongé par Yann Leroux, Psy et Geek :
http://www.psyetgeek.com/les-nuages-lieux-de-lextimit; 11 juin, 2010 23:53
Ferocias a écrit...: Beaucoup des brouillons de mes billets de blog sont manuscrits avec moultes ratures... Je sais que d'autres blogueurs font de même.
Finalement il risque de ne plus y avoir de brouillons d'écrivains et que l'on ne retrouve que ceux des blogueurs.
A nous la BNF, la British Library et The Library of Congress!!! :); 12 juin, 2010 06:56
Jean Véronis a écrit...: Fantômette> Merci pour ce long témoignage ! l'histoire de la machine à écrire de Nietzsche est relatée ici. C'était une magnifique Writing Ball de Rasmus Malling-Hansen. L'objet est superbe (j'ai une petite passion pour les machines à écrire !). On voit aussi des images de textes tapés par Nietzsche sur le lien en question. Je ne suis pas étonné que le style d'écriture change. Le mien a certainement changé avec le traitement de texte --et d'ailleurs je suis devenu incapable d'écrire à la main et même de faire un brouillon. Il faut maintenant que je me mette directement sur l'ordinateur devant la page blanche, et j'écris de façon parfaitement linéaire, du début à la fin (alors qu'auparavant j'écrivais au crayon gris des bouts et des morceaux que j'assemblais ensuite pour les taper à la machine...).

Mais il y a peut-être d'autres facteurs pour Nietzsche. Le simple fait de ne plus pouvoir se relire influe sans doute déjà sur le style. Et j'ai fait des études statistiques de Victor Hugo (je prenais l'exemple dans mes cours). Ses phrases se raccourcissent au fur et à mesure que son œuvre avance. Pourtant il n'utilisait pas (à ma connaissance) de machine à écrire. Peut-être qu'en avançant dans l'âge et le métier d'écrivain on a tendance à se débarrasser du futile et à aller plus directement à l'essentiel...; 12 juin, 2010 10:44
Olivier de Vaux a écrit...: Je crois qu'il me serait plus facile de montrer mes fesses que mes manuscrits-gribouillis. Il y a là du très intime, surtout dans la poésie.
Vos articles sont toujours aussi variés et intéressants et j'y ai appris que vous aviez été l'élève de Mario Rossi que je connais à travers son dictionnaire étymologique et ethnologique des parlers brionnais, ouvrage qui m'a beaucoup aidé dans mes recherches sur le patois charolais.; 12 juin, 2010 11:10
Jean Véronis a écrit...: Cobab> On peut voir les choses dans les deux sens. En théorie, l'informatique pourrait faciliter l'archivage. En pratique c'est moins sûr. A titre d'exemple, j'étais très fier d'avoir tapé ma propre thèse dans les années 80 à l'aide des tout premiers Mac... Le fleuron de la techno. 25 ans plus tard, je n'en ai plus aucun exemple lisible... sauf l'exemplaire papier ! Le format de disquette n'existe plus, et même si je trouvais un lecteur, elles sont probablement altérées (même les DVD s'altèrent, et plus vite qu'on ne pensait). De toute façon, j'avais fait une essai il y quelques années (au moment où les lecteurs allaient disparaître) et le format Word de l'époque (Word 1, je pense !) n'est plus compatible... Ce qui est une bonne leçon sur les formats propriétaires !

Donc, finalement, l'archivage informatique demande beaucoup plus de travail que l'archivage papier. On a encore des papyrus et des parchemins qui on deux mille ans. qu'en sera-t-il des documents informatiques dans 2000 ans ?

Et puis en supposant qu'on ait pris le soin de faire des copies, de maintenir la compatibilité des formats, est-il bien sûr qu'à la source on archive les docs ? J'ai cotoyé pas mal d'éditeurs et j'ai vu comment ils bossent: c'est plus qu'artisanal... Au point que quant on veut faire une réédition, dans bien des cas il faut scanner un exemplaire papier !; 12 juin, 2010 11:54
Jean Véronis a écrit...: See-Mee> Merci pour la citation. Je la retiens: elle me paraît très juste ! Par exemple, certains auteurs (écrivains, mais aussi avocats, toubibs, etc.) dictent leurs textes. J'en suis totalement incapable... Il faut que je voie l'écrit. Je n'arrive même pas à dicter une lettre à ma secrétaire. Il faut que je lui donne le texte par écrit, ce qui fait que (du moins sur ce type de tâche) elle ne me sert à rien !; 12 juin, 2010 14:53
Jean Véronis a écrit...: Férocias> C'est vrai ? Ca ne m'avait pas croisé l'esprit que des blogueurs préparaient leurs brouillons sur papier ! A quand la grande expo "Brouillon de blogueurs" ? A défaut de la BnF on pourrait l'organiser sur le Web. Ce serait marrant !; 12 juin, 2010 14:55
Jean Véronis a écrit...: Olivier> Merci pour le compliment. Et: oui, j'ai été l'élève de Mario Rossi (à la fin des années 70). Je lui dois beaucoup.; 12 juin, 2010 14:56
michaël a écrit...: Umberto Eco, cité par Jean, a lui-même abondamment écrit sur le déploiement de l'écriture en fonction de l'instrument employé. Je ne retrouve pas les références du premier de ses textes lu sur le sujet du traitement de texte, probablement au milieu des années 1980.

Plus près de nous, dans L'Ordinateur et l'écriture (in De la littérature), Eco donne divers éclairages qu'il me semble à propos de citer ici.

« [Mais] quelqu’un un jour m’a dit : “On sent que le roman a été écrit directement à l’ordinateur ; sauf la scène du cimetière : celle-là oui, on sent qu’il y a du ressenti, elle a dû être plusieurs fois réécrite, et au stylo. » J’ai honte de le dire, mais de ce roman qui a subi tant de phases de rédaction, où sont intervenus le bic, le stylo, le feutre, et d’infinies révisions, l’unique chapitre écrit directement à l’ordinateur, et d’un trait, sans trop de corrections a été justement celui de la trompette. La raison en est très simple : cette histoire, je l’avais tellement portée en moi, je me l’étais racontée tant de fois, que c’était comme si elle était déjà écrite. Je n’avais rien à ajouter. J’avais mes doigts sur le clavier comme sur un piano sur lequel j’aurais joué une mélodie que je savais par cœur ; et s’il y a du bonheur dans cette scène, il est dû au fait qu’elle est née comme une jam session. Vous jouez en vous laissant aller, vous enregistrez, et ça donne ce que ça donne. »

« En fait, ce qui est bien avec l’ordinateur, c’est qu’il encourage la spontanéité : vous écrivez d’un seul jet, en hâte, ce qu’il vous vient à l’esprit. Après, vous savez que vous pouvez corriger et varier.
L’utilisation de l’ordinateur concerne surtout le problème des corrections, et donc des variantes. »

« Avec l’utilisation de l’ordinateur Le Pendule [de Foucault] a été écrit en Wordstar 2000, L’Ile du jour d’avant en Word 5, Baudolino en Winword dans des diverses versions au cours des années. Les choses changent. […] Mais il serait erroné de penser qu’un fanatique des variantes pourrait demain reconstruire votre processus d’écriture. […] Une fois je me suis penché sur les variantes des Hymnes sacrés de Manzoni. Alors, la substitution d’un mot était décisive. Aujourd’hui non : demain vous pouvez revenir sur le mot abandonné hier. Ce qui comptera tout au plus, ce sera la différence entre le premier jet manuscrit et le dernier jet sur imprimante. Le reste est un va-et-vient, souvent déterminé par votre taux de potassium dans le sang. »

----
Umberto Eco, De la littérature, Grasset, 2002. Les extraits sont tirés des pages 421 à 423, L'ordinateur et l'écriture faisant partie du texte Comment j'écris, tels que cités par Marie-Andrée Rousseau; 14 juin, 2010 09:36
Unknown a écrit...: Dans un registre moins littéraire, quand on fait une offre à un client on la rédige de toute façon sur ordinateur. par contre en fonction de comment on la présente à un collègue pour correction, cela va changer la version finale.
si on la transfère par email il va la corriger en reformulant certaines tournures, rajouter ou supprimer quelques mots,déplacer un bloc pour organiser mieux, mais le vocabulaire du texte d'origine restera grâce au couper/copier/coller. à l'inverse si on l'imprime pour le faire corriger, il y aura plutôt une reformulation d'une phrase complète dans la marge.
le vocabulaire employé pourra ainsi changer sans changer pour autant le sens. (machine au lieu de système, détecteurs au lieu de capteurs)
généralement le plan (l'organisation des parties) ne varie que peu quand on imprime car c'est plus difficile de décrire les déplacements de paragraphes.

au final on a jamais remarqué de variations de commandes en fonction de la façon dont on la rédige ;); 15 juin, 2010 10:51
Cobab a écrit...: Je ne sais pas si le souci (bien réel) des formats obsolètes non documentés est si important pour le cas qui nous occupe ici : pour un brouillon de V. Hugo (bon, oc, disons U. Eco), on se donnera les moyens de décoder…

C'est l'acte de conservation qui nous permet de voir ces brouillons, quel que soit leur support.; 16 juin, 2010 11:04
dbourrion a écrit...: Des outils comme Etherpad permettent littéralement d'enregistrer le processus d'écriture sur ordinateur.
Mauvaise nouvelle : Etherpad (le site) a été racheté par Google et fermé.
Bonne nouvelle : le code d'Etherpad est dispo en OpenSource.
On peut espérer voir un jour (dans pas longtemps si j'en crois mon petit doigt), en ligne, des manuscrits enregistrés :-); 02 juillet, 2010 22:47
Marie-Christine a écrit...: Très intéressantes ces citations, merci à tous.
Il y a quelques années, le New York Times avait publié un article traitant de préoccupations semblables à propos de la correspondance entre écrivaisn et éditeurs, aujourd'hui essentiellement par e-mail http://www.nytimes.com/2005/09/04/books/review/04DONADIO.html?ref=bookreviews; 13 juillet, 2010 17:40

Enregistrer un commentaire

mercredi, juin 09, 2010

Google: Trusted sites get pride of place

For a while now, webmasters have been sweating bullets at the sight of their morning statistics. On the forums (see for example WebmasterWorld), desperate comments speak of falls of 30, 50 or even 90% of the traffic brought by Google. Several days ago, the affair hit the media when Matt Cutts confirmed an update with the highly appropriate name of Mayday, which specifically affects long tail queries. This is only the cherry on the cake however: the upset started at the beginning of the year and does not seem to be finished. Google has manifestly declared war on opportunistic websites, who are placing themselves between users and sites displaying real content. Everyone has noticed that for some “competitive” searches (namely merchant), the search engine has become almost unusable: pages and pages of false comparators, doubtful forums and other parasitic sites ready to jump on the band wagon — which in the best cases land on pages full of Adsense and in the worst some absolute swindles. Everyone is putting forward hypotheses in the SEO forums about the modifications made to the algorithms. It’s quite a futile exercise; Google secrets are the best kept on the planet. One thing is certain: Google has called the end of play time.

Whatever these modifications, the result is rather paradoxical. While the Web is growing every day by thousands of sites and millions of pages, Google’s first-page results (roughly the only results that users click on) are showing fewer and fewer sites. Below is the result of a benchmark of 1500 searches (in French) that I regularly apply to follow changes in the search engine. In June 2008, these 1500 searches returned more than 5800 domains on the first page. In 2009, around 5100, i.e. 12% fewer. At the start of June 2010, only 4837 domains are returned, a fall of 17% compared to 2008.

Number of domains on the first page out of a set of 1500 queries

Another interesting phenomenon: the presence of Wikipedia in the results. In June 2008, Google returned 8.2% of first-page results in the encyclopedia, and 24.5% as a first link (after reaching a record of 27% [fr] in 2007). The encyclopedia marked a significant drop in results last year, as its presence fell back to 4.5% in all first page results and 14.5% as first link. It’s up again, with 6.9% of results and 24.8% first links.

Presence of Wikipedia in the results.

These data clearly show that Google is narrowing results to sites it trusts, usually major established sites (in France: linternaute.com, aufeminin.com, doctissimo.fr, lemonde.fr, etc. -- and of course wikipedia.org). This notoriety bias does give rise to some collateral damage. It is increasingly difficult for small, newly created sites, which are perfectly legitimate, to appear in the first page of results, not to speak of the famous first place. At a time when whole parts of the economy depend on a presence on Google, this is a worrying phenomenon.

It remains to be proven whether major sites that have the trust of Google can provide pertinent answers to surfers’ searches. Like me, you have most likely been alarmed by the emptiness of certain forums that obstinately turn up in many of your searches...

0 Commentaires:

Enregistrer un commentaire

mardi, juin 08, 2010

Google: La reconnaiffance de caractères eft une fcience affez fûre!

... mais pas sur les textes du XVIIe siècle ! Je cherchais à relire hier soir L'Homme de Cour de Baltasar Gracián y Morales, philosophe jésuite espagnol assez peu connu du public, mais dont les oeuvres (presque immédiatement traduites en français) ont inspiré La Rochefoucauld, Voltaire, Schopenhauer, Nietzche, Lacan et Guy Debord. Le personnage, rebelle et assez cynique, n'est pas sans rappeler Machiavel — à la différence que son analyse désenchantée du pouvoir, des apparences et de la comédie sociale ne s'adresse pas au Prince mais à l'homme du commun...

Bref, je farfouille dans Google. Pure paresse, j'en conviens (j'aurais pu chercher sur Gallica, dont je suis un grand fan [1, 2], mais la lourdeur et la lenteur de l'interface ont fini par avoir raison de ma bonne volonté...). Voici donc le document qui apparaît — la numérisation d'un volume de l'Université du Michigan :

Superbe. J'étais prêt à me replonger dans les aphorismes du vieux jésuite, mais un nuage de tags assez extraordinaire m'a accroché l'œil :

Google numérise en mode texte les livres anciens ! Voilà qui est nouveau. Ou peut-être pas, mais en tout cas j'avais raté cet épisode. Cela m'a surpris parce que jusqu'ici la reconnaissance de caractères sur de tels textes posait des difficultés à peu près insurmontables (c'est pour ça que Gallica ne propose quasiment que des images pour les fonds anciens). Vous imaginez que ça a titillé quelque peu ma curiosité !

Feulement, foilà... il y a un petit problème ! Le tag cloud semble avoir été réécrit par Sylvestre (je ne parle pas d'un traducteur jésuite du XVIIe siècle, je parle du Gros minet, frapriffti fauffife !) :

Fage, feulement, favoir, fouvent, chofes, fcience... Le tag cloud est affez maffacré ! Le principal problème provient du s long : les textes de cette époque utilisaient pour le s interne aux mots une forme voisine du f. Le s que nous connaissons de nos jours n'était utilisé qu'en position finale. Cela rend la lecture malaisée pour le profane, mais avec un peu d'habitude on n'y fait plus attention.

Visiblement l'OCR n'aime pas — ce dont je me doutais ! Mais le plus étonnant est tout de même que Google ne s'en aperçoive pas, ou ignore volontairement le maffacre... Car l'utilisation qui est faite de ces numérisations en mode texte maffacré semble maffive ! Le texte ainsi maltraité est indexé tel quel dans le moteur et l'index est pollué de façon majeure. Pour avoir une idée de l'ampleur des dégâts, tapez par exemple la requête +feulement +favoir (le + force le mot dans sa forme exacte sans correction orthographique). Vous tombez sur l'Encyclopédie de Diderot et d'Alembert et 272 000 résultats au total :

Voilà qui m'épate tout de même ! Apparemment des dizaines de milliers d'ouvrages anciens ont déjà été numérisés avec ce bug. Personne ne regarde le résultat chez Google ? Je conviens que la numérisation des documents anciens en mode texte est difficile (je ne la pensais même pas possible). Mais sur ce cas d'espèce il suffirait déjà de redresser tous les mots qui n'apparaissent pas dans le dictionnaire (comme fcience ou jurifprudence), mais se rapprochent d'un mot existant en substituant un s au f pour résoudre la moitié des problèmes. Une approche légèrement plus ambitieuse basée sur la probabilité des bigrammes ou trigrammes de mots résoudrait la plupart des autres cas, comme feulement, qui est aussi un mot du français (le feulement des fauves)...

Tiens, je vais leur proposer mes services !

En attendant, si vous voulez une version plus lisible, en orthographe et typographie moderne, de cet Homme de cour, j'en ai trouvé une ici.

23 Commentaires:

TOMHTML a écrit...: Pour corriger ce problème, il faudrait déjà posséder une bonne liste de bigrammes et mots...datés de cette époque ! Même pour Google, pas sur qu'ils aient ceci en stock.

De plus, Google a racheté reCAPTCHA il y a quelques temps, qui permet non seulement de déterminer si l'utilisateur est un être humain ou pas mais aussi permet d'améliorer grandement les capacités de reconnaissance de caractères ! (puisque c'est vous qui faites le boulot lorsqu'on vous présente de mots tout droit issus de livres numérisés). Dès lors, si tu montres un mot comme ça à l'utilisateur, sans contexte, l'internaute répondra à coup sur que la lettre qu'il voit est un "f" et non un "s" ;-)

Merci de m'avoir fait découvrir cette exception de la langue française de l'époque que je ne connaissais pas.; 08 juin, 2010 10:09
Jean Véronis a écrit...: Tom> Je pense qu'on obtiendrait déjà d'assez bons résultats en amorçant le système avec des fréquences tirées de textes littéraires des XIXe et XXe (il y en a pas mal disponibles: ABU, Gutenberg, Gallica). Ensuite, il y a des techniques d'estimation-réestimation assez simples qui devraient permettre d'auto-améliorer les probabilités au fur et à mesure que la numérisation avance... Je suis assez confiant.

Oui, j'ai vu l'histoire du recaptcha. Génial !; 08 juin, 2010 10:17
Rémi Camus a écrit...: Quid des ligatures: devant "i" - "fi, ti" etc., devant "t" - "st", "ct" etc.). La page wikipedia donne une bonne idée de l'existant, et des problèmes que cela peut poser à la reconnaissance des caractères ("fi" interprété "H" etc.); 08 juin, 2010 12:29
Jean Véronis a écrit...: Rémi> Ouin, c'est évident. C'est pour ça que la reco sur les textes anciens est un challenge (sans parler de la grande variabilité des caractères, du papier altéré, etc.).; 08 juin, 2010 12:34
Charles a écrit...: L'informatique permet même de conſerver la typographie d'origine en utiliſant le ſ à ſa place plutôt que de le remplacer par un f incongru.; 08 juin, 2010 14:54
Jean Véronis a écrit...: C B> Oui, c'est vrai, et il y a même toutes les ligatures qu'il faut dans unicode.

Ceci étant, le codage se discute. Doit-on code la forme ou la lettre (s en l'occurrence). Pour des problèmes de search, il faut finalement avoir "s"...; 08 juin, 2010 14:57
Charles a écrit...: C'est amusant de voir que si vous cherchez ſeulement google reconnait tout de suite qu'il s'agit bien de seulement. C'est un problème surmontable.; 08 juin, 2010 15:03
Jean Véronis a écrit...: Oui, avec le caractère ſ. Et idem avec xeulement, zeulement etc. Magie de la correction orthographique. Mais feulement renvoie le cri des fauves...; 08 juin, 2010 15:14
Anonyme a écrit...: Je découvre avec grand plaisir votre blog (à partir d'une recherche sur le poisson d'avril), et je me permets de mettre mon grain de sel. Google semble bien identifier le caractères ſ au s: les résultats pour "ſeulement" sont identiques à ceux pour "seulement", ce qui n'est pas le cas de "xeulement" (ou intervient la correction orthographique).; 08 juin, 2010 16:18
Acer11 a écrit...: Sur Wikisource, on numérise doucement le Dictionnaire de Trévoux, nous avons pris le parti de remplacer le « s » long par un normal, d'enlever l'espace avant la virgule, etc... via un script et des regexp dont l'affinage avance lentement (plus par manque de temps que par difficulté). Nous gardons les finales et les désinences en « vieux françois ».

Bien d'autres lettres posent problème : le « t » est difficile à différencier du « r » par ex. ...

http://fr.wikisource.org/wiki/Dictionnaire_universel_françois_et_latin,_6e_édition_(1771)

http://fr.wikisource.org/wiki/Livre:Dictionnaire_de_Trévoux,_1771,_I.djvu

Quand la reconnaissance de caractère donne une faute d'orthographe, la correction automatique peut être envisagée. Mais quand elle donne un mot qui existe, la correction demande une analyse contextuelle : « faut » ou « saut » ? « félon » ou « selon » ? « fécond » ou « second » ? « font » ou « sont » ?

Parfois le s long est interprété comme un l : « acculer » ou « accuser » ? « balle » ou « basse » ?

Et il y en a bien d'autres !

Si le cœur vous en dit d'essayer, jetez un œil sur :

http://fr.wikisource.org/wiki/Discussion_Livre:Dictionnaire_de_Trévoux,_1771,_I.djvu.

Merci pour vos intéressants billets.; 08 juin, 2010 16:25
Jean Véronis a écrit...: Anonyme> Bienvenue et merci de votre indulgence !

Je pense en effet que Google a une table de conversion entre caractères pour les requêtes. Ce n'est pas le cas dans l'OCR visiblement, car la forme indexée est bien Feulement. Donc on a beau taper ſeulement dans la requête, on ne trouvera pas Feulement...; 08 juin, 2010 18:52
Neville a écrit...: A propos de la confusion entre S long et f, il me semble bien que les "lapalissades" en proviennent aussi :

Quelqu'un peut-il me donner une source de ce qu'on m'a toujours raconté à ce sujet ?

Le Maréchal de La Palisse ayant vécu et étant mort héroïquement, ses soldats composèrent en son honneur une chanson, dans laquelle se seraient trouvés les vers suivants : " (...) s'il n'était pas mort, il ferait encore envie"

Un f pris pour un s long et un espace opportunément placé au milieu d'"envie" et ce serait devenu "s'il n'était pas mort, il serait encore en vie", et l'amorce pour toutes les vérités premières était lancée.

Le Maréchal de la Palisse n'y était donc pour rien, mais son nom resterait accolé à l'énonciation d'évidences à cause de cette confusion, volontaire ou pas.; 08 juin, 2010 23:05
Neville a écrit...: Une petite recherche rapide sur "lapalissade " me confirme que Wikipedia
( http://fr.wikipedia.org/wiki/Lapalissade )
cite également cette origine, mais sans que l'auteur de cette page précise exactement où on peut trouver les références de cette chanson à la gloire de La palisse, détournée et servant plutôt désormais à le tourner en ridicule.

Quelqu'un aurait-il des références plus fiables ?; 08 juin, 2010 23:13
Jean Véronis a écrit...: Neville> L'histoire est, je crois, bien plus compliquée :

cf. L'Intermédiaire des chercheurs et curieux (1904)

p.373; 08 juin, 2010 23:35
Jean Véronis a écrit...: ps/ et sur La Galisse (la chanson originale) voir dans les Managiana de Gilles Ménage (1693).

Il y aurait un joli billet à faire la dessus !; 08 juin, 2010 23:43
Unknown a écrit...: Cher Monsieur,

La numérisation en mode texte de Google n'est pas nouvelle mais elle est extrêmement mauvaise. Sans doute plus mauvaise que celle de Gallica.

Des expériences d'OCR sur des textes anciens sont en cours, notamment à la Bibliothèque royale des Pays-Bas, qui travaille toutefois essentiellement sur des textes de la fin du XVIIIe.

C'est pour pallier cette difficulté que la BnF a tenté une expérimentation - dont vous avez certainement dû entendre parler - avec Wikimédia France pour la correction collaborative de textes de Gallica.

Vous trouverez les détails ici :
http://www.bnf.fr/documents/cp_wikimedia.pdf
http://alatoisondor.wordpress.com/2010/04/07/wikimedia-france-signe-un-partenariat-avec-la-bnf/

et me tiens à votre disposition si vous avez des questions.

RM
Conservateur des bibliothèques
Membre du conseil d'administration de Wikimédia France; 09 juin, 2010 11:23
estellebeaurivage a écrit...: Puisque l'étude des lettres(V,S,F) semble vous interesser à plusieurs titres, je me permets de vous conseiller la lecture de "Recherches sur l'Y" de Pierquin de Gembloux. Ed.La tour de Babel. 1844.
Ce célèbre fou littéraire, auteur, entre autres, de "De l'Arithmétique Politique de la Folie" et d'un "Glossaire ouistiti" est à l'origine d'une virulante polémique sur l'Y. Vous en trouverez des extraits sur Google.
(votre blog est une jubilation); 09 juin, 2010 12:03
Béranger a écrit...: Mais non, Monsieur, le lien vers Scribd me déplaît. Pourquoi pas l'original ? C'est par ici :
http://beq.ebooksgratuits.com/Philosophie/index.htm.

Ou bien: Gracian-cour.pdf, Gracian_Lhomme_de_cour.epub.; 10 juin, 2010 11:15
cdr-pdf a écrit...: Google tué par la typographie ancienne !; 11 juin, 2010 16:14
Zeck a écrit...: Comme il est bon de chausser parfois des yeux de peintre, il est parfois utile de lire en se déchaussant les dents.; 09 juillet, 2010 11:39
Le Chaland qui passe a écrit...: Bonjour,
Visiteur irrégulier de votre passionnant blog, je tombe avec étonnement sur ce billet. En effet, le s long et le f ne sont pas le même signe typographique (en général, la barre du s long est soit très peu marquée, soit marquée sur la gauche, alors que celle du f est traversante.)
Les logciels d'OCR ne peuvent-ils pas être tout simplement paramétrés pour distinguer ces 2 signes ?; 07 août, 2010 15:30
Jean Véronis a écrit...: Jean Philippe> Si, bien sûr, il faudrait régler le logiciel d'OCR pour ce type de caractère, très présent dans les documents anciens... Ce qui est étonnant c'est que Google se lance dans la numérisation massive d'ouvrages anciens sans ce préliminaire indispensable, et surtout sans que personne chez eux ne regarde même le résultat ni ne se préoccupe du fait qu'ils engrangent des millions de pages absurdes...; 07 août, 2010 15:37
Didier S. a écrit...: Bonjour, merci pour votre blog passionnant. Je vous trouve sur ce coup très partial en faveur de Gallica. C'est une catastrophe ! Cela fait longtemps que je n'y suis pas allé, mais de mémoire (dernière recherche faite sur des poèmes huguenots anciens il y a quelques années), Gallica ne faisait pas mieux. Si encore il n'y avait que le s long, l'oeil arrive à essayer systématiquement le s quand il rencontre un f. Je me souviens de bouillies infâmes sur des mots très clairement typographiés et sans ligature ou caractère désuet. Seules les fichiers images (au téléchargement sénatorial) étaient lisibles. Que Google ne se préoccupe pas sérieusement des livres du XVIIe s. est moins étonnant que pour la BNF.; 06 octobre, 2010 22:55

Enregistrer un commentaire

lundi, juin 07, 2010

Google: Prime de plus en plus forte aux sites de confiance

Depuis quelque temps, les webmasters attrapent des sueurs froides le matin en regardant leurs statistiques. Sur les forums (voir par exemple WebmasterWorld), des témoignages désespérés parlent de chutes de 30, 50 voire 90% du trafic amené par Google. L'affaire a été médiatisée il y a quelques jours, quand Matt Cutts a confirmé une mise à jour du nom très approprié de Mayday, qui affecte particulièrement les requêtes de la longue traîne. Mais ce n'est qu'une cerise sur le gâteau : le chamboulement a commencé au début de l'année et ne semble pas encore terminé. Google a manifestement déclaré la guerre aux sites opportunistes, qui viennent s'intercaler entre les utilisateurs et les sites producteurs de véritable contenu. Tout le monde a remarqué que sur certaines requêtes "compétitives" (marchandes en particulier) le moteur devenait quasiment inutilisable : des pages et des pages de comparateurs bidon, de forums douteux, et autres sites parasites prêts à harponner le gogo — qui dans le meilleur des cas atterrit sur des pages bourrées d'Adsense et dans le pire sur de jolies arnaques. Chacun y va de son hypothèse dans les forums SEO sur les modifications apportées dans les algorithmes. L'exercice est un peu vain ; les secrets de Google sont les mieux gardés de la planète. Mais une chose est certaine : Google a sifflé la fin de la récréation.

Quelles que soient ces modifications, leur résultat est assez paradoxal. Alors que le Web s'agrandit chaque jour de milliers de sites et de millions de pages, les résultats en première page de Google (qui est grosso modo la seule sur laquelle les utilisateurs cliquent) font apparaître de moins en moins de sites. Je vous montre ci-dessous le résultat d'un benchmark de 1500 requêtes (en français) que j'applique régulièrement pour suivre l'évolution du moteur. En juin 2008, ces 1500 requêtes retournaient plus de 5800 domaines en première page. En 2009, environ 5100, c'est-à-dire 12% de moins. Début juin 2010, ce ne sont plus que 4837 domaines qui sont retournés, soit une chute de 17% par rapport à 2008.

Nombre de domaines en première page sur un ensemble de 1500 requêtes

Autre phénomène intéressant : la présence de Wikipedia dans les résultats. En juin 2008, Google retournait 8,2% des résultats de première page dans l'encyclopédie, et 24,5% en tout premier lien (après avoir atteint le record de 27% en 2007). L'encyclopédie avait marqué un net recul dans les résultats l'année dernière, puisque sa présence avait été ramenée à 4,5% dans l'ensemble des résultats de première page et 14,5% en premier lien. Elle refait surface à nouveau, avec 6,9% des résultats et 24,8% en premier lien.

Présence de Wikipedia dans les résultats

Ces données montrent clairement que Google resserre ses résultats sur les sites dans lesquels il a confiance, généralement de gros sites établis (linternaute.com, aufeminin.com, doctissimo.fr, lemonde.fr, etc. -- et bien sûr wikipedia.org). Ce biais à la notoriété ne va pas sans dommages collatéraux. Il devient de plus en plus difficile pour de petits sites nouvellement créés et pourtant parfaitement légitimes, d'apparaître en première page des résultats, sans parler même de la fameuse première place. A une époque où des pans entiers de l'économie dépendent d'une présence sur Google, le phénomène est inquiétant.

Il reste par ailleurs à démontrer que les gros sites qui reçoivent ainsi la confiance de Google apportent tous des réponses pertinentes aux requêtes des internautes. Vous avez sans doute été consternés comme moi par la vacuité de certains forums qui s'obstinent à apparaître sur bon nombre de vos requêtes...

22 Commentaires:

TOMHTML a écrit...: Et c'est aussi de pire en pire sur Google News. Les sites de confiance se comptent sur les doigts de la main, les autres sont là juste pour boucher les trous quand il n'y a pas assez d'actu...; 07 juin, 2010 12:11
Jean Véronis a écrit...: Oui, j'ai remarqué aussi sur Google news. Je comprends la stratégie de Google, qui essaie d'éviter la "mauvaise expérience utilisateur", mais en même temps, ils ne font pas dans la dentelle...; 07 juin, 2010 12:21
Wally a écrit...: J'espère que des agrégateurs de contenu comme wikio retourneront là où ils auraient du rester: loin des premières pages de résultat de google.

De fait, j'adhère avec votre analyse ("Il reste par ailleurs à démontrer que les gros sites qui reçoivent ainsi la confiance de Google apportent tous des réponses pertinentes aux requêtes des internautes. Vous avez sans doute été consternés comme moi par la vacuité de certains forums qui s'obstinent à apparaître sur bon nombre de vos requêtes... ")... je suis souvent consterné par ces resultats.

Wally.; 07 juin, 2010 12:35
el goretto a écrit...: Oui, ces domaines trustés à bloc posent de gros problèmes, car tout ce qu'ils chient se transforme en or pour Google.

Il suffit d'une critique de 2 lignes bâclée d'un produit sur un de ces forums pourris tels doctissimo pour que la discussion passe immédiatement en page 1 pour le nom de ce produit... à travers Google, internet évolue comme la télévision, où l'offre proposée peu à peu se limite à des dinosaures.; 07 juin, 2010 12:50
Jean Véronis a écrit...: Dans le même ordre d'idée, j'utilisais depuis des années Google pour trouver de la doc informatique, par exemple tel ou tel point de programmation. Depuis quelque temps, l'espace est envahi par ces fameux forums, et tout ce que je trouve c'est au mieux c'est un gugusse qui pose la même question et les autres qui lui disent en gros "t'a ka regardé dans le manuel lol"...; 07 juin, 2010 13:00
Le_M_Poireau a écrit...: Evidemment, envoyer les internautes sur de gros sites "de confiance" n'a rien à voir avec la rémunération publicitaire de Google ?
:-)); 07 juin, 2010 13:35
Moulinvert a écrit...: Je rêve de recherches un peu "techniques" ou juste consuméristes qui n'aboutissent pas en première approche sur les forums de commentcamarche.net

Ce site est l'exemple parfait de la machinerie optimisée pour le référencement google, mais pas pour la réponse aux besoins des internautes !; 07 juin, 2010 13:46
alex de @referencement a écrit...: Enfin faire confiance à doctissimo.fr c'est dangereux pour sa santé ;); 07 juin, 2010 13:54
lds a écrit...: Il faudrait pouvoir faire un tri rapide entre catégorie d'information. Je vois au moins deux catégories : commerce ou connaissance.; 07 juin, 2010 14:07
Denis a écrit...: @Jean

Sur le constat, je suis totalement d'accord : il y a bel et bien une baisse généralisée du trafic sur les blogs et les forums. Vérifié !!! La visibilité des blogs ne fait que de chuter dans l'index de Google.

Je me permets de formuler plusieurs hypothèses.
La première, c'est la prise en compte des liens qui figurent dans les sites de microblogging et les pages publiques des réseaux sociaux.

De ce fait, le PR se creuserait entre les sites institutionnels (de confiance si on veut) et les forums/blogs de l'autre côté sauf à augmenter les termes de la recherche (phénomène de longue traîne).

J'ajoute : attention au cross-linking très pénalisé (et donc très pénalisant) au niveau des moteurs - et de Google tout particulièrement. Or, forums et blogosphère en sont extrêmement friands.

Billet d'hier : Pourquoi la blogosphère n’en finit pas de mourir ?
Billet de ce matin : Les blogs sont-ils désindexés de la recherche Web Google ?

Les grands esprits se rencontrent !

NB A voir la prise de bec avec Jegoun !; 07 juin, 2010 14:16
Denis a écrit...: @Jean

J'ajoute un élément : La croissance de l'index ! Plusieurs collègues ont reconnu qu'ils avaient perdu des liens qu'ils trouvaient encore l'année dernière sur certaines recherches. Je leur ai conseillé d'ajouter d'autres mots du texte recherché. encore faut-il s'en souvenir ! ;+)

Yahoo!, dont l'index avait été donné un temps plus gros que celui de Google (???), ne restitue plus les liens au delà du 1000e lien.; 07 juin, 2010 14:26
Jean Véronis a écrit...: Monsieur Poireau> C'est très certainement un paramètre que les stratèges de Google prennent en compte ! Mais il peut jouer dans les deux sens. En fait je me suis longtemps demandé si la raison pour laquelle Google était aussi indulgent avec tous ces sites médiocres ce n'était pas parce qu'ils étaient bourrés d'adsense... Ca semblait assez évident pour le porn, que nous avons dû supporter 5 ans de plus en France qu'aux US (voir mon analyse de 2005).

Tout ça c'est des maths. Il y a un point où les courbes se croisent...

Mais au-delà du seul bénéfice immédiat, il y a aussi un point à ne pas perdre de vue: la concurrence de Microsoft, dû moins aux US. Bing commence à dépasser les 10% de part de gâteau, et ça pousse certainement Google à se bouger plus vite qu'il ne ferait, même si la rentabilité à court terme en pâtit.; 07 juin, 2010 15:42
el goretto a écrit...: @moulinvert ah mon dieu, que je hais commentcamarche.net...

Pour filtrer ces domaines des SERP's, je conseille d'utiliser l'extension firefox http://www.customizegoogle.com/ , en tant qu'utilisateur c'est très utile... ne pas oublier de la désactiver quand on vérifie ses positions :-D; 07 juin, 2010 17:11
Anonyme a écrit...: J'espère aussi que les comparateurs de prix vont aussi en prendre pour leur grade. Pour voler les requêtes et placer de l'adsens attrape gogo ya pas mieux non plus.; 07 juin, 2010 20:10
Jonathan a écrit...: J'ai pour ma part un petit site récent, plutôt faiblard en nombre de publications, où je m'applique par contre à rédiger des articles de qualité. Et bien je remarque en effet que depuis plusieurs semaines le nombre de visiteurs arrivant depuis Google est en significative progression.

D'ailleurs mes articles tendent aussi à monter vers les premiers résultats sur certaines requêtes clé. Voici qui pourrait nuancer votre idée selon laquelle Google aurait plutôt confiance en de « gros sites établis ». Pourquoi ne serait-ce pas simplement une reconnaissance de qualité de contenu ?

Quoi qu'il en soit, croyez-moi, c'est plutôt plaisant de voir son travail reconnu... :); 08 juin, 2010 14:50
Ferocias a écrit...: Avec quelques copains de la Clique à Nicolas ;), nous avons participé à une chaîne de blogs sur Hatman (la fameuse résurgence inattendue de Michaël Jackson à ses propres funérailles). Nous avons donc joué à plusieurs. Surprise: pour la requête mon blog reste 1er alors que Paperblog a repris le texte...
PR certes mais aussi peut-être TR non?

Pour ce qui concerne la baisse d'audience, je me disais bien que ce n'était pas parce que je n'avais pas beaucoup publié le mois dernier: c'était donc bien la faute de Google :); 08 juin, 2010 23:47
Jean Véronis a écrit...: Férocias> Je crois que la récré est finie aussi pour Paperblog : voir sa chute libre sur les derniers mois...; 09 juin, 2010 00:17
Alex a écrit...: @LDS

"Il faudrait pouvoir faire un tri rapide entre catégorie d'information. Je vois au moins deux catégories : commerce ou connaissance."

Comme ca : http://www.askdavetaylor.com/0-blog-pics/mindset-africa-gold-shopping.jpg

? :)

Ces sliders existaient à l'époque (2005) sur Yahoo et meme sur MSN Search : http://www.seroundtable.com/archives/msn-sliders.jpg
Sauf que sur MSN c'était d'autres paramètres ajustables.

Dans les deux cas, ce sont des options qui ont fini par etre abandonnées.
Trop "power users".
Ce qui compte, c'est satisfaire la masse.

D'ailleurs, les changements d'algos de google sur la longue traine refletent également cette philosophie du search.
Est ce que vous avez testé recemment des requêtes à 4 et plus mots clés ?
Google ne fait plus de 'ET' entre les termes, et se permet de faire un stemming sur tout et n'importe quoi. Résultat, si vous etes un peu "poweruser", il faut mettre des '+' devant chaque terme pour lui dire "Si si ! je suis vraiment sur moi. Je t'assure, me prend pas pour un crétin"

C'est désolant :(; 09 juin, 2010 19:32
David (Azur Dev) a écrit...: C'est peut-être la faute à nos compatriotes qui utilise le Gogole à 90% non?

Si les webmasters expliquaient un peu plus qu'un monopole c'est dangereux, en particulier cet espion géant, peut-être que la concurrence se développerait comme dans d'autres pays.; 10 juin, 2010 22:00
Olivier a écrit...: Matt cuts a dit également qu'on attribuait trop d'importance aux backlinks (lien externes qui pointent vers un site), mais il semble qu'il y a un double discours : google est également une énorme régie publicitaire (rachat de doubleclick, youtube...) et ne gagne pas d'argent sur les résultats naturels mais énormément sur les adwords !; 15 juin, 2010 09:37
Unknown a écrit...: Je comprends grâce à vous pourquoi soudainement je n'ai plus un seul visiteur venant de Google, alors que j'en avais des centaines auparavant ! Peut être Google me soupçonne-t-il de vendre des produits financiers pourris ? ;-)

http://benoit.granger.micfin.eu/; 03 juillet, 2010 21:33
Seb de jouerpokergratuit.com a écrit...: Google n'en fini plus ces derniers temps de modifier son algorithme et tout ceci ne semble plus bien logique.

J'ai constaté de mon coté des sites "trustés" avec du contenu de qualité et régulier qui ont perdu des positions, au profit de sites plus anciens mais d'une qualité affligeante qui sont ressortis de la sandbox dans laquelle ils étaient depuis près d'une année auparavant. Une prime à l'ancienneté uniquement donc, qui a toujours existé mais n'était pas aussi poussée auparavant.

Pour la perte de position de certains blogs, il s'agit peut être d'une évolution logique compte tenu de leur profilération exponentielle et de leur contenu parfois aléatoire contenant de temps en temps (souvent ?) des informations non vérifiées.

En plaçant des gros sites "serieux" en avant, google espère peut-être pallier simplement à ses faiblesses qui l'empêchent d'éviter la "pollution" actuelle de certaines requêtes dans ses pages de résultats.

Quoi qu'il en soit, lancer un nouveau projet web va devenir compliqué et demander une bonne dose d'engagement, compte tenu du temps qu'il faudra pour venir se placer correctement dans les SERPS.; 15 juillet, 2010 15:55

Enregistrer un commentaire

A propos de l'auteur

Billets récents

Archives

Outils

Ma startup

Mes livres

lundi, juin 14, 2010

Text: JG Ballard's manuscripts at the British Library

6 Commentaires:

vendredi, juin 11, 2010

Texte: Manuscrits de JG Ballard à la British Library

17 Commentaires:

mercredi, juin 09, 2010

Google: Trusted sites get pride of place

0 Commentaires:

mardi, juin 08, 2010

Google: La reconnaiffance de caractères eft une fcience affez fûre!

23 Commentaires:

lundi, juin 07, 2010

Google: Prime de plus en plus forte aux sites de confiance

22 Commentaires:

Cherchez sur ce blog