... mais pas sur les textes du XVIIe siècle ! Je cherchais à relire hier soir
L'Homme de Cour de
Baltasar Gracián y Morales, philosophe jésuite espagnol assez peu connu du public, mais dont les oeuvres (presque immédiatement traduites en français) ont inspiré La Rochefoucauld, Voltaire, Schopenhauer, Nietzche, Lacan et Guy Debord. Le personnage, rebelle et assez cynique, n'est pas sans rappeler Machiavel — à la différence que son analyse désenchantée du pouvoir, des apparences et de la comédie sociale ne s'adresse pas au Prince mais à l'homme du commun...
Bref, je farfouille dans Google. Pure paresse, j'en conviens (j'aurais pu chercher sur
Gallica, dont je suis un grand fan [
1,
2], mais la lourdeur et la lenteur de l'interface ont fini par avoir raison de ma bonne volonté...). Voici donc le
document qui apparaît — la numérisation d'un volume de l'Université du Michigan :
Superbe. J'étais prêt à me replonger dans les aphorismes du vieux jésuite, mais un nuage de tags assez extraordinaire m'a accroché l'œil :
Google numérise en mode texte les livres anciens ! Voilà qui est nouveau. Ou peut-être pas, mais en tout cas j'avais raté cet épisode. Cela m'a surpris parce que jusqu'ici la reconnaissance de caractères sur de tels textes posait des difficultés à peu près insurmontables (c'est pour ça que Gallica ne propose quasiment que des images pour les fonds anciens). Vous imaginez que ça a titillé quelque peu ma curiosité !
Feulement, foilà... il y a un petit problème ! Le tag cloud semble avoir été réécrit par Sylvestre (je ne parle pas d'un traducteur jésuite du XVIIe siècle, je parle du Gros minet,
frapriffti fauffife !) :
Fage, feulement, favoir, fouvent, chofes, fcience... Le tag cloud est
affez maffacré ! Le principal problème provient du
s long : les textes de cette époque utilisaient pour le
s interne aux mots une forme voisine du
f. Le
s que nous connaissons de nos jours n'était utilisé qu'en position finale. Cela rend la lecture malaisée pour le profane, mais avec un peu d'habitude on n'y fait plus attention.
Visiblement l'OCR n'aime pas — ce dont je me doutais ! Mais le plus étonnant est tout de même que Google ne s'en aperçoive pas, ou ignore volontairement le
maffacre... Car l'utilisation qui est faite de ces numérisations en mode texte
maffacré semble
maffive ! Le texte ainsi maltraité est indexé tel quel dans le moteur et l'index est pollué de façon majeure. Pour avoir une idée de l'ampleur des dégâts, tapez par exemple la requête
+feulement +favoir (le + force le mot dans sa forme exacte sans correction orthographique). Vous tombez sur l'Encyclopédie de Diderot et d'Alembert et 272 000 résultats au total :
Voilà qui m'épate tout de même ! Apparemment des dizaines de milliers d'ouvrages anciens ont déjà été numérisés avec ce bug. Personne ne regarde le résultat chez Google ? Je conviens que la numérisation des documents anciens en mode texte est difficile (je ne la pensais même pas possible). Mais sur ce cas d'espèce il suffirait déjà de redresser tous les mots qui n'apparaissent pas dans le dictionnaire (comme
fcience ou
jurifprudence), mais se rapprochent d'un mot existant en substituant un
s au
f pour résoudre la moitié des problèmes. Une approche légèrement plus ambitieuse basée sur la probabilité des bigrammes ou trigrammes de mots résoudrait la plupart des autres cas, comme
feulement, qui est aussi un mot du français (le feulement des fauves)...
Tiens, je vais leur proposer mes services !
En attendant, si vous voulez une version plus lisible, en orthographe et typographie moderne, de cet
Homme de cour, j'en ai trouvé une
ici.
6 Commentaires:
Some writers try to recreate that: http://craphound.com/?p=2171
Flashbake records the text every 15 minutes, with additional metadata (weather, music, etc.).
Thanks for the link (the homepage of the Flashbake projet is here). The Time machine on Macs is impressive as well. However the problem remains, in a way: assuming that authors use such tools, what will become of these backups in a few years, not speaking of centuries ?
Thanks, I discover the first page of Crash, I didn't see it before.
Ce manuscrit est très intéressant à lire et à observer. Merci de nous en avoir fait part !
OT (but I don't know how better to write to you, I don't hope nor expect to see this comment on this post): any comments on the new "i write like" app? (iwl.me) There is an interview with its author on the awl: he uses Bayesian classifiers, like a spam filter, but with added features (he says) like number of commas, etc.
Wouldn't an incremental compression measure have been at least as good and easy to cobble together quickly?
Is there a French-language equivalent (or better)?
On topic: the Library of Congress has extensively analyzed a draft of the Declaration of Independence to determine what word Jefferson had written then obliterated to replace by "citizens." See WaPo article Jafferson changed.... As they point out, it couldn't have been done without the original of the draft.
Enregistrer un commentaire