Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

dimanche, mai 08, 2005

Document: In-censure américaine

L'Italie a été fortement secouée par la libération mouvementée de la journaliste Giulana Sgrena, otage en Irak. On sait que la voiture qui la libérait a été prise sous le feu "ami" des troupes américaines, et que le chef des services secrets italiens, Nicola Calipari a été tué en protégeant la journaliste, qui n'a été que blessée. Funérailles nationales et émotion immense en Italie ; incident international avec les États-Unis. L'enquête italienne semble finalement révéler un manque patent de maîtrise et d'expérience des soldats impliqués, et un manque de communication difficile à croire pour une armée qui se présente comme le champion de la haute technologie (voir rapport italien sur le site du Corriere della Sera [it]).

giuliana sgrena

Cet incident dramatique ne serait pas mentionné ici s'il n'avait eu des développements inattendus qui relèvent du langage et des technologies. On sait que l'armée américaine a fourni aux italiens un rapport "caviardé" : des passages nombreux en ont été censurés, officiellement pour cacher des données personnelles, comme le nom des soldats qui ont tiré. Le rapport résultant est un fichier pdf dans lequel des passages ont été noircis, qui a été publié par les médias italiens (ici sur le site de la Repubblica) :

rapport americain caviardé

Aussi incroyable que cela puisse paraître, les services de l'armée U.S. n'ont pas pensé à protéger adéquatement le document. Celui-ci a été écrit avec MSWord. Les passages ont dû en être noircis avec la fonction "stabilo" qui permet de surligner des passages en couleur, et le tout a été converti avec Acrobat PDFMaker 6.0, sans aucun mot de passe... Si j'avais été l'auteur du document (ou du caviadage), un mot de passe ne m'aurait d'ailleurs pas satisfait, car il n'est pas certain qu'il soit inviolable. J'aurais remplacé tous les passages censurés par des XXX avant de les noircir !

Résultat : aussitôt après sa publication, un bloggueur italien, Gianluca Neri (blog Macchianera) ouvrait le document avec Acrobat, sélectionnait le tout, faisait un copier-coller et récupérait le document en format lisible dans son éditeur de texte. Ce n'est pas un travail de hacker professionnel : vous pouvez faire l'expérience vous-même à la maison à partir du fichier pdf ci-dessus ! Évidemment il republiait la version dé-caviardée sur son blog :

Il rapporto Calipari nella versione originaleLe rapport
censuré
(
pdf)
Il rapporto Calipari comprensivo degli omissisLe rapport
dé-censuré
(
pdf)

Hormis les noms de soldats et d'officiers, on apprend des choses assez intéressantes sur les procédures, et la fameuse "Route Irish", qui semble être le lieu de tous les dangers (les statistiques sont effarantes : 11.25 attaques par mile, au moins une attaque par jour). Mais l'un des paragraphes est assez étonnant du point de vue des hautes-technologies. On sait que les troupes sur le terrain utilisent la technologie VOIP (Voice Over Internet Protocol) qui permet de téléphoner en utilisant une liaison internet. Or, on apprend que l'officier américain qui connaissait la présence du convoi a été victime d'une panne de la liaison VOIP et n'a pas pu informer les soldats du point de contrôle. Encore plus étonnant : il n'a, semble-t-il, pas pensé à utiliser la bonne vieille radio...

The 1-76 TOC had two means of communicating with 4th Brigade, its higher headquarters: Voice Over Internet Protocol (VOIP)2 and FM. The 1-76 FA Battle Captain was using only VOIP to communicate with 1-69 IN, but experienced problems with VOIP, therefore losing its only communication link with 1-69 IN, other than going through 4th Brigade. (Annex 97C). As a result, the Battle Captain was unable to pass updated information about the blocking mission either directly to 1-69 IN, or to 4th Brigade. He did not attempt to contact 4th Brigade via FM communications.
D'autres passages dé-caviardés intéresseront certainement le lecteur, comme les conclusions, qui suggèrent (après quelques milliers d'attaques et des centaines de morts aux "blocking-points"...) qu'il serait peut-être intéressant de mettre en place des signalisations avancées et des éléments d'interceptions "non mortels" comme les chevaux de frise qu'utilisent nos bons gendarmes, avant de tirer dans le tas (mais ça, ce n'est pas vraiment de la très haute technologie -- à moins que les chevaux de frise ne se déplient par communication internet et grâce à un système sophistiqué de localisation GPS, auquel cas il y aura peut-être des surprises ;-).

Les rédacteurs et censeurs du rapport n'ont pas pensé non-plus qu'Adobe Acrobat sauvait des "méta-données" avec le document. En cliquant simplement dans le menu Fichier->Propriétés, on découvre ainsi que les auteurs sont le Lieutenant Col. Richard Thelin (mentionné dans le rapport comme conseiller juridique) et le Colonel Robert Potter, porte-parole de l'armée US à Bagdad.

metadonnees pdf repubblica
Vous avez ainsi son adresse si vous voulez lui écrire ! On voit même le sujet de leur dernier e-mail ("another redact job for you")... Plus étrange encore (je ne pense pas que cela ait été noté pour l'instant, mais la blogosphere est vaste), la version du Corriere est différente de celle de la Repubblica.

metadonnees corriere
La date de création est légèrement antérieure, le sujet de l'e-mail n'est pas présent. J'ai comparé soigneusement les deux documents : ils sont identiques mis à part le fait que celui du Corriere n'a pas de table des matières. Une hypothèse plausible est que les militaires aient commencé à diffuser une version sans la table des matières, puis se soient avisés de cette gaffe supplementaire et aient continué leur diffusion avec une version révisée. Le titre de la deuxième version, celle de la Repubblica, est d'ailleurs "Table of contents". Quoi qu'il en soit, je doute que la carrière de MM. Potter et Thelin se présente désormais sous un très bon jour...

Ce n'est pas la première fois que des compagnies ou des organismes se font piéger par des données cachées dans les documents. On a eu ici même, dans les commentaires de mon billet sur le Wiki et les brouillons, un rappel des problèmes de confidentialités que pose MSWord. Je rappelais l'épisode d'Alcatel (voir ici), mais il y en a eu bien d'autres depuis. L'affaire du groupe SCO, qui poursuivait des firmes utilisatrices de Linux en justice a fait grand bruit : on s'est ainsi aperçu que les plaintes contre DaimlerChrysler et AutoZone avaient été copiées-collées dans des documents originellement préparés pour attaquer la Bank of America (voir CNet). Tony Blair a eu aussi a souffrir de ce genre de difficulté, à propos du dossier bidon qui lui a servi à justifier l'engagement du Royaume-Uni en Irak : le document Word gardait les traces du plagiat qui avait servi de base à son montage. Cruels palimpsestes électroniques !

Ici le problème est un peu différent, parce que c'est surtout l'utilisation maladroite de MSWord qui est en cause (noircir le fond n'enlève pas les caractères !), et la mauvaise maîtrise d'Adobe Acrobat et de ses méta-données. En tous cas, un tel amateurisme dans l'armée la plus puissante du monde laisse rêveur...


chevaux de frise


Cet épisode de dé-caviardage montre une fois de plus le rôle montant des blogs par rapport à la presse officielle : curiosité, inventivité, réactivité. Personne apparemment dans les médias officiels n'avait eu l'idée de farfouiller un peu plus (mais c'était le 1er mai...). Mais par contre ces mêmes médias ont été très heureux de récupérer l'information -- sans citer le blog d'où elle provenait. Dans un premier temps, les principaux journaux italiens publient ainsi l'information sans citer leur source (voir articles de la Repubblica [it1 it2] et du Corriere della Sera [it].). Ce n'est que plus tard que Gianluca Neri est devenu l'homme du mois, lorsque, finalement la blogosphere a fait suffisament de bruit pour que sa paternité soit reconnue (le Corriere la reconnait le 4 mai [it] -- je n'ai pas trouvé d'article analogue dans la Repubblica).

Mais la blogosphère, et l'internet en général, ne sont pas non plus le nouvel ange face au démon de la presse. Ils ont aussi leurs défauts. J'ai déjà mentionné sur ce blog la reprise en boucle planétaire des dépêches et informations diverses sans valeur ajoutée, et sans contrôle ni retour aux sources. C'est souvent le fait de la presse officielle, pour laquelle cette forme de journalisme est plus tranquille et moins coûteuse que d'autres. Internet ne fait hélas pas toujours mieux. Après avoir découvert cette histoire dans la presse italienne, je me suis demandé si elle été déjà arrivée en France. Eh bien oui, on commence à la trouver sur les blogs et sites "aggrégateurs de nouvelles", mais malheureusement, ils reprennent généralement une version édulcorée, dans laquelle la source originale est oubliée (voir Infos-du-Net, PC-Inpact[1], Zataz Mag). Les blogs et les forums reprennent par copier-coller (exemples: l'Xpéditif, forum Hardware). Je n'ai pour l'instant trouvé qu'une mention de Gianluca Neri, chez Présence PC et Le Lézard qui publient d'ailleurs exactement le même texte.

Le "journalisme citoyen" est bien jeune et a encore sans doute beaucoup à apprendre. Saura-t-il éviter de tomber dans les travers de son grand frère, le journalisme institutionnel, qui devient de plus en plus un système à deux niveaux, dans lequel quelques agences (Reuters, AP, AFP, etc.) diffusent des dépêches, et une multitude de médias les reprennent verbatim ou avec une reformulation minimale ? Il suffit de chercher n'importe quel thème du jour sur Google News pour se convaincre du phénomène (ce qui est d'ailleurs pratique pour l'algorithme de regroupement automatique de Google, et les brevets récemments déposés par celui-ci ne vont pas aller dans le sens de la diversité !). Espérons que le "journalisme citoyen" n'adopte pas ce modèle, avec une poignée de sites "aggrégateurs de nouvelles", et une multitude de blogs qui les rediffusent dans une sorte de gigantesque effet larsen de la blogosphère.

On manque de sites aggrégateurs raisonnés comme Rezo, qui pondèrent l'information, la recoupent, font des choix éditoriaux, font émerger ce qui n'est pas déjà sur Reuters et AP (et donc partout ailleurs). Y en-a-t-il beaucoup d'autres ? La pluralité serait souhaitable, ici comme ailleurs.




Post-scriptum

[1] Marc Rees de PCInpact me dit qu'il a vu mon billet et qu'il a rectifié la nouvelle. Génial, Marc. Cela montre une belle réactivité de PCInpact, site excellent par ailleurs. Il y a donc de l'espoir pour le "journalisme citoyen", et c'est très encourageant.

17 Commentaires:

Blogger Luc a écrit...

Analyse passionnante et exceptionnelle !

Je suis content d'avoir découvert ton blog (via le projet Agoravox).

Un nouveau lecteur assidu,
Luc
Chez Luc
Gaïa : bulletin de santé

08 mai, 2005 18:31  
Anonymous Erwan a écrit...

Les chevaux de frise pilotés par internet sont largement dépassés, puisque le DARPA bosse depuis quelques temps sur des champs de mines automatiquement repositionnables.
Ah oui : et elles sautent à 30 mètres de hauteur aussi.

Excellent article, par ailleurs, merci pour la synthèse.

09 mai, 2005 00:05  
Anonymous mee2 a écrit...

Magnifique !

09 mai, 2005 13:11  
Anonymous Jid a écrit...

Toujours impressionnant de précision (et de recherche)

09 mai, 2005 14:24  
Blogger all a écrit...

Trop puissant

09 mai, 2005 17:18  
Anonymous Ali Baba a écrit...

Et si c'était fait exprès ?

Un tel amateurisme me paraît trop gros pour y croire. Je ne serais pas surpris que l'armée américaine ait fait exprès de laisser le texte caviardé déchiffrable aisément. Ça couperait court aux rumeurs de ce genre : http://arnaudel.free.fr/index.php?2005/03/12/135-giuliana-sgrena-cible-ou-malchanceuse

10 mai, 2005 00:34  
Anonymous mirko a écrit...

Quelques details:

1) Tu dis "La plus puissante armée du monde"... merci d'insérer le terme "autoproclamée" dans cette expression.
Ils sont en effet très forts en désinformation mais personnellement, je pense que la Chine est bien plus forte car disposant à la fois à volonté des canons et de la chair à canon.

2) Dans le film "Sum Of All Fears", on voit le Poutine de service dire "Je préfére passer pour un bourreau que pour un incapable". Peut-être que c'est l'inverse qui a été voulu ici : Que l'Oncle Sam fustige ses miettes de pain pour ne pas avoir à avouer l'inavouable.

3) Sinon, j'ai trouvé ton blog via celui de Yoyo et je te félicite pour sa qualité.

10 mai, 2005 15:33  
Anonymous YoYo a écrit...

Ceci dit je ne poste que des liens de qualité hein !

Mais moi aussi je félicite M. Veronis pour la qualité de ce site... mais avec autant de redaction où trouvez vous encore le temps d'enseigner ? :)

10 mai, 2005 19:40  
Blogger Jean Véronis a écrit...

Merci pour tous ces compliments, j'en suis tout confus...

où trouvez vous encore le temps d'enseigner> Bah, le problème n'est pas tellement d'enseigner, mais de trouver quoi dire ! Et il se trouve que beaucoup de choses qui sont sur ce blog (moteurs de recherche, statistiques lexicales, étymologie, etc.) se retrouvent tout droit dans mes cours -- vous m'aidez d'ailleurs beaucoup, tous, par vos commentaires, parfois très incisifs (ça évite de s'endormir!). Au début, je tenais d'ailleurs ce blog pour mes étudiants, et puis je me suis aperçu que ça intéressait plein d'autres gens. Ca ne pourrait pas être ça l'Université de demain ?

10 mai, 2005 19:49  
Blogger Luc a écrit...

J'ai publié une note à propos de ton analyse : Le rapport U.S. qui exonère les flingueurs de Giulana Sgrena

Cordialement,
Luc

10 mai, 2005 20:23  
Blogger Jean Véronis a écrit...

Merci d'avoir laissé un mot, Luc. Oui, on s'est "croisés" sur Agoravox (on verra bien ce que ça donnera, ce truc-là...). Au fait, le look marin breton (casquette et ciré), c'est pour faire diversion, car je vois qu'on est voisins ! Je viens d'aller visiter Chez Luc et Gaïa. Bravo, Je les mets dans mes lectures!

10 mai, 2005 21:23  
Anonymous YoYo a écrit...

>J.V.
Le contenu des cours je m'en souviens car j'ai eu le plaisir de suivre des UE au CILSH. Par contre à l'époque c'était encore le VB (chut oui je sais ça fait honte :p)

Les sciences du langage sont très interessantes, et peut-être une des sciences humaines les plus abordables pour qui sait se mettre au niveau de son interlocuteur (suivez mon regard...).

C'est le seul reproche que je puisse faire a l'enseignement des sciences du langage à la fac. Un certain élitisme, voire suffisance de la par de certains enseignants. C'est d'ailleurs ce qui m'a détourné de cette matière malgrè tous les bons aspects de cette formation. (bon d'accord, c'est vrai que mes bonnes notes en TAL ne m'ont pas permis de compenser aussi mais un poil de mauvaise foi n'a jamais tué personne).

Donc oui je confirme je redecouvre à travers ce blog la matière qui m'interessais à l'époque. Donc continuez comme ça !

10 mai, 2005 21:37  
Anonymous Thierry a écrit...


"Ca ne pourrait pas être ça l'Université de demain ?"


OUI, j'espère !

11 mai, 2005 10:14  
Anonymous Samuel D a écrit...

2 très courtes réflexions à la lecture de ton post :
- le nombre colossal d'acronymes utilisés par les militaires américains dans le PDF. Lié à la *technicité* du métier et des procédures employées, les acronymes sont généralement assez bien définis (au fil du texte) mais impliquent une gymnastique mentale permanente;
- l'emploi très curieux de l'adjectif "Devious" dans le rapport, page 9, à propos des techniques employées par les personnes commettant des attentats suicides. Ceux-ci sont, par nature, des actes de tromperie dont l'objectif est de causer le maximum de pertes. l'adjectif "Devious" indique une sorte de gradation dans les actes de tromperies, ce qui me semble surprenant.

11 mai, 2005 14:12  
Anonymous François Dubreuil a écrit...

Euh.. L'Université de demain? Enthousiasmant, à coup sur, mais ne peut-on pas envisager aussi de se rencontrer, de temps en temps ? Sans revenir à Platon et ses disciples devisant sur le pas de la porte, le tout-électronique en matière de construction des savoirs est peut-être un peu insuffisant.

25 mai, 2005 06:30  
Blogger Jean Véronis a écrit...

le tout-électronique> j'espère bien qu'on n'en arrivera pas là ! sinon, on n'a plus qu'à se transformer en avatars 3D...

25 mai, 2005 07:23  
Anonymous Anonyme a écrit...

Bonjour,

Autre exemple de meta-données non cachées dans un document :
http://ddata.over-blog.com/xxxyyy/0/22/12/54/meeting-angers2.doc

Dans les Propriétés de ce document Word, on constate très aisément que le discours a été écrit au cabinet du ministère de l'intérieur (comme les précédents discours mis en ligne). Mélange des genres ?

Yogi

04 avril, 2007 16:29  

Enregistrer un commentaire