Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, juin 14, 2005

Web: Liens brisés dans les publis en ligne



Je viens de lire un article inquiétant dans le dernier numéro du Journal of Computer-Mediated Communication, intitulé " Hyperlink Obsolescence in Scholarly Online Journals", par James Ho. L'auteur analyse trois revues scientifiques en ligne : le Journal of Computer-Mediated Communication, First Monday, et le Journal of Interactive Media in Education.

Une première constatation intéressante est la proportion importante des articles qui contiennent des liens hypertextes. Les auteurs donnent un tableau un peu compliqué, divisé par revue et par tranche chronologique, mais j'ai fait le calcul en additionnant le tout: 76% des articles en ligne contiennent des liens hypertextes. C'est logique, et c'est bien l'un des intérêts de la publication en ligne.

chaine avec maillon brise, sur fond de formules

En même temps, les auteurs évaluent la proportion de liens brisés, et elle est très inquiétante. Elle est de 49%, soit quasiment la moitié, toutes publications et tranches chronologiques confondues. Plus effrayant encore, cette proportion augmente avec le temps. Là aussi, j'ai refait les calculs en regroupant les différentes revues. Pour les articles postérieurs à 2000, la proportion de liens brisés est de 33%. Un tiers, ce qui est quand même déjà gênant. Elle passe à 60% pour les articles antérieurs à 2000! Qu'en sera-t-il dans 20 ans?

L'article cite quelques règles de bonne pratique qu'il conviendrait de suivre, rappelle les efforts en vue d'URLs persistantes, etc. Mais je crains bien que ce ne soient des voeux pieux. L'auteur ne maîtrise pas ce qui est au bout du lien, et je doute que la situation change rapidement. La seule solution robuste me semblerait être de faire une copie locale de la page liée, en gardant bien sûr toute l'information sur la source. Avec quelques garde-fous, cela semblerait être un "fair use" dans le cadre de publications scientifiques, qui devrait avoir raison des questions des droits d'auteur, propriété intellectuelle et autres.

Je rêve peut-être. En tous cas, la communauté scientifique sera certainement amenée à se pencher rapidement sur la question avec le transfert de la publication papier vers la publication électronique qui ira probablement croissant au fil des années (voir par exemple ici). Les références bibliographiques sont le fondement même de la démarche scientifique moderne. Elles sont nécessaires pour rendre crédit aux prédécesseurs, mais aussi pour permettre aux lecteurs de vérifier ou contredire les affirmations des auteurs, en retournant aux sources...

Il est vrai que ces saines pratiques scientifiques sont de moins en moins suivies. J'enrage régulièrement de voir des publications se limiter à un horizon de cinq ans -- comme si rien n'avait existé avant le début de sa thèse (ou la fin de celle de son directeur). J'enrage aussi de voir le nombre de citations approximatives ou inappropriées --et manifestement cités de seconde main, sans que l'auteur ait pris la peine d'aller vérifier ce que les sources disent vraiment. Publish or perish.

Alors, finalement, je ne peux pas m'empêcher de penser que si la proportion catastrophique de liens brisés que nous révèle James Ho ne génère pas plus de protestations, c'est que les citations sont peut-être en train de devenir une sorte de simple rite social auquel il faut satisfaire pour pouvoir être publié, mais dont finalement tout le monde se moque, les auteurs, les lecteurs --et les "referees", qui n'ont guère le temps d'aller les contrôler...

Georges Perec avait fort bien caricaturé la chose dans sa Cantatrix Sopranica. Je remercie mon ami Benoît Habert de m'avoir signalé qu'il a été numérisé et mis sur Internet : [en] [fr]. Ca n'a pas vieilli d'une ride et c'est toujours à mourir de rire. Il est vrai que Perec était documentaliste au CNRS, ça a dû l'aider!



24 Commentaires:

Blogger all a écrit...

Pour la validité des hyper-liens je crois que la meilleure solution est de conserver ses pages dans un éditeur HTML digne de ce nom (ex : WebExpert 2000) et d'effectuer régulièrement des vérifications automatiques de liens à l'aide du logiciel.
En attendant XLink & Xpointer, lorsque le XML sera plus répandu.

14 juin, 2005 13:15  
Anonymous Thierry a écrit...

Il y a quelque chose qui ne fonctionne pas bien dans le principe de l'hyperlien : il pointe vers un monde mouvant, en perpétuel changement ou des pages disparaissent où sont déplacées en permanence.

Le problème est celui de l'URL contenu dans le lien, adresse fixe dans un environnement instable. Même les adresses "permanentes" des articles ne sont permanentes que tant que ces articles existent ; ensuite le lien pointe sur le néant.

L'URL est un être hybride, mélange d'adresse physique et virtuelle (je fais un raccourci, mais c'est à peu près sa nature). N'eut-il pas été préférable de mettre au point des identifiants uniques, totalement indépendants de la localisation de la page et des hyperliens "intelligents", capable de se mettre à jour automatiquement lorsque la page qu'ils référencent est déplacée, ou de signaler que leur cible a disparu de la toile ?

14 juin, 2005 13:20  
Blogger TOMHTML a écrit...

"Plus effrayant encore, cette proportion augmente avec le temps."

C'est normal, vous faites un lien vers un site, plus ce lien date, plus la probabilité qu'il soit cassé (changement d'adresse souvent) augmente ! ;) Quasiment impossible que cette proportion diminue avec le temps :)

14 juin, 2005 13:23  
Blogger Storm Trooper a écrit...

Je deteste le chaise. Pouquoi les chaises habite a moi maison. Je parle anglais. Mais je t'adore Le Francais!

14 juin, 2005 13:37  
Anonymous Yazerty a écrit...

La véritable cause de ce fait est que le web est décentralisé, par nature. Avoir des url "fixes et permanentes" sous-entend avoir un système de linkage des pages unique et central. Ce qui ne se fera jamais car c'est contraire à la philosophie du web.

Pour ce qui est des documents scientifiques il est important que lorsque tel ou tel document est cité il soit notifié la référence très exacte du document. Ainsi le document pourra être retrouvé sur le site général de l'institution scientifique citée, si le lien est brisé.

14 juin, 2005 14:20  
Anonymous Guillaume a écrit...

Il y a pourtant une solution : c'est de faire des URL qui ne prennent pas en compte la localisation physique de la page cible
Dans ce cas, cela s'appelle plutôt un URI (Universal Resource Identifier) qui, comme son nom l'indique, identifie de manière une ressource (une page web est une ressource).
Un très bon exemple de ce genre de chose ce sont les liens vers les fichiers Emule ou BitTorrent (peet-to-peer) le lien est typiquement une URI et le client ne connait pas la localisation physique de la page. En fait, on va même plus loin car la page peut être télécharger sur le client à partir de bout de pages identiques sur des serveurs différents. bref du peer-to-peer.
un lien de ce type sera obsolète beaucoup plus tard car la source est, elle même distribuée....

14 juin, 2005 14:30  
Blogger cow a écrit...

hmm beaucoup de confusion dans les commentaires.

Le Web n'est pas plus décentralisé que la publication papier, il est just plus homogène en terme de publication, moins de phénomène de concentrations.

La notion fondamentale qui est changée dans la publication Web est le nombre de copie d'une oeuvre. Le rapport de l'oeuvre à sa matérialisation/dématérialisation. Dans l'édition papier, un article est imprimé en plusieurs copies et distribué à des endroits différents.

Donc il faut distinguer l'identification de la ressource et l'accès à cette ressource. Un article papier aura une référence unique et de nombreuses copies matérielles, un article Web aura une URI (sous la forme d'une URL, URN, etc.) et bien souvent une seule copie.

Le premier problème des liens brisés n'est pas tant la disparition de la référence URI qui elle devrait être unique (ici d'autres problèmes quant à la conception) mais bien la conservation du contenu identifié par la référence. Dans notre univers physique, nous avons les instituts de mémoire (bibliothèque, musée, etc.). Ils sont soumis à une certaine fragilité également, un incendie et l'oeuvre, si unique, disparaît (toujours pas sa référence mais le contenu).

Des initiatives comme Web archive essaient de conserver le contenu. Il en existe une en cours de développement à la TGB pour le contenu francophone.

Deux problèmes soit dit en passant:

* Architecture du Web : La façon dont on conçoit un site Web. L'identification d'une ressource unique et non pas cacher l'accès à des ressources.

* Aspect social des noms de domaines et services d'hébergement. Par exemple ce site est hébergé sur blogspot, plutôt que sur un domaine particulier avec son nom de domaine propre. Que se passe-t-il le jour où (Blogger) disparaît ? Même si l'auteur du site a une copie de son site et le déplace sur un autre site, il cassera toutes les URLs.

Il faut donc bien différencier identification du contenu, déférencement du contenu et nombre de copies du contenu.

Karl

14 juin, 2005 15:08  
Anonymous esc a écrit...

Jean, tu découvres que la maison Net est bâti sur des sables mouvants... elle n'est donc pas si Net que ça !

Quand quelqu'un pose un lien quelque part et que les autres usent de ce lien, ils se reposent sur lui, ce qui veut dire que la confiance entre en jeu.

Dans un monde où la confiance règne, cette manière de faire n'est pas problématique. Si en revanche il y a une grosse majorité de méchants pernicieux, cette confiance sera systématiquement retournée à leur avantage.

Mais même dans ce cas, recourir à des "identifiants uniques", comme le suggère Yazerty, est un remède de cheval, qui risque fort d'être pire encore que le mal.

Nous avons surtout besoin de nous doter de quelque chose qu'on pourrait appeler "honnêteté intellectuelle"...

14 juin, 2005 20:03  
Blogger all a écrit...

http://www.yoyodesign.org/doc/w3c/xlink/#origin-goals

Xlink permet(ra) à la fois de lier deux ou plusieurs ressources, tout en séparant les informations rattachées à cette liaison

15 juin, 2005 09:54  
Blogger Jean Véronis a écrit...

"honnêteté intellectuelle" (esc)> Justement, je crois que le mileu unversitaire en fait globalement preuve, et c'est pour ça que ces chiffres me semblent tout à fait alarmants. Il y a quelque chose qui ne va pas dans le système lui-même. Quelle que soit la bonne volonté des acteurs individuels, on ne peut empêcher que des labos ferment, que des chercheurs changent d'université, etc. Leurs travaux (vers lesquels des gens ont peut être mis des liens) suivent ou ne suivent pas, mais les liens se retrouvent pendants...

15 juin, 2005 10:00  
Blogger hubert guillaud a écrit...

Ah, les délices de la citation...
En fait, ce problème pose la question de savoir ce qui identifie et "localise" une ressource.

Quel lien hypertexte devons nous donner pour situer une ressource ? Son URL ? Son URI ? Son identification (titre et nom d'auteurs par exemple) via un moteur de recherche (lequel ?) ? Le lien qui bien souvent est le plus pérenne, n'est pas celui qui pointe vers l'URL d'une ressource, mais celui qui pointe vers les noms et titres de la ressource (que l'on peut retrouver via plusieurs moteurs).

En attendant la liquification de l'information... ce type de réflexion pointe un problème majeur : le besoin de duplication de l'information sur le net !

15 juin, 2005 10:40  
Blogger Jean Véronis a écrit...

Hubert> L'ironie de tout ça c'est que le billet que vous citez sur La Feuille pointe vers un lien... mort! Ca ne peut pas mieux illustrer les soucis...

J'ai un peu l'impression que ce n'est pas un problème d'identification, mais d'archivage pérenne. Il faudrait quelque chose qui ressemble au "dépôt légal". Toute publication scientifique aurait à la fois une adresse éternelle mais aussi une réalité éternelle, par exemple sous forme d'une copie à la BnF... ou chez Google (ça m'étonne qu'ils n'y aient pas encore pensé! ;-).

15 juin, 2005 11:27  
Blogger hubert guillaud a écrit...

Complément.

15 juin, 2005 11:29  
Blogger hubert guillaud a écrit...

Oui. Reste qu'il faut encore que "nos institutions" comprennent qu'un archivage pérenne consiste justement en la démultiplication des copies et non pas en l'identification exacte des ressources.

C'est là où je me méfies de la modalité du dépôt légal internet telle qu'elle est posée actuellement.

L'adresse exacte d'un document n'a aucun intérêt et peu d'usage (si ce n'est de dire un peu de l'endroit où il est : site commercial, site scientifique, etc.). L'important, c'est qu'on puisse valider son identification, y avoir accès (ou qu'il soit), qu'on puisse savoir que c'est le même (s'il y en a plusieurs) ou quels sont les différences de versions...

15 juin, 2005 11:40  
Anonymous JM Salaun a écrit...

Je ne suis pas très convaincu, ni par l'argumentaire du billet, ni par ses commentaires.

Sans doute le phénomène des citations perdues est inquiétant et le Web doit se donner les moyens d'outils adaptés pour tenter de l'atténuer. Ce n'est pas différent du pb général des liens cassés en général. De même pour la perte de mémoire d'avant 1995..

Alors pour les publications scientifiques ce serait plus grave ? Combien de lecteurs d'une revue papier retourn(ai)ent aux sources et, pire, combien de références y sont inexactes ?

Je pense qu'il y a ici une idéalisation de la société scientifique qui, qd elle se regarde, considère trop souvent qu'elle est la plus rationnelle et la plus désintéressée, alors qu'elle fonctionne sans doute sur un mode plus féodal que démocratique. Les citations reflètent bien souvent ce type de régulation et sont plus là pour marquer des territoires et des allégeances que pour renvoyer le lecteur à des textes.

16 juin, 2005 09:40  
Anonymous Pablo a écrit...

L'utilisation des DOIs devrait se généraliser dans les citations pour
pouvoir lutter contre ce fléau. En fait avant de poser un URL douteux
vers une autre publication il faudrait avant vérifier s'il existe un DOI pour ce document. Parfois on trouve le DOI dans la version pdf, parfois dans la version html, idéalement dans les deux, mais pour s'assurer on peut toujours faire une recherche dans la base de CrossRef avec le formulaire en ligne gratuit "DOI lookup"
(qui n'est pas très souple car il faut au moins l'un des auteurs,
l'ISSN et l'année ou la page de début) mais je me demande combien des chercheurs le connaissent

Quand le DOI existe cela ne veux pas dire qu'il marche (donc qu'il
renvoie vers le bon URL actif) mais au moins on a la possibilité de signaler le problème par mail. Voilà une autre statistique qui serait intéressante à connaitre : la proportion des DOI qui marchent en moyenne (plus du 50% j'imagine)

Conclusion, pour une fois le domaine académique n'échappe pas au
nivellement du web et à l'incapacité naturelle de l'être humain pour créer des systèmes stables et fiables à 100% et c'est peut-être tant mieux (en tout cas il y en a un à qui tou cela en profite et je ne citerait pas son noooooom)

16 juin, 2005 09:55  
Blogger cow a écrit...

Jean,

le dépot légal n'est pas suffisant, ce n'est qu'une solution intermédiaire. Le fait que les labos ferment et que les entreprises ferment, cela arrive tout le temps, et cela existait à l'ère du papier.

D'autre part, les liens brisés sont très souvent pas le fait de sites qui disparaissent mais bien de sites qui sont mal gérés. Combien de fois ai-je vu un Webmaster remettre à zéro, l'ensemble de son site sans se soucier de son contenu.

Les gens n'ont pas encore compris comment on gérait de l'information sur un site Web, c'est relativement normal, le Web est jeune.

Un exemple très simple:

http://example.org/biblio/articles/

Un jour un webmaster va trouver que cela ne vas pas du tout et va réorganiser en

http://example.org/library/articles/

Les deux URLs sont tout aussi stupides dans le sens où les gens pensent qu'elles ont une sémantique propre. Une URL n'a pas de sémantique.

http://example.org/2004/12/articles/
http://example.org/2004/tartempion/
http://example.org/2004/nawak/

auraient été tout aussi bien

Hubert a raison, la démultiplication de la copie est une des solutions. Google a déjà une copie en cache de nombreuses oeuvres, pas une copie datée cependant.

http://webarchive.org/ a des copies datées mais pas de tout.

1. La première chose à faire est d'éduquer les producteurs de contenu.
2. Avoir des copies de son contenu.

http://www.w3.org/Provider/Style/URI.html
http://www.la-grange.net/w3c/Style/URI

Karl

16 juin, 2005 14:40  
Anonymous toto l'internaute a écrit...

pour ceux qui veulent retrouver un site qui n'existe plus, il y a toujours www.archive.org

"take me back"

16 juin, 2005 17:29  
Blogger Jean Véronis a écrit...

JM Salaun> Vous êtes encore plus pessimiste que moi! Mais en fait, je crois que sur le fond nous sommes d'accord. Oui, les citations dans les publications papier sont défectueuses aussi. C'est peut-être moins facile à évaluer (il y a peut-être des études sur le sujet, mais je ne les connais pas). A vue de nez, je dirais quand même que, du moins dans mon domaine, je ne relève pas un taux de 50% de citations introuvables. Le Web dans sa forme actuelle semble avoir un taux d'obsolescence très important. Oui aussi sur l'aspect féodal, etc. Ce que j'appelle pudiquement "rite social".

Mais (et c'est là sans doute ma naïveté), je ne peux pas m'empêcher de croire que ça n'est pas le meilleur modèle, et j'essaie de lutter à mon petit niveau (mes étudiants, les comités de lecture auxquels je participe, etc.) contre cette tendance. J'espère qu'elle n'est pas inéluctable, même si je n'ai pas beaucoup d'illusions (et l'article de Libération d'hier sur la fraude scientifique massive n'est pas trop fait pour me réconforter).

17 juin, 2005 13:57  
Anonymous Anonyme a écrit...

Bonjour, intéressante disculssion que voilà !

J'aurais une idée en tête : et pourquoi pas des "numéros de référence" à associer à chaque article rédigé ?
Bien sûr ceci serait inimaginable pour l'internet non-scientifique, où les pages sont souvent dynamiques ou composées de multiples éléments pouvant changer.
Mais pour un article scientifique, il y aurait moyen de générer une "clé" unique à cet article, un peu sur le modèle des file-hash des réseaux de peer to peer.

Passez un article à la moulinette d'un logiciel dédié basé sur un protocole ouvert, qui se basera sur le contenu texte, le nom de l'auteur, la revue, le sujet et genre la date, et hop ! On aurait une sorte de code-barres unique, genre composé d'une vingtaine de caractères alphanumériques.
Bien sûr l'URL de l'article pourrait changer, mais dès lors on pourrait envisager des moteurs de recherche d'articles en fonction de leur "clé" pour retrouver exactement l'article voulu, et non pas les 750.000 autres textes traitant le même thème...

Non ? :)

26 juin, 2005 01:14  
Blogger Martin Lessard a écrit...

Anonymous 926 juin) > J'aime bien l'idée.Il faudrait juste voir à ce que la version 1.1 d'un texte ne soit pas introuvabla (car il se peut que je fasse référence à un texte qui a été mis à jour - et alors la clef devrait changer). Il faudra pouvoir linker les clefs dans une chaîne de version pour que je puisse retrouver la dernière version si elle existe...

Jean> tu ne relève pas un taux de 50% de citations introuvables pour le monde papier. Pas dur à croire. Mais accèdes-tu vraiment à 100% des citations papier? Je parle, physiquement, les as-tu à la portée des yeux? Peux-tu les lire dans un délai raisonnable à un coût (énergie, temporel et monaitaire) raissonnable? Ma question ne fera pas revenir les liens web brisés, mais je crois qu'elle relativise le 100% des citations papier dans les faits...Moi je cherche par mots clefs (un peu comme la 'clef' d'anonymous-26-juin) pour retrouver la 'page web perdue'. Ça comble un peu le déficit... Par contre, je ne peux pas toujours me procurer la revue ou le livre en question...

03 juillet, 2005 05:18  
Blogger Jean Véronis a écrit...

Mais accèdes-tu vraiment à 100% des citations papier? (Martin)> C'est vrai, c'est souvent la galère... En fait, ce que je fais pour les choses un peu confidentielles, c'est 1) faire une recherche... sur le Web (!) avec les mots clés du titre ou le nom d'auteur 2) si ça ne marche pas, envoyer un e-mail à l'auteur en lui demandant un tiré à part... Donc, on est peut-être finalement dans le même genre de situation!

De ce point de vue, Internet a énormément amélioré les choses. On arrive la plupart du temps à se procurer le papier, ou du moins un papier proche. Je me rappelle un temps (ante-Web) où se procurer un papier relevait du parcours du combattant (il fallait écrire aux gens par la poste, etc.). C'est peut-être à cause de cette difficulté que les gens étaient plus soigneux (me semble-t-il) dans les références. Maintenant ça n'a plus guère d'importance: en deux clics on est sur la page Web de l'auteur et ses publis sont le plus souvent en ligne...

03 juillet, 2005 09:39  
Anonymous Sabin a écrit...

Et c'est pour ça que selon moi un système de IDTags (c'était moi l'anonymous, mauvaise manip) serait utile...

Je puis me tromper, mais je crois que dans l'état des choses, deux points :
- un IDTag est unique. C'est le principe de base des réseaux peer to peer, on calcule un identifiant unique de façon automatique à partir des bits composant le fichier. On trouve ça un peu partout en fait, quand je télécharge une Iso d'une distro Linux, il est fourni la "MD5 sum" et c'est le même principe.
- Si seules quelques séries de bits varient, je pense qu'il est possible de calculer un taux de proximité entre IDTags. Sinon, puisqu'on est dans l'imaginaire, on peut imaginer une branche commune obligatoire en début de tag : le prénom+nom d'un auteur donnerait une première série de lettres, la revue et l'année pourraient donner une seconde série de lettres... Ce serait déjà un tronc commun de critères de recherches autrement plus efficace qu'une requête google !

03 juillet, 2005 21:15  
Anonymous petchema a écrit...

sabin> "quand je télécharge une Iso d'une distro Linux, il est fourni la "MD5 sum" et c'est le même principe." Le même type d'algorithme, oui (des "digests", ou fonctions de hachage de qualité cryptographique), mais utilisé alors dans un but de vérification à postériori de l'intégrité du fichier reçu (une somme de contrôle de luxe, en quelque sorte), et non un moyen d'identification (et de localisation) par le contenu. Ne confondons pas tout ! (A moins que des sites de téléchargement de distributions Linux ne proposent une recherche par leur MD5 ?)
"Si seules quelques séries de bits varient, je pense qu'il est possible de calculer un taux de proximité entre IDTags." Une des propriétés de ces "digests" est qu'il n'est pas possible (dans un temps raisonnable) de créer un document connaissant la valeur de hachage attendue. ça ne semble pas compatible avec la propriété de continuité (documents proches => valeurs de hachage proches) que vous décrivez. Je ne sais pas si ça a été démontré de manière formelle. Probablement.
Donc si le document est un tant soi peu modifié, il change totalement de digest.
En dehors de ça, oui, un digest est un bon début pour la création d'URI (plutôt SHA1 -ou un autre algorithme- que MD5 de nos jours; MD5 montre de très sérieuses faiblesses...)

02 mars, 2008 15:14  

Enregistrer un commentaire