Jean Véronis
Aix-en-Provence
(France)


Se connecter à moi sur LinkedIn Me suivre sur Twitter Facebook RSS

mardi, juin 28, 2005

Web: Les plagiaires y errent

Le journal Le Monde publiait il y a quelques jours un article intitulé « Une arme informatique contre le plagiat mise au point par une société savoyarde ». Cette société, Six Degrés, commercialise en effet un service Web appelé Compilatio.net (compilatio voulait dire pillage, et par extension plagiat en latin), qui permet d’analyser des travaux d’étudiants douteux (les travaux, pas les étudiants, encore que...). Le principe est simple : on s’abonne et ensuite on peut soumettre des textes à analyser, pour la modique somme de 0,29 € HT (ça doit faire dans les 0,35 TTC) à chaque fois. L’Université de Savoie et quelques autres écoles auraient déjà souscrit.

texte examiné à la loupe

Il faut reconnaître que la pratique du copier-coller est devenue quelque peu inquiétante. Je la constate tous les jours chez mes étudiants... Demandez n’importe quoi, un rapport sur l’explosion des SMS en Moldavie, la synthèse de la parole dans les machines à coudre, les langues de la planète Mars, et vous aurez immédiatement des dizaines de rapports superbement mis en page, avec photos, figures et couleurs ad nauseam, mais dont le texte oscille entre des passages fastidieux avec orthographe approximative (« Nous allons consacré la première partie de ce rapport... ») et des passages parfaitement écrits, avec des mots compliqués, des figures de style et tout et tout -- dans une espèce de patchwork à la rhétorique obscure.

Bien sûr, il suffit de copier un passage ou deux dans Google Yahoo pour en trouver immédiatement la provenance... C’est en gros ce que fait Compilatio.net, en systématisant la méthode. Le site Compilatio.net est remarquablement silencieux sur les aspects techniques --secrets de fabrique, je présume-- mais l'un des auteurs, Frédéric Agnès, a accepté de me donner quelques infos. Le texte est tronçonné en segments d'une dizaine de mots, qui sont comparés avec une base de données de documents: Compilatio.net possède son propre crawler, qui n'indexe pas tout le web, mais certains sites ciblés. La comparaison est complétée par un envoi de requêtes auprès de métamoteurs. Compilatio.net retrouve non seulement les URL d’où ont été extraits les fragments plagiés, mais donne aussi un coloriage du texte et des originaux qui montre les fragments copiés.

J’avoue que j’étais un peu sceptique sur l’efficacité de la technique. J'ai voulu en avoir le coeur.net et j'ai donc soumis un texte que j'ai fabriqué pour la circonstance (on a droit à deux essais gratuits). J'ai collé ensemble dix extraits de textes pris sur le Web: blogs, articles scientfiques, extraits de Wikipedia, rapports (Cemagref, Insee). Du HTML et du pdf. J'ai même été un peu vache: les rapports en question font plus de 60 pages et j'ai pris un bout à la fin, me disant que les métamoteurs interrogés n'en indexent peut-être qu'une partie... Ca m'a fait un texte bidon de trois pages, que j'ai soumis à Compilatio.net. Il a fallu trois à quatre minutes pour que j'aie ma réponse. Oui, le texte était suspect!

indice de plagiat

L'analyse détaillée des résultats m'a épaté. Le système a retrouvé 8 extraits sur dix. Il fournit les URL et colorie les passages incriminés. Un clic, et on est sur l'original, lui aussi colorié. Les extraits en fin des gros rapports Cemagref et Insee ont bien été repérés. Les deux extraits qui n'ont pas été identifiés sont deux paragraphes de blogs (AixTal, MissTICS). Ils sont pourtant indexés dans Google et Yahoo.

urls et coloriage du texte

Vraiment pas mal, donc, du point de vue technique. Il existe déjà des systèmes analogues pour l'anglais (par exemple Plagiarism, TurnItIn ou Eve), mais il faut saluer la prouesse, d'autant que le système est très ergonomique et simple à utiliser. J'avais trouvé un seul petit point noir, le temps: d'après mon essai, si le système avait mis disons une minute par page, cela aurait fait un temps de traitement d'une heure pour un rapport de 60 pages, 48 heures pour une promo de 48 étudiants... Mais Frédéric Agnès m'explique que le système procède par sondage statistique et que le temps de traitement reste constant quelle que soit la taille du document. S'il est considéré comme suspect, une analyse plus fine peut alors être déclenchée. Bien vu.

masque

La situation est-elle cependant si grave qu’il faille mettre en place dans les universités des sortes de radars automatiques comme sur les bonnes vieilles routes de France ? La situation est préoccupante sur les campus américains. Une étude de Donald McCabe (Rutgers) avait fait grand bruit en 2003 en révélant les résultats d'une enquête auprès de 18 000 étudiants : 38% d'entre eux reconnaissaient avoir eu recours au copier-coller à partir d'Internet (voir article du New York Times). La proportion n'était que de 10% en 2000. Je ne connais pas d'étude du même type pour la France. Intuitivement, j'ai trouvé que la proportion de copier-coller était en augmentation assez préoccupante sur les deux ou trois dernières années, comme je le disais en introduction, et je crois que d'autres collègues font le même constat (une collègue d'HEC Genève anime un groupe de travail très intéressant sur ce thème).

Je ne crois pas que nous en soyons arrivés à la situation des campus américains, où des officines ("paper mills") se sont même spécialisées dans la vente de devoirs et mémoires en ligne (par exemple SchoolSucks ou CheatHouse). Il faut dire que lorsque les droits d'inscription atteignent 10 à 15000 $ par an, cela incite peut-être à des "investissements" de ce type... Pour l'instant ce que j'ai pu constater relève plus de la méconnaissance des règles du travail universitaire que du plagiat caractérisé. Je ne disconviens pas que celui-ci existe aussi, évidemment (des sites de "gruge" commencent même à apparaître pour le français), mais pour l'instant ce que j'ai surtout observé c'est que mes étudiants n'ont pas conscience que le copier-coller de sources multiples n'est pas une façon acceptable de faire un rapport.

Il faut dire qu'on ne prend guère la peine de leur enseigner les règles de base de la propriété intellectuelle, du bon usage de la citation, etc. Pire encore, ils ont été habitués pendant toute leur scolarité, au collège et au lycée (et peut-être même avant), à faire des "recherches" qui se résument déjà le plus souvent à des assemblages par copier-coller. Je vois mal d'ailleurs comment ils pourraient faire différemment: supposez que vous ayez à faire un projet sur l'Etna ou l'histoire du cinéma pour la semaine prochaine... Comment un enfant de 12 ou 14 ans peut-il à la fois trouver les sources (indispensables), les lire, et avoir le recul pour synthétiser ses lectures en un travail réellement personnel? Il me semble que la compilation est un travail intelligent et honnête au collège (la synthèse et l'appropriation peuvent venir après). Il suffirait d'expliquer clairement comment citer ses sources, comment mettre en évidence les parties personnelles et les parties empruntées (du bon usage des guillemets et des annexes), etc. Je ne crois pas que pour l'instant ce soit beaucoup fait dans le secondaire, sauf exception, mais il faudra certainement que le corps enseignant se penche sur le problème. La copie a toujours existé, mais les sources étaient rares et difficiles d'accès, et copier des encyclopédies était un travail de bénédictin. Internet a changé la donne. Il faudra sans doute désormais enseigner l'art et l'éthique de la compilation...

J'ai constaté que la méthode marchait à merveille auprès de mes étudiants. Quelques explications de base, techniques autant qu'éthiques, et le problème disparaît: l'immense majorité de nos étudiants est profondément honnête. Quant aux plagiaires invétérés, la dissuasion des moteurs de recherche est radicale. Il suffit de dire qu'il y aura contrôle sur Internet pour que toute tentation disparaisse comme par magie. De ce point de vue, Compilatio.net constitue l'arme de dissuasion absolue: comme la Bombe, il n'y aura peut-être pas besoin d'y avoir recours. Il suffira de faire la démo...

20 Commentaires:

Anonymous Anonyme a écrit...

Toujours aussi intéressant...
Merci et encore bravo pour vos enquêtes.
Continuez !

28 juin, 2005 20:29  
Blogger Francois Dubrulle a écrit...

Votre angle de réflexion est très pertinent. Effectivement, Internet risque de devenir ce "bouc-émissaire" qu'il sera tellement aisé de ridiculiser (ne pouvant se défendre !). Ce phénomène cache, je pense, une impuissance du corps professoral en France à comprendre que l'enfant ou l'étudiant n'est pas une machine productive (du fait d'une vision faussement assénée par les média) mais que sa réussite se construiera par la compréhension de sa propre individualité. On oublie l'homme "sensible", mais ce n'est pas la faute d'internet !

28 juin, 2005 22:56  
Blogger Chris W a écrit...

Il me semble que ce ne sont pas seulement les règles, mais encore davantage la technique de la compilation-synthèse qu'il faudrait enseigner. L'art plutôt encore plus que l'éthique.

A côté de l'enseignement approfondi que reçoivent les élèves en analyse littéraire et construction de récits, l'entraînement à l'argumentation synthétique à partir de sources fait souvent défaut.

28 juin, 2005 23:00  
Blogger Jérôme Charron a écrit...

L'enseignement de la technique fait également défaut. Je me souviens par exemple du premier papier que j'ai rédigé pendant ma thèse: Quelle angoisse. Comment faire? Quel est le style à adopter? Quels sont les règles à respecter? Comment citer? Et tant d'autres questions pour lesquelles je n'étais pas préparé.
Notre société française manque vraiment d'une culture "maître-disciple" (comme je comptais en trouvais une pendant mes études supérieures).

28 juin, 2005 23:56  
Anonymous P'tit Ben a écrit...

Un oubli, sans doute, c'est en ce qui concerne les personnes qui possèdent des bases de données inaccessibles via le web (cdrom). Ainsi, pour un exercice de correction, je crois, j'avais retrouvé le texte original sur un cdrom du Monde...
Mais il est possible que cette société ait aussi accès à ces bases de données.

29 juin, 2005 00:04  
Blogger all a écrit...

Hop ! un copié /collé :

« Google filters our reality, dictates our aesthetic, collates and catalogs our memories, chooses what information we mine. The Google experience becomes a collective Rorschach test, which shapes our worldview and affects who we are and what we will become.»

SOURCE

29 juin, 2005 08:58  
Blogger H. de Strasbourg a écrit...

Difficile d'en vouloir aux étudiants qui pratiquent, pour certains sans conscience réelle, une forme de plagiat, lorsque l'on observe les pratiques journalistiques en la matière. La pratique consitant à composer des articles sans citer a minima les sources peut être largement constaté. Et je ne parle même pas du "journalisme AFP" qui consiste à simplement coller le texte de la dépêche, éventuellement en changeant la phrase d'introduction. Si l'information ne consite qu'à la redite à travers divers support non seulement de la même information, mais également sous la même forme littérale, pourquoi en irait-il autrement pour la science ? Si mes souvenirs sont corrects, A. Frossard, dans Les 36 preuves de l'existence du diable, fait constater par Lucifer que les journeaux du jour ne font que plagier le Monde de la veille, qui lui-même ne fait que tenter de repproduire la qualité de son premier numéro....

29 juin, 2005 09:48  
Blogger ---deleted--- a écrit...

Un autre point de vue à propos de Compilatio : j'ai fait mes propres tests, avec des succès mitigés.

29 juin, 2005 13:11  
Blogger Jean Véronis a écrit...

François> C'est bien d'avoir d'autres tests, car ce serait hasardeux de conclure sur la base d'un seul essai! J'ai laissé un commentaire chez vous.

29 juin, 2005 14:06  
Blogger Jean Véronis a écrit...

François Dubrulle> Oui, bien d'accord. On se sert trop facilement d'internet comme bouc-émissaire, pour masquer les insuffisances diverses de notre société...

29 juin, 2005 14:08  
Anonymous LudovicD a écrit...

Jean et H ont raison, et discutent peut-être de plusieurs facettes d'un même problème - la recherche de la facilité à tout prix (il faut bien se garder un peu de temps pour battre ses records sur Granturismo XVIII...)

Et l'exemple vient de haut, en effet - nombre d'articles de journaux ne sont qu'une compilatio (merci pour l'étymologie, en passant!) de dépêches peu (ou mal) digérées, quasiment jamais réécrites ni même reformulées (ni surtout corrigées - j'ai déjà vu dans plusieurs journaux la même faute d'orthographe au même endroit...)

Ceci n'enlève rien cependant au manque de rigueur et de conscience des étudiants qui pratiquent ce nouveau "sport". Le manque d'enseignement du "comment-faire" n'est pas une excuse forcément valable à mes yeux. On essaie, on se trompe, et ce faisant on apprend. J'ai du mal à imaginer un prof pénalisant des étudiants qui rendent des copies un peu mal fichues plutôt que plagiées - et, surtout, non lues ni comprises!

(Jean, au fait, d'où tenez-vous qu'Al-Qaïda gère le réseau mobile moldave?)

29 juin, 2005 14:18  
Anonymous MiniPhasme a écrit...

euh... démo démoniaque :)
Ne faudrait-il pas leur apprendre le coping ?

29 juin, 2005 20:23  
Anonymous catherine T. a écrit...

impressionnant! merci pour vos recherches et vos conseils. Nous sommes tous concernés je pense, et j'ai cette année constaté le problème chez mes étudiants de ... première année! Ma question: connaissez -vous un site de vérification similaire en langue allemande? Car comme aux Etats Unis, il existe de nombreux sites germanophones qui vendent rapports et mémoires en allemand, mais aussi des sites d'enseignants avec du matériel pédagogique intéressant et gratuit, sites que mes étudiants ont très vite trouvés!

30 juin, 2005 11:12  
Blogger Jean Véronis a écrit...

site de vérification en langue allemande (Catherine T.)> ah non, c'est la colle... Je ne connais pas du tout, mais petu-être que d'autres lecteurs vont avoir des pistes ?

30 juin, 2005 11:17  
Blogger H. de Strasbourg a écrit...

Et si l'AFP allait plus loin dans sa prestation et proposait vraiment du prêt à imprimer, en poussant la démarche jusqu'au bout. Voilà un cauchemard qui risque de devenir réalité.
Jean, quelle lecture donnerais-tu de ce genre de dérive ?

01 juillet, 2005 09:59  
Blogger writ a écrit...

C'est un problème de pensée, de fonctionnement et de formation intellectuelle ; la facilité du geste sur un clavier le révèle. Citer, copier, plagier, imiter, s'inspirer, penser, inventer... chacun de ces mots est différent et pourtant de l'un à l'autre le passage est si ténu.

19 juillet, 2005 13:36  
Anonymous Anonyme a écrit...

Génial.. en tant qu'étudiant je peux vérifier si mon rapport (plagié, evidemment !), ne sera pas repéré par mes professeurs... et modifier légèrement le contenu dans ce sens... Et hop ! 100% original... Le problème ne sera plus juste de rajouter des fautes d'ortographe mais de s'assurer que le moteur ne le reconnait pas !!!

19 juillet, 2005 18:50  
Anonymous stéphane a écrit...

J'arrive avec un peu de retard, mais j'ai testé également compilatio avec un papier original datant de quelques mois.

Surprise, l'outil m'indique 24% de similarité (avec 96 sources identifiées), ce qui peut sembler très suspect !

En regardant de plus près, aucune partie du contenu du texte n'a été retrouvée dans l'index de compilatio.net.

En effet, uniquement des passages de la bibliographie sont détectés (qui représentait 4 pages sur 16 du document) !

Un conseil donc aux auteurs du logiciel et aux utilisateurs : retirer les références bibliographiques des textes à analyser.

Quand j'aurai quelques minutes, je repasserai le document dans l'outil en prenant soin de retirer la bibliographie.

08 décembre, 2005 19:11  
Blogger Emi a écrit...

Avec retard également, je réponds à Catherine. Il n'est pas important d'avoir un outil en allemand pour retrouver des documents dans cette langue. Compilatio gère toutes les langues tout comme ses concurrents : Urkund, Turnitin et MyDropBox.
Enfin je réponds à utilisateur anonyme, certains systèmes sont capables de détecter la synonymie car ils sont dotés de moteur d'analyse lexicale : le fait de changer un ou plusieurs caractères dans une phrase ne suffira donc plus :-)

16 décembre, 2005 15:31  
Anonymous Aymeric a écrit...

Après lecture du post j'ai testé le logiciel avec le mémoire que je suis en train de rédiger. Je suis mitigé.

Je suis particulièrement impressionné par les liens vers les documents pour les parties suspectes.

En revanche, la gestion de la bibliographie pose un réel problème surtout si on cite bcp d'articles de journaux. Le logiciel a indiqué de nombreux blogs qui avaient repris les mêmes articles que ceux cités dans mon texte.

Par ailleurs, comment va se comporter un professeur qui verra compilatio trouver de nombreux passages suspects dans un document, prendra-t-il le temps de vérifier tous ces passages ? Ou faisant confiance à complatio, il cèdera à la paresse, celle-là même qui a poussé l'étudiant à plagier ???
J'ai svt entendu dire que les profs ne lisaient pas les mémoires des étudiants, cet outil de vérification ne va pas vraiment les y inciter.

Pour conclure, je reconnais que c'est un bon outil pour qui craint d'avoir un peu trop forcé sur le ctrl+c / ctrl+v

31 décembre, 2005 02:04  

Enregistrer un commentaire