Comment l'IA peut aider les historiens à déchiffrer des textes anciens

« L’historien de demain sera un programmeur, ou bien il n’existera pas ». Les archivistes et historiens du monde entier ont commencé à utiliser des outils d’intelligence artificielle dans leurs travaux de recherche. Cette utilisation, qui doit être maniée avec prudence, n’en serait qu’à ses débuts, rapporte la Massachusetts Institute of Technology (MIT) Technology Review, le 11 avril dernier. Depuis plusieurs années, de nombreux documents historiques ont été numérisés, parfois en très grand nombre, comme les archives judiciaires finlandaises datant du XIXe siècle, ou les archives de Notre Dame de Paris allant du XIVe au XVIIIe siècle. Mais jusqu’à présent, les chercheurs pouvaient difficilement passer au crible ces millions de documents. Et même quand des outils informatiques ont été créés, ils ont dû faire face à deux problèmes. D’abord, l’apprentissage automatique n’analysait pas bien les illustrations ou les inscriptions anciennes – comme celle du Moyen-Âge ou de l’Antiquité par exemple.

Car « de nombreux modèles d’IA sont formés sur des ensembles de données des quinze dernières années », explique Lauren Tilton, professeur en sciences humaines à l’université de Richmond aux États-Unis. Les objets qu’ils ont appris à répertorier et à identifier ont tendance à être des caractéristiques de la vie contemporaine : pendant que les iPhones ou les Tesla seront facilement reconnus, l’IA butera sur les objets représentés pendant la Renaissance par exemple. Même topo au niveau de l’analyse des textes. L’IA générative est très efficace quand elle dispose d’une montagne de données sur laquelle elle a pu s’entraîner, comme les textes en anglais. Mais quand il s’agit d’un document écrit dans une langue morte, voire dans un dialecte proche du latin dont il ne reste presque rien, ce type d’outil est peu performant, parce qu’il n’a pas pu s’entraîner préalablement. La difficulté est d’autant plus grande que les manuscrits anciens ont été écrits à la main, avec des polices loin d’être uniformisées et donc difficilement reconnaissables pour l’IA.

Le risque de falsification de l’histoire

Mais depuis peu, des chercheurs ont développé des programmes qui permettent à l’IA de reconnaître les écritures manuscrites, souligne The Conversation le 14 avril dernier, à propos d’une initiative visant à analyser les pages des manuscrits de la bibliothèque et des archives de Notre Dame de Paris. Et ils ont créé des réseaux qui imitent le cerveau humain pour repérer des modèles dans des ensembles de données vastes et complexes. Ces réseaux ont permis d’examiner des documents historiques dont certains étaient très abîmés. Ils ont même pu jouer un rôle dans le déchiffrage d’inscriptions ou la restauration d’archives endommagées. Yannis Assael, chercheur chez DeepMind, et Thea Sommerschield, postdoctorante à l’université Ca’ Foscari de Venise en Italie, ont ainsi mis au point un réseau neuronal profond appelé Ithaca. Ce dernier, qui s’est entraîné sur près de 78 000 inscriptions anciennes, est capable de reconstituer les parties manquantes et d’attribuer des dates et des lieux aux textes, selon un descriptif publié dans Nature en mars dernier. Autre initiative : la « Venise Time Machine » qui vise à reconstituer l’histoire de la ville à partir d’archives. L’objectif à terme serait de créer une version numérique de la Venise médiévale.

Mais pour l’instant, le projet est loin d’avoir atteint les résultats escomptés. Car parfois, les modèles ne vont pas ou vont mal comprendre ce qu’ils lisent ou analysent. Et ils vont alors tirer des conclusions absurdes, à l’image des « hallucinations » de ChatGPT. Ils peuvent aussi être utilisés à mauvais escient pour créer des deepfakes ou de fausses inscriptions anciennes, relatant des épisodes qui n’ont jamais existé. Vous avez peut-être visionné, sur YouTube, Richard Nixon prononcer un discours qui n’a jamais eu lieu. Le texte avait été écrit au cas où l’atterrissage sur la lune de 1969 se serait soldé par un désastre – ce qui n’a pas été le cas.

S'abonner à 01net

L’IA pourrait affecter notre sens commun de l’histoire, expliquaient les chercheurs à l’origine de cette deepfake. Et leur préconisation, qui date de 2020, n’en est que plus vraie aujourd’hui. Car depuis quelques mois, créer de fausses photographies d’épisodes historiques, ou des inscriptions anciennes plutôt convaincantes est à la portée de tous. Résultat, l’intelligence artificielle utilisée pour combler les périodes peu documentées ou les parties manquantes d’inscriptions pourrait se tromper, ou être utilisée pour nous tromper, rappelle le MIT. Les historiens soulignent que si ces systèmes d’IA peuvent être des outils utiles, ils doivent non seulement être utilisés en toute transparence, mais aussi avec prudence : car ces instruments sont à l’image de leurs créateurs : faillibles.

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.

Source : MIT Technology Review

histoire société

Stéphanie Bascou