« Arrêtez de voler nos livres, et payez-nous » : aux États-Unis, la bronca des écrivains face aux industriels de l'IA

Ce sont deux initiatives qui ont eu lieu à quelques heures d’intervalle aux États-Unis et en Europe, et qui ont le même objectif : exiger d’OpenAI, de Google, de Meta et de tous les autres développeurs d’intelligence artificielle générative qu’ils respectent le droit d’auteur lorsqu’ils entraînent leurs outils d’IA. Outre Atlantique, plus de 9 000 auteurs ont signé une lettre publiée sur le site de l’Author’s Guild le 18 juillet dernier, une organisation professionnelle d’écrivains. Leur demande est simple : l’IA doit cesser de s’entraîner sur leurs œuvres sans la moindre autorisation et sans la moindre compensation financière. « Ces technologies imitent et régurgitent notre langage, nos histoires, notre style et nos idées. Des millions de livres, d’articles, d’essais et de poèmes protégés par des droits d’auteur constituent la “nourriture” des systèmes d’IA, des repas sans fin pour lesquels il n’y a pas de facture », écrivent-ils.

24 heures plus tard, ce sont des représentants, en Europe, d’organisations d’auteurs, des industries du livre, de l’image, des médias ou encore de la musique, qui ont appelé, le 19 juillet, à ce que le secteur de l’IA respecte le droit d’auteur. Car « les progrès de l’innovation en matière d’IA et la protection efficace du droit d’auteur ne s’excluent pas mutuellement », plaident-ils. Ils sont aussi venus défendre l’idée d’imposer des obligations de transparence en matière d’entraînement des systèmes d’IA. Le Parlement européen souhaite ajouter des dispositions en ce sens au sein du Règlement sur l’IA. Cette future loi, actuellement en cours d’adoption au sein de l’Union européenne, serait l’un des premiers textes à réglementer le secteur.

À lire aussi : Cinéma : comment le monde du doublage tente d’endiguer son « pillage » par l’IA

ChatGPT capable de copier le style de grands écrivains

D’un côté comme de l’autre de l’Atlantique, les créateurs regrettent que les IA se soient servies allègrement dans leurs œuvres pour nourrir leur modèle de langage. ChatGPT, Bard, LLaMa seraient ainsi capables d’écrire des textes dans le style des auteurs comme Magaret Atwood ou Carmen Machado, y compris des livres entiers. Comment cela est-il possible ? Les fabricants comme OpenAI, Microsoft, Meta ou Google n’ont que peu communiqué sur la façon dont ils sélectionnent les données destinées à entraîner leur IA. OpenAI a par exemple déclaré dans un communiqué que ChatGPT était formé à partir de « contenus sous licence, de contenus accessibles au public et de contenus créés par des formateurs et des utilisateurs d’IA », ajoutant que l’entreprise respectait les droits des créateurs et des auteurs. Mais aucune liste de ces données n’existe aujourd’hui. Et on sait que tous les développeurs d’IA ont utilisé massivement les données provenant du Web.

Or, certaines de ces données sont protégées par le droit d’auteur, ou le copyright. Concrètement, et c’est tout l’objet de la lettre des 9 000 auteurs, les développeurs d’IA ne sont pas allés quémander une licence d’utilisation aux éditeurs – ce qui aurait normalement dû être le cas, s’ils avaient voulu faire les choses en bonne et due forme. Résultat, il n’existe que deux possibilités : soit les IA se sont formées à partir d’extraits d’œuvres, parfois disponibles sur les sites Web ou dans les librairies et bibliothèques. Soit les modèles de langage ont téléchargé des bases de données illégales, dans lesquelles se trouvent de nombreux textes.

« Qui volerait sciemment des millions d’œuvres pour alimenter un nouveau produit commercial ? »

C’est d’ailleurs sur ce fondement que des auteurs et l’actrice Sarah Silverman ont attaqué devant des juridictions américaines Meta et OpenAI, début juillet. Pour ces derniers, ChatGPT et LLaMa ont été formés en partie sur le contenu d’un site pirate qui contient illégalement les œuvres protégées par le droit d’auteur. Les entreprises de l’IA, qui « dépensent des milliards de dollars pour développer la technologie de l’IA », doivent donc « nous indemniser pour l’utilisation de nos écrits, sans lesquels l’IA serait banale et extrêmement limitée », estiment les signataires de la lettre. Et « qui volerait sciemment des millions d’œuvres pour alimenter un nouveau produit commercial ? », s’interrogent-ils, n’hésitant pas à qualifier OpenAI et Meta « d’acteurs malveillants ».

À lire aussi : Comment une affaire jugeant le droit d’auteur d’Andy Warhol pourrait bouleverser l’IA générative

Car les conséquences de ce qui est décrit comme un vol sont désastreuses pour une profession qui peinait déjà à vivre de son art avant la déferlante de l’IA, à l’exception de quelques stars. « La situation est intenable, en particulier pour les jeunes écrivains et les voix des communautés sous-représentées », regrettent les auteurs de la lettre. « En intégrant nos écrits dans vos systèmes, l’IA générative menace de nuire à notre profession en inondant le marché de livres, d’histoires (…) médiocres, écrits par des machines et basés sur nos travaux », poursuivent-ils. Pour preuve : « Récemment, un certain nombre d’ouvrages générés par l’IA et de qualité très médiocre ont grimpé dans les listes de best-sellers (…) sur Amazon ; les éditeurs sont inondés d’ouvrages générés ».

Une tribune sans suite judiciaire… pour l’instant

Dans la lettre, les écrivains formulent plusieurs demandes. Ils exigent des développeurs d’IA qu’ils obtiennent auprès de chaque ayant droit, et à partir de maintenant, l’autorisation d’utiliser des œuvres comme données d’entraînements. Pour les œuvres qui ont déjà été ingurgitées par l’IA, les auteurs demandent à recevoir une compensation financière, non seulement pour la partie entraînement, mais aussi pour tout ce qui est généré par l’IA dans le style de l’écrivain en question. Pour l’instant, il ne s’agit que d’une lettre ouverte, sans action judiciaire, a expliqué à nos confrères de NPR Mary Rasenberger, PDG de The Author’s Guild, évoquant le coût titanesque et le temps abyssal que prendraient de telles procédures.

Reste à savoir si cette tribune aura le moindre effet sur les entreprises du secteur. « Qui sera prêt à dire, oui, nous avons construit notre IA sur des œuvres volées, nous sommes désolés et nous allons payer pour cela », s’interrogent nos confrères de TechCrunch, qui ne semblent guère y croire. Pour l’instant, l’utilisation d’œuvres protégées par le droit d’auteur ou le copyright reste dans une zone grise. Aux États-Unis comme en Europe, les tribunaux n’ont pas encore tranché directement ce sujet, mais ils devraient bientôt le faire, des actions étant en cours.

Toute la question est de savoir si les géants de l’IA ont le droit d’utiliser ces données provenant du Web, y compris celles protégées par le droit d’auteur ou le copyright, pour entraîner leur IA. Aux États-Unis, il n’existe pas « d’exception dite du data mining √, comme au sein de l’Union européenne, qui autorise une telle utilisation si l’auteur ne s’y est pas opposé. Mais les entreprises comptent sur ce qu’on appelle le « fair use », l’utilisation équitable, une exception au monopole du copyright, pour justifier l’inclusion d’œuvres protégées dans les data d’entraînements de l’IA. En attendant que la justice tranche, les législateurs pourraient profiter de la réglementation de l’IA sur laquelle ils planchent pour régler définitivement le sujet.