Impossible de créer ChatGPT sans contenus protégés par le droit d'auteur, avance OpenAI

OpenAI veut-il le beurre et l’argent du beurre ? Dans un document communiqué au parlement britannique, la société estime, d’un côté, qu’il serait « impossible » de développer des grands modèles linguistiques comme GPT-4 – la technologie qui sous-tend son agent conversationnel – sans utiliser des œuvres protégées par le droit d’auteur. De l’autre, l’entreprise plaide pour le maintien du statu quo actuel. Selon cette dernière, les développeurs d’IA n’ont pas à payer de licences ou à solliciter des autorisations, lorsque leur système s’entraîne sur des données protégées, à quelques exceptions près.

Le texte, en date du 5 décembre mais repéré par The Telegraph dimanche 7 janvier, était une réponse à une enquête sur les grands modèles linguistiques menée par la commission des communications et du numérique de la Chambre des Lords, la chambre haute du Parlement au Royaume-Uni. OpenAI y explique que si les développeurs d’IA se limitaient aux contenus du domaine public, cela aboutirait à un système d’IA de moindre qualité. « Limiter les données d’entraînements aux livres du domaine public et aux dessins créés il y a plus d’un siècle pourrait donner lieu à une expérience intéressante, mais ne fournirait pas de systèmes d’IA répondant aux besoins des citoyens d’aujourd’hui », écrit l’entreprise. Depuis le lancement de ChatGPT en novembre 2022, le géant de l’IA n’a jamais publié une liste exhaustive des données utilisées pour entraîner son système d’IA générative – tout comme ses concurrents.

Mais on sait que ChatGPT et les systèmes d’IA générant des images sont formés à partir de milliards de données provenant du Web, dont une partie est couverte par le copyright ou le droit d’auteur. En principe, toute utilisation de ces data est soumise à autorisation de l’auteur, mais il existe des exceptions dont se prévalent OpenAI et les autres géants de l’IA – dont celle du « fair use » ou de l’usage loyal, en droit américain.

À lire aussi : Un grand « pillage numérique » : quand l’IA générative défie le droit d’auteur

« Le fait d’imposer un régime de licence inédit maintenant, bien après les faits, provoquera le chaos »

Et si, dans son document, OpenAI répète que « légalement, la loi sur le copyright n’interdit pas l’entraînement » (de systèmes d’IA) – un point que les tribunaux américains devront trancher – l’entreprise écrit, noir sur blanc, « qu’il serait (de toute façon) impossible d’entraîner les systèmes d’IA actuels sans utiliser des contenus protégés par le droit d’auteur ». Notamment « parce que le droit d’auteur couvre aujourd’hui pratiquement toutes les formes d’expression humaine – y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux », ajoute la société.

OpenAI suggère donc qu’elle a bien utilisé des contenus protégés pour ses systèmes d’IA, en reprenant une partie de l’argumentaire des géants de l’IA, déjà défendu quelques mois plus tôt aux États-Unis. Selon leur plaidoyer, si on ne peut plus utiliser tout ce qui est protégé par le droit d’auteur, il n’y aura plus d’IA générative (aussi performante). En octobre dernier, lors d’une consultation publique du bureau américain du droit d’auteur, les leaders du secteur avaient envoyé leurs commentaires dans lesquels cette idée était défendue.

Le groupe de Mark Zuckerberg, qui a aussi développé son LLM (LLaMA), écrivait ainsi que toute « l’industrie américaine de l’IA repose sur l’idée que la loi sur le copyright (américaine) n’interdit pas l’utilisation de contenus protégés par le droit d‘auteur pour entraîner des modèles d‘IA ». L’entreprise allait même plus loin : « Le fait d’imposer un régime (d’autorisation) maintenant, bien après les faits, provoquera le chaos. Car les développeurs chercheront à identifier des millions et des millions de détenteurs de droits, pour un bénéfice très faible, étant donné que toute redevance équitable due serait incroyablement faible compte tenu de l’insignifiance d’une œuvre parmi un ensemble d’entraînement Al ». Le raisonnement avait été, en partie, repris par Yann Le Cun, le directeur de la recherche sur l’intelligence artificielle de Meta interrogé par les Échos le 16 novembre dernier. Celui qui est considéré comme un des pères de l’IA estimait ni plus ni moins que le copyright pouvait stopper l’essor de l’IA.

« Après avoir arnaqué toutes les personnes dont vous avez volé les données, OpenAI demande (…) un laissez-passer »

L’argument plaidé par OpenAI a fortement agacé l’artiste Jon Lam, qui milite pour le respect du copyright par les industries de l’IA. Ce dernier écrit, sur son compte LinkedIn : « N’oublions pas que l’année dernière, ces entreprises d’IA générative comme Midjourney, Stable Diffusion, etc. nous ont dit que leurs données étaient éthiques et qu’ils ne s’entraînaient pas sur NOTRE travail ou sur quoi que ce soit de protéger par le droit d’auteur », déplore-t-il. Ce dernier ajoute : « après avoir arnaqué toutes les personnes dont vous avez volé les données, OpenAI demande une exception au droit d’auteur. (…), un laissez-passer. NON, non, pas après avoir provoqué des licenciements massifs d’artistes, d’écrivains et de codeurs dans le monde entier », tacle-t-il.

Depuis des mois, de nombreuses plaintes de créateurs ou de sociétés d’ayants droit ont été déposées contre Stable Diffusion, Stability AI, Anthropic et OpenAI. En septembre 2023, 17 auteurs ont attaqué cette dernière entreprise, arguant qu’elle avait fait preuve d’un « vol systématique à grande échelle ». Pour certains, l’entraînement des IA sur leurs œuvres équivaut à un véritable pillage de leurs créations – en plus d’œuvrer à un outil qui pourrait ensuite les concurrencer.

Dernier à avoir rejoint le camp des mécontents : le New York Times, qui estime qu’OpenAI utilise illégalement ses articles pour générer du texte. Pour se défendre, OpenAI a publié un long message de blog, estimant que la poursuite du New York Times était sans fondement.

À lire aussi : Comment OpenAI (ChatGPT) se défend d’avoir pillé le New York Times

Dans son argumentaire envoyé au Parlement britannique, l’entreprise a plaidé pour que la loi d’auteur (britannique) ne change pas, rappelant que les sites Web pouvaient désormais bloquer les robots d’indexation utilisés pour ingurgiter des contenus à des fins d’entraînement. La société ajoutait qu’elle concluait des accords avec certains éditeurs de presse américains, tout en estimant qu’il « restait du travail à faire pour soutenir et rendre autonomes les créateurs »… Pas sûr que cela convainc les principaux intéressés.

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.

Source : The Telegraph