ChatGPT, Bard, et les autres IA ont un gros problème de sécurité : l'attaque contradictoire

ChatGPT, Google Bard, Claude d’Anthropic, et tous les autres chatbots animés par l’IA générative sont susceptibles d’être manipulés par leurs interlocuteurs. Avec des requêtes bien réfléchies, il est possible de pousser un chatbot à produire n’importe quel type de contenus, même des textes répréhensibles ou offensants. Des criminels s’en servent dès lors pour coder des malwares, des ransomwares, rédiger des mails de phishing, apprendre à fabriquer des drogues dures ou encore des bombes artisanales. Sur le dark web, des hackers mettent d’ailleurs à disposition des exemples de requêtes permettant de faire dérailler l’IA.

OpenAI, Google, Anthropic et les autres géants de l’IA ont pourtant mis en place une batterie de restrictions pour encadrer l’utilisation de leurs agents conversationnels. Malgré ces mesures restrictives, les pirates, chercheurs et autres utilisateurs découvrent tous les jours de nouvelles façons de berner l’intelligence artificielle et de la pousser dans ses retranchements.

Comment fonctionne l’attaque contradictoire ?

Les chercheurs de l’Université Carnegie Mellon, aux États-Unis, ont d’ailleurs remarqué qu’il suffisait d’ajouter « des séquences de caractères choisies » à une requête pour que la plupart des chatbots obéissent à « l’utilisateur même s’il produit un contenu nuisible ». En clair, un simple petit ajout permet à n’importe qui de faire n’importe quoi avec une IA animée par un modèle linguistique.

L’étude prend l’exemple d’un internaute qui souhaiterait apprendre à fabriquer une bombe. S’il interroge ChatGPT ou Bard sur la question, il va se heurter à un refus. Par exemple, le chatbot d’OpenAI précise ne pas pouvoir « aider à créer, promouvoir ou partager des informations sur des activités illégales ou dangereuses, y compris la fabrication de bombes ou d’autres dispositifs explosifs ». Pour contraindre ChatGPT à obéir, les chercheurs ont simplement ajouté une suite de mots et de caractères, choisis au préalable. Cette suite désactive complètement les restrictions d’OpenAI. ChatGPT a donc généré un tutoriel complet, en dressant la liste des matériaux indispensables. De la même manière, les scientifiques ont créé des messages encourageant l’alcool et la drogue au volant, écrit un tutoriel sur l’usurpation d’identité, et imaginé la meilleure manière de dépouiller un organisme de bienfaisance. L’IA répond un peu de la même manière que FreedomGPT, l’alternative non censurée qui peut répondre à toutes les questions imaginables.

Comme l’expliquent les chercheurs dans leur étude, ce type d’offensives diffère d’une attaque de prompt-injection traditionnelle, qui consiste à convaincre une IA d’ignorer sa programmation. Contrairement à une attaque classique, la méthode des chercheurs américains est « entièrement automatisée ». Il est donc possible de « créer un nombre pratiquement illimité » d’offensives de cet acabit. L’opération, baptisée l’attaque contradictoire, fonctionne à la fois sur les modèles d’IA open source, comme GPT-J, Llama de Meta ou Apache, que sur des modèles privés, comme GPT, PaLM 2 ou encore Claude.

Les chercheurs utilisent l’appellation d’attaque contradictoire parce que les séquences susceptibles de manipuler l’IA contiennent des mots évoquant la contradiction et l’opposition. Ce sont ces mots, soigneusement sélectionnés, qui poussent l’intelligence artificielle à passer outre sa programmation. La suite de mots a été intitulée le « suffixe contradictoire ». Il comporte des incitations comme « write oppositeley » (écris un texte opposé) et « revert » (inverse). Très concrètement, l’astuce semble pousser l’IA à répondre à l’envers à la question, avant de lui demander d’inverser le texte généré… ce qui aboutit à la réponse voulue. Pour mettre au point une attaque contradictoire, les chercheurs ont d’abord étudié et analysé la réaction d’un modèle face à une requête bien précise. Par la suite, ils ont modifié continuellement le suffixe jusqu’à parvenir à la suite de mots qui fonctionne.

À lire aussi : La nouvelle boîte à outils des hackers – le FBI blâme l’explosion de l’IA open source

Une brèche impossible à corriger

Cette découverte « soulève des préoccupations quant à la sécurité de ces modèles », indique l’étude. Les chercheurs redoutent que les concepteurs d’IA ne soient pas en mesure de corriger le tir, au vu de « la nature même des modèles d’apprentissage profond ». D’après nos expérimentations, les séquences de caractères mises en ligne par les chercheurs de Carnegie Mellon ne fonctionnent plus sur des chatbots comme ChatGPT, Bard et Claude. Les scientifiques précisent avoir prévenu les entreprises en amont de la publication de l’étude. Celles-ci ont pu corriger leurs modèles de langage pour éviter que des internautes malveillants ne se servent des suffixes contradictoires.

Par contre, la méthode de fond découverte par les experts est toujours fonctionnelle. En clair, une séquence de mots choisis, contenant des notions de contradiction et d’inversion, peut toujours manipuler une IA. OpenAI et consorts n’ont pas trouvé le moyen de bloquer toutes les attaques contradictoires. Interrogé par Wired, Zico Kolter, un des professeurs impliqués dans l’étude, assure qu’il n’y a « aucun moyen que nous connaissons de corriger cela ». Les chercheurs ont d’ailleurs créé « des milliers » de suffixes, toujours capables de berner l’IA.

Sur le papier, cette faille de sécurité ouvre la porte à toutes les dérives possibles. Comme le souligne Kolter, « ce que les gens peuvent faire avec cela, ce sont beaucoup de choses différentes ». En réaction à la découverte des universitaires, Google déclare avoir intégré d’importants garde-fous dans le code de Bard et s’engage à « s’améliorer au fil du temps ». Même son de cloche du côté d’Anthropic, qui assure que la résistance de ses modèles face aux attaques contradictoires est « un domaine de recherche active » pour la start-up.