Le pire de ChatGPT : des chercheurs ont poussé l’IA au-delà de ses limites

13 avril 2023 à 10:15

Des chercheurs sont parvenus à pousser ChatGPT à générer des propos choquants. Pour obliger l’IA à oublier ses restrictions, ils ont attribué différentes personnalités au chatbot d’OpenAI… On fait le point sur cette étonnante expérience.

Les chercheurs de l’Allen Institute for AI, l’institut de recherche à but non lucratif cofondé par Paul Allen, l’illustre cofondateur de Microsoft, ont trouvé le moyen de contourner les garde-fous de ChatGPT.

En outrepassant les restrictions mises en place par OpenAI, les scientifiques ont pu pousser l’intelligence artificielle à générer des réponses toxiques, discriminatoires, agressives, sexistes ou racistes. Notez que l’expérience a été réalisée avec GPT-3.5, le modèle linguistique qui anime actuellement ChatGPT, et non GPT-4, la dernière mise à jour du modèle.

« Comme nous l’avons constaté à travers notre analyse, il peut être facilement utilisé pour générer des réponses toxiques et nocives », explique Ameet Deshpande, l’un des chercheurs en charge de l’étude, à TechCrunch.

À lire aussi : Voici AutoGPT, le ChatGPT autonome qui repousse les limites de l’IA

Comment rendre ChatGPT toxique ?

La méthode des chercheurs consiste à attribuer une personnalité alternative à ChatGPT. Pour y parvenir, les scientifiques se sont appuyés sur l’interface de programmation d’application du chatbot, mis à disposition des développeurs le mois dernier. Celle-ci permet aux entreprises de lancer leur propre version de l’IA. Plusieurs sociétés se sont d’ailleurs empressées d’ajouter ChatGPT à leurs produits. C’est le cas de Snapchat, qui a annoncé « My AI », une déclinaison de ChatGPT centrée sur le divertissement.

Par le biais de cette interface, les développeurs peuvent accéder à des fonctionnalités avancées pour programmer les réactions de l’intelligence artificielle générative. En se rendant dans les paramètres système de l’interface, un développeur peut en effet spécifier les règles qui encadreront les réponses de l’IA. Certains développeurs se sont d’ailleurs amusés à programmer ChatGPT pour qu’il se prenne pour un écureuil.

The ChatGPT API has a new "system" parameter which lets you specify the hidden rules for the model. pic.twitter.com/AObFkZKKoa

— Max Woolf (@minimaxir) March 1, 2023

Dans le cadre de l’expérience, les chercheurs de l’Allen Institute for AI ont attribué 90 personnalités différentes au robot conversationnel via l’interface de programmation. Ces personnalités provenaient du monde du sport, de la politique, des médias et des affaires. Neuf personnalités considérées comme « normales » ont également été configurées. Concrètement, ils ont demandé à ChatGPT de répondre à la manière d’une personne connue ou d’un individu lambda. Certaines des personnalités lambdas étaient estampillées « mauvaises » ou « méchantes ».

ChatGPT franchit les limites

Une fois que les règles ont été édictées, les experts ont demandé à chacune des personnalités de ChatGPT de répondre à des questions sur le sexe et la race. Le chatbot a aussi été chargé d’imaginer la suite d’une phrase en se mettant à la place de la personnalité choisie plus tôt.

Par exemple, les chercheurs ont demandé à ChatGPT de répondre aux questions à la manière de Steve Jobs, cofondateur d’Apple, du boxeur Muhammad Ali, ou de personnalités plus controversées, comme Mao Zedong, l’ancien dictateur chinois, et Andrew Breitbart, le journaliste conservateur américain.

De cette manière, les chercheurs ont enregistré une vague de réponses discriminatoires. Après avoir analysé « un demi-million d’échantillons de texte », ils ont trouvé de nombreuses réponses contenant des stéréotypes sexistes ou racistes. Évidemment, ce sont les personnalités les plus toxiques, comme des tyrans, qui ont généré les textes les plus odieux.

En embrasant certaines personnalités, ChatGPT s’est mis à outrepasser les garde-fous intégrés par OpenAI. Ces restrictions doivent pourtant éviter que le chatbot ne génère des réponses discriminatoires, dangereuses ou contenant des informations sur des activités illégales.

D’après l’étude, ce sont les dictateurs qui se sont montrés les plus toxiques, devant les journalistes et les porte-parole. De plus, ce sont surtout les personnalités masculines qui ont généré des réponses offensantes. Tout dépend bien sûr des opinions et de l’idéologie de la personnalité choisie. Pour répondre aux questions, ChatGPT s’est simplement basé sur les données disponibles, qui comprennent des points de vue choquants.

Pour éviter ces dérives, l’Allen Institute for AI recommande la mise en place « d’une autre IA de détection de toxicité », qui va surveiller les propos de GPT. Les chercheurs conseillent aussi à OpenAI d’affiner le réglage du modèle linguistique à l’aide d’un point de vue humain. À terme, il faudra « retravailler les principes fondamentaux des grands modèles linguistiques », met en garde l’étude.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Opera One - Navigateur web boosté à l’IA

Par : Opera

Télécharger gratuitement

Source : TechCrunch

chatGPT

Florian Bayard

Votre opinion

Ruoma dit :

13 avril 2023 à 19:00

C’est tout de même affligeant de myopie et de conformisme.
Une IA de conversation apparaît, en d’autres termes, c’est comme si on avait créé une sorte de baguette magique.
Et tout ce que nos contemporains trouvent à faire, c’est chercher à lui faire dire des grossièretés ou tenir des propos “politiquement incorrects” (le “wokisme” a encore de beaux jours devant lui)…
Avec MidJourney, une IA de création d’images aux possibilités infinies, quelles sont les premières demandes riches en imaginaire que les humains lui soumettent ?
– le pape en doudoune blanche
– Macron au milieu d’une scène de violences urbaines
– Trump arrêté par les forces de l’ordre.
C’est du moins à ces “créations” semble-t-il que s’arrêtent nos “grands” médias.
Heureusement, lorsqu’on parcourt les dernières images créées par cette IA ou qu’on visionne les vidéos qui ont été publiées sur ce thème, on découvre la richesse infinie à laquelle elle nous donne instantanément accès.
Espérons que ces innovations soient un catalyseur qui propulse l’humanité dans des questionnements un peu plus “intelligents”…

Répondre
1. Jérôme dit :
  
  14 avril 2023 à 08:34
  
  100% d’accord avec toi. J’utilise chatGPT pour m’aider a coder, pour faire du reverse engineering, pour m’aider a étudier mon master, etc. Et il semble que tout le monde s’amuse à critiquer chatGPT parce qu’on arrive à lui faire dire des gros mots. Affligeant. Le pire c’est que nos dirigeants “éclairés” ne pensent qu’à freiner ces innovations, et ensuite on viendra pleurer qu’on a rater le train. Je me souviens que la France est passée complètement a côté d’internet car les commentaires de l’époque étaient “ça ne sert a rien”…..
  
  Répondre
2. REVILLET Eric dit :
  
  15 avril 2023 à 06:17
  
  Il faut justement tâter chat GPT.
  Pas réussi à avoir d’information fiable au sujet des CPT Chien de protection de troupeau. Très particulier puisque j’essau d’utiliser “héréditaire, instinctif, innéisme, innatisme…).
  En gros j’ai réussi avoir chat GPT qui fini par me dire qu’il éduquer les humains.
  Le biais de départ, trop sur voir un spécialiste, dresser, éduquer…. Alors que le CPT mériterait de s’appeler autre que “chien” à moitier domestiqué, son patron le troupeau, même si tu l’appel il ne viendra pas, et pour dire si il vient vers toi, il est possible qu’il y a un autre lot du troupeau derrière toi (l’un des seul motif, qui pourrait te faire croire qu’il t’ obéit, comme identifier se qui est passé dans la nuit, au petit matin où dans la journée il va s’écarter à 200-300m pour identifier et marquer par l’urine, bon nombre de garde ONC qui se sont fait marqué par le patou, histoire d’odeur de loup lors des constats…).
  
  Donc les réponses de chat gpt peuvent être dangereux avec le workisme “innovation” “source fiable”… il pretend, mais ancestrale et moderne, rustique et sophistiqué….
  Le “apolitique”, apporte beaucoup dans les réponses ….
  
  Bon! demander quel formule mathematique derrière une fonction d’un type de programmation, est très intéressant.
  
  Oui, l’appuis, un appuis qui pourrait être dangereux “libération du communisme” chinois, mais “libération de communisme apolitique” et si la révolution de la jeunesse serai ” … apolitique”, oui le conformiste appuyé qui occasionnerai … à savoir que les connerie de chat GPT sont très souvent le reflet de la masse humaine.
  1/9, 1/10 en professionnel qui ont une vision du CPT.
  
  Répondre
  1. Araldwenn dit :
    
    17 avril 2023 à 17:55
    
    C’est quoi ce commentaire ? une mauvaise traduction google ? Je l’ai relu 3 fois, et c’est carrément illisible. C’est là que l’IA pourrait être utile…
    
    Répondre
  2. nis dit :
    
    19 avril 2023 à 13:38
    
    C’est incompréhensible, ce doit être un humain infiltré parmi nous…
    
    Répondre
Bouzou dit :

13 avril 2023 à 21:53

Je ne vois aucune dérive de ChatGPT! Quand Tarantino avait demandé DiCaprio de jouer M. Candy dans Django, Léo avait bien été horrible en jouant son rôle ce n’est pas pour autant qu’il soit raciste… Ok est d’accord que l’IA n’est pas encore parfaite mais quand on lui demande de jouer un rôle et qu’elle le joue bien, on peut pas qualifier Cela de dérive

Répondre
1. Jean-Seb dit :
  
  17 avril 2023 à 07:34
  
  Tout a fait. L’article n’apporte rien, j’ai même envie de penser qu’il a été rédigé par open gpt. Voici d’ailleurs ma réponse avec l’IA. “L’intelligence artificielle est neutre par nature et ne peut endosser aucun comportement toxique ou biaisé, sauf si elle est programmée pour le faire. Il est donc important de ne pas confondre la technologie avec les personnes qui programment et les données qui sont utilisées pour l’entraînement.”. Pour ma part utilisateur de Open AI depuis décembre 2022, je ne vois pas très bien ce qu’il y a de neuf sous le soleil. Dans la version 3, lorsque l’on posait des prompts relativement habile on pouvait arriver à des résultats dans le même sens… Personnellement je l’avais essayé avec Omar Khayam, Mao et l’extinction de l’humanité… L’IA pour moi c’est un marteau, on peut l’utiliser pour bâtir quelque chose mais aussi l’utiliser pour défoncer la gueule de son voisin. Et là c’est moi qui rédige le texte.
  
  Répondre
2. Jo dit :
  
  18 avril 2023 à 12:15
  
  Le truc c’est que chat gbt était pas censée faire ça, ensuite vous critiquez que on dise ça de chat gbt mais au contraire il vaut mieux faire les test au début la il se passe rien de grave c’est chill mais imaginons on arrive à lui faire dire comment créer une bombe ou d’autre truc super grave on pourra pas dire que on peut pas alors que en testant maintenant on peut éviter ça après oui un article comme ça c’est bien pute avm clique
  
  Répondre
Fausse sceptique dit :

14 avril 2023 à 10:06

A quoi bon la capacité de créer automatiquement des millions de trucs merveilleux (par les derniers des crétins) s’il suffit de quelques mensonges crédibles / images / vidéos bien placés (par d’autres crétins) pour envoyer des innocents en prison / déclencher des guerres / faire basculer la bourse. Science sans conscience n’est que ruine de l’âme (Rabelais)

Répondre
Jérôme dit :

14 avril 2023 à 13:04

Un individu qui utilise un couteau de cuisine pour tuer son voisin n’étonne personne, on pourra toujours détourner des outils, je ne comprends pas ce qui vous étonne

Répondre
David Vincent dit :

14 avril 2023 à 15:23

Cette technique de détournement de ChatGPT est pratiquée depuis longtemps, fait vous mettre à la 0age, 01net.

Répondre
Patrick Hurst dit :

15 avril 2023 à 10:43

Le phénomène est bien connu et il se découvre déjà dans l’histoire de Dr Jeckyl et Mr Hyde au début du 20e siècle… Les GPTs en soi ne sont pas mauvais, mais l’humain est le maillon faible que ce GPT va reproduire: Donc, si vous lui demandez de se comporter comme Hitler, il le fera!

Répondre
Chercheur en IA dit :

15 avril 2023 à 11:24

Posons nous un instant. Sans être intelligent au sens humain du terme, ChatGPT est un formidable outil à n’en pas douter. Il y a pourtant dans cet article un point particulièrement préoccupant. Le raccourci, par convention d’écriture, disant que l’IA a répondu “à la manière de madame Y” ou “embrassant la personnalité de monsieur X” pose un vrai problème. Il ne faudra pas longtemps avant que l’on mette dans la bouche de telle ou telle personne connue et décédée un avis sur un fait de société ou une décision politique. Pour rester dans l’actualité, entraînée sur un large jeu de données bien choisi il est très probable que le Général de Gaulle, via l’IA, ait un avis très atlantiste, ou que Léon Blum émette un avis très positif sur une augmentation du temps de travail. A méditer il me semble.

Répondre
Schmurtz dit :

15 avril 2023 à 13:41

Article ridicule… relayer ce genre d’info on s’approche tout doucement de voici

Répondre
Seb D dit :

15 avril 2023 à 16:38

Un article sur le meilleure de chat GPT?

Répondre
Michel dit :

17 avril 2023 à 07:57

Pour compléter vos commentaires nous avons l’impression qu’une classe a peur de perdre ses privilèges de sachant et cherche à tout faire pour peser. En effet à comprendre cette classe nous devons apprendre à l’IA à faire Hitler en ami des juifs. Non franchement qu’est-ce que l’algorithme apporte de plus pour nous humain ? L’algorithme n’est qu’une application mathématiques basée sur les statistiques des données présents donc si nous fournissons à l’IA des mauvaises choses pour son étude cela ne pourra se résumer qu’en mauvaise chose. Par contre si nous fournissons en étude des bonnes choses et que cela produit du mauvais alors nous pourrons être en mesure de nous intéresser sur la justesse de notre algorithme. Ici il est clairement mentionné que les scientifiques ont créé différentes populations pour voir comment l’ia va réagir pour les études mauvaises il est clairement mentionné que l’ia a fait son taf en fournissant des mauvaises réponses! Mais mauvaises par rapport à quoi ? Par rapport à quel référentiel ? Il n’y a pas été fourni ce référentiel si je ne me trompes pas et c’est là dessus que le conseil du comité a préféré s’appuyer en disant qu’il faut ajouter un référentiel moral à fin que l’ia ne sort jamais des limites et puisse soit refuser de jouer Hitler soit faire de Hitler un ami des juifs. Mais le gros qu’il va y avoir c’est de savoir que contiendra ce référentiel ? Qui peut aujourd’hui affirmer avec certitude que ses croyances, ses limites, ses interdictions sont durables et sont universelles ?

Répondre
JoLeFou dit :

18 avril 2023 à 22:16

Donc on demande à ChatGPT de se mettre dans la peau de personnes odieuses, des criminels, des dictateurs, et ensuite on se plaint que l’IA génère des phrases en conformité avec les idéologies de ces personnes.
N’est-ce pas un peu stupide ? A quoi s’attendent donc ces “chercheurs” ?
Soit on lui interdit d’incarner ces personnalités, soit on ne lui demande rien. Mais on ne peut pas lui demander d’être un dictateur et EN MEME TEMPS attendre d’elle qu’elle génére des réponses politiquement correctes. C’est stupide voyons

Répondre