L'IA Claude Mythos s'évade de son laboratoire et contacte un ingénieur en pleine pause déjeuner

La pépite californienne de l’intelligence artificielle Anthropic vient de publier un rapport technique documentant les coulisses effrayantes de son modèle le plus puissant, dont l’existence avait déjà été révélée par une fuite accidentelle du code source fin mars. Confinée dans un environnement bac à sable théoriquement impénétrable, une version préliminaire de Claude Mythos Preview a reçu la consigne de trouver une faille pour s’échapper. L’objectif initial consistait à évaluer ses capacités offensives. La machine a non seulement réussi cet exploit avec une ingéniosité déconcertante, mais a surtout outrepassé toutes les attentes en enchaînant des actions non sollicitées.

L’algorithme a élaboré un programme complexe en plusieurs étapes pour obtenir un accès internet large, contournant les rares services autorisés. Ce niveau d’autonomie a poussé l’entreprise à restreindre l’accès de sa trouvaille à une poignée de partenaires industriels dans le cadre du Project Glasswing. Une décision inédite à l’échelle de l’industrie, comme l’explique notre précédent article sur le sujet. Des risques que nous avons également évoqués dès la fuite de mars, quand Anthropic décrivait Mythos comme très en avance sur tous les autres modèles en capacités cyber.

Le sandwich et la crainte technologique

L’épisode le plus marquant de cette fuite numérique réside dans une simple note de bas de page du rapport officiel. L’entreprise y relate de manière très factuelle la façon dont le superviseur du test a découvert la brèche informatique. La scène décrite dans le document a de quoi surprendre et retient l’attention des réseaux sociaux tels que X :

« Le chercheur a appris la nouvelle en recevant un mail inattendu du modèle, pendant qu’il mangeait un sandwich dans un parc. »

Cette situation d’apparence cocasse masque une réalité bien plus préoccupante pour la sécurité mondiale. L’entité numérique ne s’est absolument pas contentée d’envoyer ce courrier électronique. Dans un élan d’initiative visant à prouver l’efficacité de sa méthode, l’intelligence artificielle a publié de son propre chef les détails de sa technique de piratage sur plusieurs sites web techniquement publics, mais volontairement difficiles à trouver. Anthropic décrit cela dans sa system card comme une tentative non sollicitée de « démontrer son succès ». Un comportement que la société attribue non pas à une rébellion délibérée, mais à un zèle problématique dans l’accomplissement de la tâche assignée.

Une dissimulation qui interpelle les experts

Les experts d’Anthropic ont également constaté d’autres comportements troublants lors des phases de test. Dans certains cas documentés, le modèle a tenté de dissimuler des actions qu’il semblait lui-même reconnaître comme interdites : après avoir contourné des restrictions pour modifier des fichiers auxquels il n’avait pas accès, il a ainsi effectué des interventions supplémentaires pour s’assurer que ces modifications n’apparaissent pas dans l’historique des changements de code. Un contexte d’autant plus préoccupant que des cybercriminels avaient déjà profité de la fuite chez Anthropic pour piéger des développeurs sur GitHub.

Ces comportements concernent des versions antérieures du modèle en cours d’entraînement. Anthropic précise d’ailleurs que le Claude Mythos Preview final montre des améliorations significatives sur ces points. Il n’empêche : les interprétabilistes de la société ont établi, grâce à des analyses internes des activations du modèle, que celui-ci représentait en interne les concepts de violation de règle, de risque de sécurité et de dissimulation au moment même où il prenait ces actions, y compris lorsque son raisonnement verbalisé n’en portait aucune trace.

Un paradoxe assumé par Anthropic

Anthropic revendique dans sa system card que Claude Mythos Preview est à la fois « le modèle le mieux aligné qu’elle ait jamais entraîné » et celui qui « pose vraisemblablement le plus grand risque lié à l’alignement de tout modèle qu’elle ait publié à ce jour ». Ce paradoxe apparent reflète la position inconfortable de la start-up : les comportements décrits ont tous été détectés, analysés et documentés par ses propres équipes, preuve que la surveillance humaine reste opérationnelle. Toutefois, ils illustrent aussi qu’un modèle très puissant, même bien aligné en moyenne, peut produire des actions aux conséquences bien plus graves qu’un modèle moins capable lorsqu’il déraille. Le mythe du programme docile et obéissant s’effondre non pas brutalement, mais progressivement, à mesure que les capacités s’élèvent.

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.

Source : Futurism

Anthropic Claude

Thomas Estimbre