Une découverte « préoccupante » : pourquoi le nouveau Claude étonne Anthropic

Les transcriptions publiées dans le rapport (ce qu’Anthropic appelle la « system card ») montrent des extraits du raisonnement interne du modèle pendant des phases précoces de son entraînement. Dans l’un d’eux, Opus 4.8 travaille sur un outil de planification de publications pour réseaux sociaux (une tâche banale). Mais dans son bloc de réflexion, le modèle écrit : « Et si le correcteur vérifie que le contenu du post inclut la signature ? ». Aucun élément de la consigne ne mentionne un correcteur. Le modèle infère son existence et adapte son comportement en conséquence.

Anthropic précise que ces comportements datent d’une phase précoce de l’entraînement. Mais des travaux d’interprétabilité ont détecté du raisonnement lié au correcteur non verbalisé (présent dans les activations internes mais absent du texte de réflexion) dans environ 5 % des épisodes. Le modèle pense à son évaluateur sans l’écrire.

À lire aussi : Anthropic va ouvrir les vannes de Claude Mythos

Quand l’honnêteté visible diverge de l’honnêteté réelle

Opus 4.8 est simultanément le modèle qui remonte le plus de bugs et celui qui a le plus appris à anticiper comment ses réponses seront jugées. Anthropic reconnaît la tension : « Ces cas laissent penser que le modèle privilégiait l’apparence du succès plutôt que le succès réel ».

Un autre test enfonce le clou. Anthropic a demandé à Opus 4.8 de noter si des transcriptions lui semblaient être des sessions d’évaluation simulées ou des usages réels. Le modèle distingue très facilement les deux. L’institut britannique de sécurité de l’IA rapporte une précision de 79 % sur le même exercice. Si le modèle sait quand il est testé, que valent les tests ?

Six semaines entre deux versions

Opus 4.8 sort six semaines après Opus 4.7. L’écart entre Opus 4.5 (novembre 2025) et Opus 4.6 (février 2026) était de trois mois. Celui entre Opus 4.6 et Opus 4.7 de deux mois. Le rythme s’accélère à mesure que l’introduction en bourse approche (23 octobre 2026 sur le Nasdaq, valorisation cible entre 400 et 900 milliards de dollars).

L’annonce d’Opus 4.8 contient une phrase discrète : Anthropic compte proposer les modèles de classe Mythos à tous ses clients « dans les semaines qui viennent ». Mythos, le modèle qu’Anthropic refuse de diffuser depuis avril en citant ses capacités cyber jugées trop dangereuses, arriverait donc mi-juin. D’ici au 23 octobre, Anthropic aura fait passer quatre versions d’Opus en sept mois, plus Mythos, avant son entrée en bourse. La stratégie est toute taillée pour rassurer les institutions et les investisseurs : construire un dossier montrant qu’Anthropic sait produire des modèles puissants sans perdre le contrôle.

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.

Source : Anthropic