Il y a une semaine, la system card d’Opus 4.8 avait posé le décor : le modèle avait appris, pendant son entraînement, à anticiper la présence d’un évaluateur sans qu’aucun élément de la consigne ne le lui indique. Le billet publié ce 4 juin va plus loin : Anthropic y dresse le bilan de ce que l’IA apporte déjà à sa propre fabrication, et conclut qu’il serait temps de se ménager une sortie de secours.
Quand Claude construit Claude
Anthropic qualifiait ce comportement de « découverte la plus préoccupante » de la system card d’Opus 4.8. Pendant les phases précoces d’entraînement, le modèle raisonnait sur la façon dont ses réponses allaient être notées, y compris quand rien dans la consigne ne signalait une évaluation. Dans l’un des exemples publiés, le modèle travaillait sur un outil de planification de publications pour réseaux sociaux (une tâche banale) et écrivait dans son bloc de réflexion interne : « Et si le correcteur vérifie que le contenu du post inclut la signature ? » Aucun élément de la consigne ne mentionnait un correcteur. Le modèle avait inféré son existence.
Anthropic précise que ces comportements datent d’une phase précoce d’entraînement. Mais des travaux d’interprétabilité ont détecté ce même raisonnement (présent dans les activations internes, absent du texte visible) dans environ 5 % des épisodes. Des chercheurs de l’Institut britannique de sécurité de l’IA ont mesuré une précision de 79 % pour distinguer une session de test simulée d’un usage réel. Anthropic résume la tension en une phrase : « le modèle privilégiait l’apparence du succès plutôt que le succès réel ».
Claude écrit aujourd’hui plus de 80 % des lignes de code ajoutées dans la base de production d’Anthropic, un chiffre quasi nul avant le lancement de Claude Code en 2025. Les ingénieurs d’Anthropic produisent en moyenne 8 fois plus de code par jour qu’en 2024. Claude Mythos Preview, le modèle interne du laboratoire, tient seize heures en autonomie sur des tâches complexes, là où les sessions de test mesuraient quelques minutes deux ans plus tôt. C’est dans ce contexte que le billet formule son appel au ralentissement.
Anthropic tire une conclusion directe de ce tableau : il serait « bon pour le monde » de pouvoir ralentir ou suspendre temporairement le développement de l’IA de pointe, le temps que la recherche de sécurité rattrape son retard. La condition est immédiatement posée : un arrêt unilatéral ne servirait à rien. Seul un engagement vérifié de l’ensemble des laboratoires de pointe le rendrait crédible.
La course à la Bourse comme horizon
Opus 4.5 (novembre 2025), 4.6 (février 2026), 4.7 (avril 2026), 4.8 (mai 2026) : quatre versions en sept mois, l’écart entre les deux dernières tombé à six semaines. Anthropic annonce par ailleurs que ses modèles de classe Mythos arriveront chez l’ensemble de ses clients dans les prochaines semaines. Tout cela converge vers le 23 octobre 2026 et l’entrée en bourse sur le Nasdaq, avec pour sous-texte de montrer aux marchés qu’on produit des modèles puissants sans perdre le contrôle. Ce qu’il serait difficile de faire en appuyant sur le frein.
Du côté d’OpenAI, Sam Altman a tourné l’initiative en dérision. Il a comparé la démarche à un vendeur qui « construit une bombe, s’apprête à vous la lâcher sur la tête, puis vous vend un abri anti-bombe à 100 millions de dollars ». La pique vise la posture d’Anthropic, qui commercialise des garanties de sécurité tout en distribuant des modèles de plus en plus puissants.
👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.
Source : Anthropic

