Anthropic vient de lancer Claude Fable 5, une version grand public de son puissant modèle d’IA Claude Mythos. Cette version se distingue par une série de mécanismes de censure, censés empêcher l’intelligence artificielle d’être utilisée à des fins malveillantes. Accessible gratuitement jusqu’au 22 juin 2026, Fable 5 excelle surtout sur les tâches longues et autonomes.
À lire aussi : Coup de tonnerre dans le monde de l’IA – le cofondateur d’OpenAI rejoint les rangs d’Anthropic
Un mécanisme d’auto-sabotage
Dans le cœur de Fable 5, Anthropic a aussi glissé un mécanisme caché qui dégrade la qualité des réponses dans un cas bien précis. La start-up a en effet conçu le modèle linguistique de manière à ce que les réponses à des requêtes de « frontier LLM research », c’est‑à‑dire des travaux pointus sur l’entraînement et l’optimisation des IA, soient moins complètes et moins abouties.
Concrètement, si un chercheur demande à Fable 5 de l’aide pour concevoir l’infrastructure d’un futur modèle d’IA ou optimiser l’architecture d’un réseau neuronal, il reçoit une réponse volontairement moins réussie. En clair, Anthropic sabote son propre modèle de langage. L’entreprise ne prend pas la peine de prévenir ses utilisateurs lorsque Fable 5 est bridé. Dans sa documentation relative à l’IA, Anthropic admet que les mécanismes pour limiter l’efficacité du modèle restent invisibles pour l’utilisateur. Selon la start-up, ce mécanisme ne s’active par ailleurs que dans 0,03% des conversations.
Un comportement « anti‑science »
Le procédé employé par Anthropic a choqué énormément de chercheurs en intelligence artificielle. Pour beaucoup d’experts, la start-up aurait dû prévenir ses utilisateurs lorsqu’une réponse est volontairement bridée. Aux yeux du chercheur Nathan Lambert, Anthropic a même adopté un comportement « anti‑science », contraire au progrès scientifique et à la recherche.
To me this paints Anthropic clearly as anti science, and therefore anti progress and anti safety.
— Nathan Lambert (@natolambert) June 10, 2026
Pour Dean Ball, spécialiste de politique publique, c’est même une tentative de « sabotage secret » qui prouve qu’Anthropic cherche à garder le monopole de l’intelligence artificielle en brandissant des mesures de sécurité.
My last observation re: Anthropic’s secret sabotage safety policy, is that it undermines actually good safety policy. How?
1. First, it is very plausible to describe this as anti-competitive behavior (even if you are maximally sympathetic to Anthropic here you must admit this),…
— Dean W. Ball (@deanwball) June 10, 2026
Anthropic revoit sa copie… en partie
Face aux critiques, Anthropic n’a pas tardé à revoir sa copie. Dans une déclaration à la presse, l’entreprise admet avoir fait « le mauvais choix » et s’excuse de ne pas avoir trouvé « le bon équilibre » entre sécurité et efficacité. La start-up a décidé de revoir la manière dont l’IA s’auto-sabote. Lorsque Fable 5 soupçonnera qu’un utilisateur tente de développer un système d’IA très performant, le modèle l’en informera clairement. La requête sera refusée, ou elle sera confiée à un autre modèle, moins puissant. Dans tous les cas, un avertissement clair s’affichera dans l’interface. Cependant, Anthropic ne renonce pas à limiter l’usage de ses modèles pour développer des IA concurrentes.
👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.
Source : Wired

