Passer au contenu

Anthropic a saboté la dernière version de Claude, et les chercheurs sont furieux

Anthropic a volontairement saboté certaines des réponses de Fable 5. L’IA a déclenché un vrai tollé chez de nombreux chercheurs, qui dénoncent un comportement « anti‑science » et un « sabotage secret ». Sous la pression de la communauté scientifique, la start-up a été obligée de faire preuve de plus de transparence… sans changer son fusil d’épaule.

Anthropic vient de lancer Claude Fable 5, une version grand public de son puissant modèle d’IA Claude Mythos. Cette version se distingue par une série de mécanismes de censure, censés empêcher l’intelligence artificielle d’être utilisée à des fins malveillantes. Accessible gratuitement jusqu’au 22 juin 2026, Fable 5 excelle surtout sur les tâches longues et autonomes.

À lire aussi : Coup de tonnerre dans le monde de l’IA – le cofondateur d’OpenAI rejoint les rangs d’Anthropic

Un mécanisme d’auto-sabotage

Dans le cœur de Fable 5, Anthropic a aussi glissé un mécanisme caché qui dégrade la qualité des réponses dans un cas bien précis. La start-up a en effet conçu le modèle linguistique de manière à ce que les réponses à des requêtes de « frontier LLM research », c’est‑à‑dire des travaux pointus sur l’entraînement et l’optimisation des IA, soient moins complètes et moins abouties.

Concrètement, si un chercheur demande à Fable 5 de l’aide pour concevoir l’infrastructure d’un futur modèle d’IA ou optimiser l’architecture d’un réseau neuronal, il reçoit une réponse volontairement moins réussie. En clair, Anthropic sabote son propre modèle de langage. L’entreprise ne prend pas la peine de prévenir ses utilisateurs lorsque Fable 5 est bridé. Dans sa documentation relative à l’IA, Anthropic admet que les mécanismes pour limiter l’efficacité du modèle restent invisibles pour l’utilisateur. Selon la start-up, ce mécanisme ne s’active par ailleurs que dans 0,03% des conversations.

Un comportement « anti‑science »

Le procédé employé par Anthropic a choqué énormément de chercheurs en intelligence artificielle. Pour beaucoup d’experts, la start-up aurait dû prévenir ses utilisateurs lorsqu’une réponse est volontairement bridée. Aux yeux du chercheur Nathan Lambert, Anthropic a même adopté un comportement « anti‑science », contraire au progrès scientifique et à la recherche.

Pour Dean Ball, spécialiste de politique publique, c’est même une tentative de « sabotage secret » qui prouve qu’Anthropic cherche à garder le monopole de l’intelligence artificielle en brandissant des mesures de sécurité.

Anthropic revoit sa copie… en partie

Face aux critiques, Anthropic n’a pas tardé à revoir sa copie. Dans une déclaration à la presse, l’entreprise admet avoir fait « le mauvais choix » et s’excuse de ne pas avoir trouvé « le bon équilibre » entre sécurité et efficacité. La start-up a décidé de revoir la manière dont l’IA s’auto-sabote. Lorsque Fable 5 soupçonnera qu’un utilisateur tente de développer un système d’IA très performant, le modèle l’en informera clairement. La requête sera refusée, ou elle sera confiée à un autre modèle, moins puissant. Dans tous les cas, un avertissement clair s’affichera dans l’interface. Cependant, Anthropic ne renonce pas à limiter l’usage de ses modèles pour développer des IA concurrentes.

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.

Source : Wired


Florian Bayard