L’entreprise Anthropic aurait-elle volontairement dégradé les performances de ses modèles Claude Opus 4.6 et Claude Code ? Certains développeurs et experts en IA suspectent l’entreprise américaine d’avoir bridé les performances de ses deux modèles. Dans certains cas, ces accusations reposent sur des ressentis. Dans d’autres cas, ces allégations reposent sur des études. De son côté, Anthropic nie catégoriquement avoir bridé ses deux modèles.
Claude Sonnet 4.6 et Claude Opus 4.6 sont-ils moins performants ?
Sur les réseaux sociaux, plusieurs développeurs et spécialistes en IA affirment avoir constaté que ces deux modèles sont devenus moins performants pour effectuer des raisonnements soutenus, moins fiables et plus gourmands en jetons qu’il y a quelques semaines. De plus, ces deux modèles, largement salués pour leurs performances, auraient maintenant tendance à abandonner des tâches et à halluciner, tout en adoptant un comportement davantage axé sur la solution la plus simple.
À travers une discussion GitHub, Stella Laurenzo, directrice principale du groupe IA d’AMD, explique qu’elle ne peut tout simplement plus faire confiance à Claude Code pour des travaux d’ingénierie complexes. De son côté, un responsable IA de haut niveau d’une grande entreprise de semi-conducteurs affirme qu’il ne s’agit pas simplement d’un ressenti et que les régressions sont visibles dans les journaux, les modèles d’utilisation des outils et les corrections des utilisateurs.
La dégradation des performances de Claude Opus 4.6 et Claude Code ne serait donc pas de simples ressentis, mais plutôt des faits, ce que confirme l’entreprise BridgeMind, qui gère le test d’hallucinations BridgeBench. Ce 12 avril, l’entreprise a enregistré que Claude Opus 4.6 est passé d’une précision de 83,3 % (ce qui le plaçait à la deuxième place de son classement) à une précision de 68,3 %, le reléguant ainsi à la dixième place du classement. Pour BridgeMind, il s’agit de la preuve que « Claude Opus 4.6 a été bridé ».
Dans la foulée, plusieurs médias américains de référence se sont emparés de l’affaire. Sur les réseaux sociaux, certains suspectent Anthropic d’avoir réduit les performances de ses IA pour les vendre au même prix. D’autres supposent que l’entreprise a réduit la puissance de ses deux modèles face à la forte demande du marché. Il faut également préciser que d’autres spécialistes, comme Paul Calcraft, chercheur externe en logiciels et IA chez X, estiment que ces allégations sont dans certains cas exagérées ou qu’elles reposent sur des procédés d’évaluation non adéquats.
Anthropic réagit aux accusations
Anthropic réfute les allégations présentées ci-dessus et dément formellement une dégradation volontaire de ses modèles face à la pression de la demande. L’entreprise américaine a néanmoins reconnu avoir apporté certaines modifications aux limites d’utilisation et aux paramètres par défaut de raisonnement, mais sans que cela ait un impact sur les performances de ses modèles. Face aux accusations de bridage, Anthropic a effectué plusieurs modifications : introduction de paramètres d’effort modulables, transparence accrue dans le journal des modifications ou encore affichage des étapes du raisonnement implicite pour justifier les réponses du modèle.
👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.
Source : VentureBeat

