Coller un score de QI sur un modèle d’intelligence artificielle, c’est le genre d’idée qui fait instantanément réagir : fascinant sur le papier, douteux dès qu’on gratte. Un nouveau site baptisé AI IQ s’y est attelé en compilant les résultats de 12 benchmarks publics (ARC-AGI, FrontierMath, GPQA, entre autres) et en les convertissant en un score de QI estimé réparti sur cinq dimensions : abstraction, raisonnement mathématique, programmation, raisonnement critique et raisonnement agentique. Le site propose même un score d’intelligence émotionnelle dérivé d’EQ-Bench 3. En mai 2026, GPT-5.5 d’OpenAI trône au sommet avec un QI estimé de 136, suivi d’Opus 4.7 d’Anthropic à 132, de Gemini 3.1 Pro de Google à 131 et de GPT-5.4 à 131. Sur une échelle séparée, celle de TrackingAI basée sur le test Mensa Norvège, Grok-4.20 Expert Mode et GPT-5.4 Pro sont à égalité à 145.
Pourquoi le QI ne mesure pas l’intelligence d’une IA
Le graphique le plus frappant du site montre l’évolution temporelle. En octobre 2023, GPT-4-turbo affichait un QI estimé d’environ 75. Trente mois plus tard, les modèles de tête flirtent avec 136. Soixante points de progression en deux ans et demi, c’est spectaculaire. Sauf que la compression au sommet raconte une histoire différente : les cinq meilleurs modèles sont séparés par seulement 7 points (129 à 136 sur AI IQ, 141 à 145 sur Mensa).
Le problème fondamental n’est pas dans les chiffres, il est dans ce qu’on prétend mesurer. Le chercheur Alan D. Thompson, qui a travaillé sur l’évaluation cognitive des IA depuis 2021 et documenté en détail les limites de l’exercice, identifie quatre écueils que le site AI IQ ne résout pas. D’abord, les tests de QI ont été conçus pour la cognition humaine, et leurs échelles deviennent floues dès qu’on les applique à une intelligence non humaine. Ensuite, ces tests sont normés sur des populations humaines moyennes, ce qui rend l’interprétation des scores extrêmes (au-delà de 155 environ) statistiquement peu fiable, même entre humains. Troisième écueil : l’intelligence artificielle est fondamentalement différente de l’intelligence humaine (un modèle peut résoudre un problème de mathématiques avancées et échouer sur une tâche de sens commun qu’un enfant de six ans maîtrise). Dernier point : AI IQ ne fait pas passer de tests. Le site compile des résultats de benchmarks existants et les traduit en scores de QI via un algorithme maison, ce qui revient à convertir des kilomètres en degrés Celsius : l’opération est techniquement faisable, mais le résultat ne signifie pas ce que l’unité promet.
L’article de VentureBeat qui a popularisé le site le reconnaît lui-même : chaque fournisseur publie ses propres benchmarks, souvent sélectionnés pour mettre en avant ses forces, créant une « tour de Babel où personne ne mesure la même chose de la même manière ». Et les benchmarks les plus exigeants (ARC-AGI-2, FrontierMath Tier 4, Humanity’s Last Exam) commencent déjà à saturer, ce qui signifie que le plafond de mesure se rapproche plus vite que le plafond de capacité.
Classer les IA sur l’échelle du QI humain a le mérite de rendre les progrès tangibles pour le grand public. Mais confondre un score dérivé de benchmarks avec une mesure d’intelligence, c’est prendre le thermomètre pour la fièvre.
👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.
Source : AI IQ

