L’UK AI Security Institute estime que les benchmarks courants passent à côté de ce que les agents d’IA peuvent faire lorsqu’on leur donne plus de calcul

L’UK AI Security Institute avance qu’une hypothèse de base derrière de nombreux résultats de benchmarks d’IA est erronée : la capacité des agents n’est pas un score unique, mais une cible mouvante qui change sensiblement selon la quantité de calcul au moment du test que le modèle est autorisé à utiliser.

Selon les informations rapportées par The Decoder à propos de la nouvelle étude de l’institut, l’agence a testé des modèles de pointe sur sept benchmarks et a constaté que des budgets de tokens fixes peuvent sous-estimer systématiquement ce que les agents d’IA sont capables d’accomplir. Cela dépasse largement les débats sur les classements. Si les scores de benchmark sont enregistrés avant que les performances d’un modèle n’aient atteint un plateau, les développeurs, les acheteurs d’entreprise et les évaluateurs de sécurité peuvent prendre des décisions fondées sur des lectures artificiellement basses à la fois de l’utilité et du risque.

L’implication immédiate est pratique. De nombreuses équipes qui évaluent des agents d’IA pour le codage, la cyberdéfense ou d’autres tâches en plusieurs étapes s’appuient sur des chiffres de benchmark pour décider si un système est prêt à être déployé. Les conclusions de l’UK AI Security Institute suggèrent que ces chiffres peuvent refléter un plancher plutôt qu’un plafond, surtout pour les tâches où l’agent peut vérifier son travail intermédiaire en exécutant du code, en testant un exploit ou en contrôlant des sorties.

Ce que l’étude a révélé

L’affirmation centrale de l’UK AI Security Institute, telle que décrite par The Decoder, est que les performances augmentent avec le calcul au moment du test d’une manière que les configurations d’évaluation courantes ne capturent pas entièrement. Dans l’étude, les taux de réussite sur des tâches d’ingénierie logicielle auraient augmenté d’environ 25 % lorsque le budget en tokens est passé d’un million à dix millions sur des benchmarks incluant TerminalBench 2.0 et SWE-Bench Pro.

L’effet ne se limitait pas au codage. Sur des évaluations de mathématiques et académiques comme Humanity's Last Exam, les gains auraient atteint environ 22 % jusqu’à un budget de cinq millions de tokens. En cybersécurité, The Decoder rapporte qu’environ 8 % des tâches n’ont été résolues qu’une fois les budgets dépassés 10 millions de tokens, certaines nécessitant 50 millions de tokens et des modèles plus récents poussant plus loin à des budgets supérieurs à 100 millions.

Ce schéma confirme un point méthodologique plus large. Si les organisateurs de benchmarks plafonnent les runs trop tôt, une partie des tâches difficiles sera enregistrée comme un échec même si le modèle aurait pu les résoudre avec plus de calcul. Dans cette optique, un score de benchmark devient fortement dépendant du choix du budget plutôt qu’une mesure stable de la capacité.

L’institut aurait également constaté des variations importantes selon le domaine. Sur HealthBench, que The Decoder décrit comme un benchmark de tâches médicales, les modèles semblaient atteindre un plateau dans le budget standard. Autrement dit, davantage de calcul n’apportait pas grand-chose dans ce cas. L’explication rapportée est intuitive : les tokens supplémentaires sont les plus utiles dans les contextes où un agent peut tester et vérifier itérativement son propre travail. Ils comptent moins lorsque le retour d’information est rare, ambigu ou retardé.

Pourquoi les budgets en tokens changent la donne

L’argument le plus important de l’étude n’est pas seulement que des budgets plus élevés améliorent les scores, mais que le progrès des capacités à la frontière pourrait avancer plus vite que ne le suggèrent les évaluations standards. The Decoder rapporte que l’institut estimait auparavant les horizons temporels des modèles de pointe sur des tâches cyber à un budget fixe de 2,5 millions de tokens. Lorsque le budget est porté à 50 millions de tokens, la tendance de progrès semble environ 60 % plus raide.

Autrement dit, la vitesse apparente d’amélioration dépend en partie de la quantité de calcul que les évaluateurs sont prêts à dépenser. L’institut aurait déclaré que les temps de doublement passent d’environ 67 à 91 jours dans une configuration à environ 40 à 50 jours dans la configuration à budget plus élevé. Si cela est exact, c’est un avertissement majeur pour quiconque utilise des benchmarks à budget fixe pour suivre l’escalade du risque ou la maturité commerciale.

L’UK AI Security Institute relie également l’usage des tokens à la durée des tâches. En s’appuyant sur 211 tâches d’ingénierie logicielle issues de METR et 78 tâches cyber provenant de ses propres tests, l’institut aurait mis en évidence une relation de loi de puissance entre le temps nécessaire à un expert humain et la quantité de tokens qu’un agent d’IA tend à consommer. Une tâche qui prend une minute peut nécessiter des milliers de tokens ; une heure, des millions ; une semaine, des milliards.

Cette relation aide à expliquer pourquoi des budgets fixes excluent systématiquement le travail à long horizon. Un benchmark peut contenir des tâches qui, en principe, sont résolubles par un modèle, mais pas dans le budget alloué. The Decoder cite une tâche cyber appelée “The Last Ones”, estimée à environ 20 heures de travail pour un expert humain, pour laquelle aucun modèle testé n’aurait réussi en dessous de 30 millions de tokens.

Pour les concepteurs, cela rappelle qu’un « échec d’agent » combine souvent au moins trois facteurs : les compétences du modèle, l’accès aux outils et le budget d’inférence. Traiter tous les échecs comme des limites de capacité peut conduire à des décisions produit trompeuses.

Les modèles plus récents semblent en tirer davantage parti

Un autre résultat notable est que les systèmes de pointe plus récents auraient davantage gagné du calcul supplémentaire que les modèles plus anciens. The Decoder indique que l’institut a observé des améliorations sur trois dimensions : la portée, c’est-à-dire des tâches plus difficiles deviennent résolubles ; la fiabilité, c’est-à-dire qu’une même tâche est résolue plus régulièrement ; et l’efficacité, c’est-à-dire qu’un nombre moindre de tokens est nécessaire pour un résultat donné.

Les chiffres d’horizon temporel rapportés rendent cela concret. L’horizon d’un modèle de pointe actuel sur des tâches cyber serait passé d’environ 40 minutes à 2,5 millions de tokens à environ quatre heures à 50 millions de tokens, selon le compte rendu de l’étude par The Decoder. Sur l’ensemble du front de pointe, l’horizon serait passé d’environ deux heures à environ 14 heures au budget le plus élevé.

Cela ne signifie pas que tout le progrès est fluide ou monotone. L’institut aurait constaté que pour environ 10 à 30 % des tâches, les modèles plus récents faisaient moins bien que leurs prédécesseurs. Cette réserve est importante car elle s’oppose au récit simpliste selon lequel « plus récent = meilleur partout ». Pour les équipes produit, ce résultat renforce la nécessité de tests propres à chaque tâche plutôt que de s’en remettre à un branding global des modèles.

Néanmoins, si les modèles plus récents tirent un bénéfice disproportionné de budgets de calcul plus élevés, les pratiques d’évaluation fondées sur d’anciennes hypothèses de coût pourraient devenir de plus en plus obsolètes. La baisse des coûts d’inférence pourrait rendre au fil du temps les exécutions à haut budget plus accessibles, permettant à des capacités qui semblent actuellement trop coûteuses d’émerger dans des produits et des flux de travail ordinaires.

Preuves, limites et niveau de confiance à accorder aux affirmations

Cette information repose principalement sur le reportage de The Decoder à propos d’une étude de l’UK AI Security Institute, plutôt que sur un article de recherche directement fourni ou une publication de l’institut dans l’ensemble de sources ici. Cela signifie que les chiffres précis des benchmarks, les seuils de tokens et les estimations d’horizon temporel doivent être considérés comme des résultats rapportés plutôt que comme des éléments vérifiés indépendamment par Creati.ai à partir de documents originaux.

Même ainsi, les affirmations sont plausibles dans leur direction et cohérentes entre elles. Toute personne ayant travaillé avec des agents d’IA sur des tâches de codage ou de sécurité a constaté que des exécutions plus longues peuvent débloquer de meilleurs résultats, en particulier lorsque le système peut tester des hypothèses, inspecter des erreurs et réessayer. Ce que l’institut semble apporter, c’est un argument structuré selon lequel la conception des benchmarks biaise systématiquement les mesures à la baisse.

Il existe aussi des limites importantes à ces résultats. Premièrement, les gains ne sont pas universels, comme le suggère le résultat rapporté sur HealthBench. Deuxièmement, des budgets en tokens plus élevés augmentent les coûts, la latence et peuvent laisser davantage de place à une recherche improductive. Troisièmement, les performances en benchmark avec calcul élargi ne sont pas équivalentes à des performances fiables en production sous contraintes d’entreprise.

L’UK AI Security Institute utiliserait désormais plusieurs budgets et rechercherait des « budgets minimaux informatifs » où les performances cessent de s’améliorer de manière significative. C’est un concept utile, mais il laisse encore ouvertes des questions sur les normes opérationnelles. Les acheteurs ne veulent pas seulement connaître la capacité maximale ; ils doivent savoir quelle capacité est atteinte à un coût, une vitesse et un niveau de risque acceptables.

Ce que cela signifie pour les agents d’IA et l’IA d’entreprise

Pour les équipes qui construisent des agents d’IA, le message est simple : le choix du benchmark ne suffit plus. La conception de l’évaluation doit inclure des balayages de budgets, en particulier pour les flux de travail en ingénierie logicielle, en opérations cyber et dans d’autres domaines utilisant des outils. Un modèle qui paraît médiocre avec un budget en un seul passage peut devenir viable s’il est autorisé à raisonner plus longtemps ou à réessayer plus souvent.

Pour les acheteurs d’IA d’entreprise, cela complique les comparaisons entre fournisseurs. Deux prestataires peuvent citer des victoires de benchmark qui ne sont pas directement comparables si elles ont été obtenues sous des plafonds de calcul différents. Les équipes d’approvisionnement devraient demander non seulement les scores sur SWE-Bench Pro, TerminalBench 2.0 ou HealthBench, mais aussi les budgets en tokens, la latence, les politiques de réessai et les autorisations d’outils utilisées pour les obtenir.

Pour le travail sur la sécurité et les politiques publiques, l’étude touche à un point encore plus sensible. Si les évaluations des capacités dangereuses en cybersécurité sont menées avec des budgets qui tronquent les performances, les évaluations des risques peuvent prendre du retard sur la réalité déployable. L’attention de l’UK AI Security Institute sur les tâches cyber suggère que la question n’est pas seulement académique. Une capacité à haut budget pourrait devenir accessible dans le monde réel à mesure que l’inférence devient moins chère et que les outils d’orchestration s’améliorent.

L’implication plus large pour le marché est que l’évaluation devra peut-être passer de scores statiques à des courbes de capacité. Ce sera plus désordonné et plus coûteux que les classements actuels, mais cela reflétera peut-être mieux la manière dont les modèles de pointe sont réellement utilisés dans les produits.

Ce qu’il faut surveiller ensuite

Le prochain signal clé est de savoir si l’UK AI Security Institute publie l’article sous-jacent, la méthodologie et les configurations de benchmark avec suffisamment de détails pour permettre une reproduction externe. Sans cela, l’affirmation principale restera importante mais plus difficile à auditer.

Un deuxième signal est l’adoption par les mainteneurs de benchmarks et les laboratoires. Si des tests comme SWE-Bench Pro, Humanity's Last Exam ou HealthBench commencent à publier les performances sur plusieurs plages de budget plutôt qu’un seul chiffre, l’argument de l’institut aura une influence immédiate.

Troisièmement, surveillez les fournisseurs de modèles. Si les laboratoires commencent à mettre l’accent sur des courbes de performance conditionnées par le budget plutôt que sur des estimations ponctuelles, cela indiquera que le marché accepte que le calcul au moment du test fasse partie de la capacité, et pas seulement d’un réglage d’exécution.

Enfin, surveillez les tarifs et les schémas de déploiement en entreprise. À mesure que les coûts en tokens baissent, davantage de clients pourraient choisir des agents d’IA à exécution plus longue pour les flux de travail de codage et de cybersécurité. Si cela se produit, la différence entre « capacité en benchmark » et « capacité déployée » pourrait se réduire rapidement.

Point de vue de Creati.ai

L’UK AI Security Institute met en lumière un angle mort que l’industrie de l’IA a toléré parce que les benchmarks à chiffre unique sont faciles à publier et à comparer. Mais les agents d’IA ne sont pas des prédicteurs statiques. Ce sont des systèmes qui recherchent, vérifient et se remettent de leurs erreurs, et ces comportements sont fortement façonnés par la quantité de calcul qu’ils sont autorisés à consommer.

Pour les concepteurs comme pour les acheteurs, l’enseignement pratique n’est pas « dépenser toujours plus de tokens ». C’est que l’évaluation doit refléter le régime d’exploitation qui vous intéresse réellement. Dans l’ingénierie logicielle et la cybersécurité, où les agents d’IA peuvent bénéficier de l’itération et du retour d’information, le budget fait partie du produit. Si les pratiques de benchmark ne parviennent pas à le capturer, les décisions commerciales et les jugements de sécurité continueront d’arriver trop tard.