UK AI Security Institute、一般的なベンチマークはAIエージェントがより多くの計算資源を与えられたときにできることを見落としていると指摘

UK AI Security Instituteは、多くのAIベンチマーク結果の背後にある基本的な前提が誤っていると主張している。すなわち、エージェントの能力は単一のスコアではなく、モデルが使えるテスト時の計算資源の量によって実質的に変化する、動く対象だということだ。

The Decoderが同機関の新しい研究を報じたところによると、同機関は最先端モデルを7つのベンチマークでテストし、固定されたトークン予算ではAIエージェントが達成可能な成果を体系的に過小評価しうることを見いだした。これはリーダーボードの議論にとどまらない重要性を持つ。ベンチマークのスコアがモデルの性能が頭打ちになる前に記録されているなら、開発者、企業の購買担当者、安全性評価者は、有用性とリスクの両方について人工的に低い数値をもとに判断してしまうかもしれない。

当面の意味は実務的だ。コーディング、サイバー防御、その他のマルチステップ作業向けにAIエージェントを評価している多くのチームは、導入可能かどうかを判断するためにベンチマークの数値に依存している。UK AI Security Instituteの結果は、特にエージェントがコードの実行、脆弱性の検証、出力の確認によって途中結果を確かめられるタスクでは、その数値が上限ではなく下限を示している可能性があることを示唆している。

研究が明らかにしたこと

The Decoderの説明によれば、UK AI Security Instituteの中心的な主張は、テスト時の計算資源が増えると性能が、一般的な評価設定では十分に捉えられない形で向上するというものだ。研究では、TerminalBench 2.0やSWE-Bench Proを含むベンチマークで、トークン予算を100万から1000万に増やすと、ソフトウェアエンジニアリング課題の成功率が約25％上昇したと報告されている。

その効果はコーディングに限られなかった。Humanity's Last Examのような数学・学術評価では、500万トークンまでの予算増加でおよそ22％の向上が見られたという。サイバーセキュリティでは、The Decoderによると、約8％のタスクは予算が1000万トークンを超えて初めて解けるようになり、なかには5000万トークンを要するものや、10000万トークン超の予算でさらに高性能化する新しいモデルもあった。

この傾向は、より広い方法論上の要点を支えている。ベンチマーク運営者が実行を早く打ち切れば、本来はモデルがより多くの計算資源で解けたはずの難問の一部が失敗として記録される。そうした見方では、ベンチマークスコアは能力の安定した尺度ではなく、予算設定に大きく依存するものになる。

同機関は、領域ごとの重要な差異も見いだしたと報じられている。The Decoderが医療タスクのベンチマークと説明するHealthBenchでは、モデルは標準予算内で頭打ちになったように見えた。つまり、追加の計算資源はほとんど役に立たなかったということだ。報告された説明は直感的だ。トークンの追加が最も有効なのは、エージェントが自分の作業を反復的に試し、検証できる場面であり、フィードバックが乏しい、曖昧、あるいは遅い場面では効果が小さい。

なぜトークン予算が見え方を変えるのか

この研究のより重要な主張は、単に予算が大きいほどスコアが上がるというだけではない。むしろ、最先端の能力進歩は標準的な評価が示すよりも速く進んでいる可能性があるという点だ。The Decoderによると、同機関は以前、サイバータスクにおける最先端モデルの時間的到達範囲を固定の250万トークン予算で推定していた。だが予算を5000万トークンに広げると、進歩の傾向は約60％急になるように見えるという。

言い換えれば、改善の見かけのペースは、評価者がどれだけ計算資源を使う意思があるかに一部依存する。同機関は、ある設定では倍増時間が約67日から91日に変わるのに対し、高予算設定では約40日から50日になると述べたと報じられている。もし正確なら、これはリスクの悪化や商用化の準備状況を固定予算のベンチマークで追っている人にとって大きな警告だ。

UK AI Security Instituteは、トークン使用量をタスク時間とも関連づけている。METRの211件のソフトウェアエンジニアリングタスクと、自前のテストによる78件のサイバータスクをもとに、同機関は、人間の専門家が必要とする時間の長さと、AIエージェントが消費するトークン数の間にべき乗則の関係があることを見いだしたと報じられている。1分で終わるタスクは数千トークン、1時間なら数百万、1週間なら数十億トークンを要する可能性がある。

この関係は、固定予算が長期的な作業を体系的に除外してしまう理由を説明する。ベンチマークには、原理的にはモデルが解けるタスクが含まれていても、割り当てられた予算内では解けないことがある。The Decoderは、「The Last Ones」と呼ばれるサイバータスクを挙げており、これは人間の専門家で約20時間かかると見積もられていたが、テストされたモデルは30百万トークン未満では成功しなかったという。

開発者にとって、これは「エージェントの失敗」が少なくとも3つの要素――モデルの能力、ツールへのアクセス、推論予算――の組み合わせであることを思い出させる。すべての失敗を能力の限界として扱うと、誤った製品判断につながる可能性がある。

新しいモデルほど恩恵が大きいようだ

もう1つ注目すべき結果は、新しい最先端システムほど追加計算の恩恵が大きいと報告されている点だ。The Decoderによれば、同機関は3つの側面で改善を観測した。到達範囲（より難しいタスクが解けるようになること）、信頼性（同じタスクをより一貫して解くこと）、効率（同じ結果に必要なトークン数が少なくなること）だ。

報告された時間的到達範囲の数値はそれを具体化している。The Decoderの研究紹介によると、現在の最先端モデルのサイバータスクにおける到達範囲は、250万トークンでは約40分だったが、5000万トークンでは約4時間に伸びたという。より広い最先端全体では、高予算時に到達範囲が約2時間から約14時間に広がった。

ただし、これは進歩がすべて滑らかで単調だという意味ではない。同機関は、約10〜30％のタスクでは新しいモデルが先行モデルより悪い結果だったと報告したという。この注記は重要だ。なぜなら、単純な「新しいほどどこでも優れている」という物語に歯止めをかけるからだ。製品チームにとって、この結果は幅広いモデルの看板性能に頼るのではなく、タスクごとのテストの必要性を強める。

それでも、新しいモデルが大きな計算予算から相対的に大きな価値を引き出せるなら、旧来のコスト前提に基づく評価手法はますます時代遅れになる可能性がある。推論コストの低下により、今は高コストすぎると思われる高予算実行が、やがて一般的な製品やワークフローに現れるかもしれない。

証拠、限界、そして主張をどの程度信頼すべきか

この話は、ここで提供されたソース群の中で直接示された研究論文や機関の公開資料ではなく、主としてThe DecoderによるUK AI Security Instituteの研究報道に基づいている。つまり、具体的なベンチマーク数値、トークン閾値、時間的到達範囲の推定は、Creati.aiが原資料から独自に検証したものではなく、報道された結果として扱うべきだ。

それでも、主張の方向性はもっともらしく、内部的にも整合している。コーディングやセキュリティのタスクでAIエージェントを扱ったことがある人なら、より長い実行が、特にシステムが仮説を試し、エラーを調べ、再試行できる場合に、より良い結果を引き出すことを見てきたはずだ。機関が付け加えているように見えるのは、ベンチマーク設計が体系的に測定値を低く偏らせているという構造的な主張だ。

この結果には重要な境界もある。第一に、HealthBenchの報告が示すように、恩恵は普遍的ではない。第二に、トークン予算を増やすとコストが上がり、遅延も増え、非生産的な探索の余地も広がる。第三に、拡大した計算資源下でのベンチマーク性能は、企業の制約下での信頼できる本番性能と同じではない。

UK AI Security Instituteは現在、複数の予算設定を用い、性能が実質的にそれ以上改善しなくなる「最小の情報的予算」を探していると報じられている。これは有用な概念だが、運用基準に関する疑問はなお残る。購入者が知りたいのは最大能力だけではない。許容可能なコスト、速度、リスクにおける能力を知る必要がある。

これはAIエージェントと企業向けAIに何を意味するのか

AIエージェントを開発するチームにとって、メッセージは明快だ。ベンチマークの選定だけではもはや不十分である。評価設計には、特にソフトウェアエンジニアリング、サイバー作戦、その他ツールを使う領域のワークフローで、予算の振れ幅を含める必要がある。1回限りの予算では平凡に見えるモデルでも、より長く考えたり、より頻繁に再試行したりできれば実用的になるかもしれない。

企業向けAIの購入者にとって、これはベンダー比較を複雑にする。異なる計算資源上限の下で達成された結果であれば、2社が引用するベンチマーク勝利は直接比較できない。調達チームは、SWE-Bench Pro、TerminalBench 2.0、HealthBenchのスコアだけでなく、それらを生み出したトークン予算、遅延、再試行ポリシー、ツール権限も尋ねるべきだ。

安全性と政策の仕事にとって、この研究はさらに敏感な点に触れている。サイバーセキュリティにおける有害能力の評価が、性能を途中で打ち切る予算の下で行われているなら、リスク評価は実際に展開可能な現実に遅れをとるかもしれない。UK AI Security Instituteがサイバータスクに焦点を当てていることは、この問題が単なる学術的関心ではないことを示している。推論が安くなり、オーケストレーションツールが改善されれば、高予算能力は現実世界で到達可能になる可能性がある。

より広い市場への示唆は、評価が静的なスコアから能力曲線へ移行する必要があるかもしれないということだ。それは現在のリーダーボードより面倒で高コストだが、最先端モデルが製品内で実際にどう使われているかをよりよく反映するだろう。

今後注目すべき点

次の重要なシグナルは、UK AI Security Instituteが基礎となる論文、方法論、ベンチマーク設定を、外部が再現できる程度に詳しく公開するかどうかだ。それがなければ、見出しとしての主張は重要なままだが、監査はより難しくなる。

2つ目のシグナルは、ベンチマーク運営者や研究機関による採用だ。SWE-Bench Pro、Humanity's Last Exam、HealthBenchのようなテストが単一の数値ではなく予算帯ごとの性能を報告し始めれば、同機関の主張は即座に影響力を持つ。

3つ目はモデル提供企業だ。各研究所が点推定の代わりに予算条件付きの性能曲線を強調し始めれば、テスト時の計算資源が単なる実行設定ではなく、能力の一部だと市場が受け入れたことを意味する。

最後に、企業向けの価格設定と導入パターンを注視したい。トークンコストが下がれば、より多くの顧客がコーディングやサイバーのワークフローで、より長時間動くAIエージェントを選ぶかもしれない。その場合、「ベンチマーク上の能力」と「導入された能力」の差は急速に縮む可能性がある。

Creati.aiの見解

UK AI Security Instituteは、AI業界が見過ごしてきた盲点を指摘している。単一数値のベンチマークは公開や比較が簡単だからだ。しかしAIエージェントは静的な予測器ではない。探索し、検証し、誤りから回復するシステムであり、そうした挙動は与えられた計算資源の量に強く左右される。

開発者と購入者にとって、実務上の教訓は「常により多くのトークンを使うべき」ということではない。重要なのは、自分たちが本当に気にする運用条件を評価が反映しているかどうかだ。ソフトウェアエンジニアリングやサイバーセキュリティのように、AIエージェントが反復とフィードバックの恩恵を受けられる領域では、予算も製品の一部である。ベンチマーク実務がそれを捉え損ねれば、商業判断も安全性判断も引き続き遅れてやってくることになる。