
英國 AI 安全研究院正在主張,許多 AI 基準結果背後的一個基本假設是錯的:agent 能力不是單一分數,而是一個會隨著模型可用的測試時運算量而明顯變動的移動目標。
根據 The Decoder 對該研究院新研究的報導,該機構在七項基準上測試了前沿模型,發現固定的 token 預算可能系統性地低估 AI agent 能完成的工作。這一點的重要性遠超過排行榜之爭。如果基準分數是在模型表現尚未趨於平穩之前就被記錄下來,開發者、企業買家與安全評估者可能會基於對效用與風險都偏低的數值做決策。
直接的含義很實際。許多在評估 AI agents 以用於程式設計、資安防禦或其他多步驟工作的團隊,會依賴基準數字來判斷系統是否已可部署。英國 AI 安全研究院的發現暗示,這些數字可能反映的是下限而非上限,尤其是在 agent 能透過執行程式碼、測試漏洞利用或檢查輸出來驗證中間工作的任務上。
根據 The Decoder 的描述,英國 AI 安全研究院的核心主張是:表現會隨測試時運算量增加而提升,而常見評估設定並未完整捕捉這一點。在研究中,據報告指出,軟體工程任務的成功率在 token 預算從一百萬提高到一千萬時增加了約 25%,相關基準包括 TerminalBench 2.0 與 SWE-Bench Pro。
這種效果不僅限於程式設計。對於 Humanity's Last Exam 之類的數學與學術評測,據說在預算提高到五百萬 tokens 之前,提升可達約 22%。在 cybersecurity 領域,The Decoder 報導稱,大約 8% 的任務只有在預算超過一千萬 tokens 後才被解出,而有些任務需要 5000 萬 tokens;較新的模型則在超過 1 億 tokens 的預算下進一步提升。
這種模式支持一個更廣泛的方法論觀點。如果基準主辦方過早封頂,一部分高難度任務就會被記錄為失敗,即使模型在更多運算下其實可以解出。從這個角度看,基準分數會高度依賴預算選擇,而不是穩定的能力衡量。
據報導,該研究院還發現不同領域之間存在重要差異。在 The Decoder 描述為醫療任務基準的 HealthBench 上,模型似乎在標準預算內就達到平台期。換句話說,更多運算在那裡幫助不大。報導中的解釋很直觀:額外的 tokens 在 agent 能夠反覆測試與驗證自身工作的情境中最有用;在回饋稀少、含糊或延遲的場合,作用就小得多。
這項研究更具影響力的論點不只是較大的預算能提高分數,而是前沿能力的進展速度,可能比標準評估所顯示的更快。The Decoder 報導稱,該研究院先前在固定 250 萬 tokens 預算下,估算了前沿模型在 cyber 任務上的時間視野。當預算擴大到 5000 萬 tokens 時,進展趨勢看起來約快了 60%。
換句話說,表面上的進步速度,部分取決於評估者願意花多少運算。據報導,該研究院表示,在一種設定下,倍增時間從大約 67 到 91 天,變成在更高預算設定下約 40 到 50 天。如果這些數字準確,對任何用固定預算基準追蹤風險升高或商業就緒度的人來說,都是重大警訊。
英國 AI 安全研究院也將 token 使用量與任務時長連結起來。根據來自 METR 的 211 個軟體工程任務與其自家測試的 78 個 cyber 任務,該研究院據報發現,人類專家完成任務所需時間與 AI agent 傾向消耗的 tokens 數量之間,存在冪律關係。做一分鐘的任務可能需要數千 tokens;一小時可能需要數百萬;一週則可能需要數十億。
這種關係有助於解釋為何固定預算會系統性排除長時程工作。基準中可能包含理論上可由模型解決的任務,但無法在分配的支出內完成。The Decoder 引述一項名為 “The Last Ones” 的 cyber 任務,估計人類專家需要約 20 小時,而沒有任何受測模型據報在 3000 萬 tokens 以下成功解出。
對建構者而言,這提醒我們,“agent 失敗” 往往至少由三個因素共同組成:模型能力、工具存取權,以及推理預算。把所有失敗都當作能力上限,可能導致誤導性的產品決策。
另一個值得注意的結果是,較新的前沿系統據報從額外運算中獲得的收益,比較舊的模型更多。The Decoder 表示,研究院觀察到三個維度的改善:reach,意指更難的任務變得可解;reliability,意指同一任務被更一致地解出;以及 efficiency,意指為得到特定結果所需的 tokens 更少。
據報導的時間視野數據讓這一點更具體。根據 The Decoder 對該研究的說法,一個當前前沿模型在 cyber 任務上的時間視野,從 250 萬 tokens 時的約 40 分鐘,上升到 5000 萬 tokens 時的約 4 小時。在更廣泛的前沿範圍內,在較高預算下,時間視野從約 2 小時提升到約 14 小時。
這並不代表所有進步都是平滑或單調的。據報導,研究院發現大約 10% 到 30% 的任務上,新模型表現反而比前代更差。這個保留意見很重要,因為它反駁了簡化的「越新就到處越好」敘事。對產品團隊來說,這也再次證明了必須進行任務特定測試,而不是只依賴寬泛的模型品牌印象。
不過,如果較新的模型能從更大的運算預算中提取出不成比例的價值,那麼圍繞舊成本假設建立的評估做法,就可能愈來愈過時。隨著推理成本下降,高預算運行可能變得更容易取得,進而讓目前看起來太昂貴的能力,在日常產品與工作流程中浮現。
這則新聞主要依據 The Decoder 對英國 AI 安全研究院一項研究的報導,而非此處來源集中所直接提供的研究論文或研究院出版物。這意味著,具體的基準數字、token 門檻與時間視野估算,應被視為轉述的發現,而非 Creati.ai 直接根據原始材料獨立驗證的結果。
即便如此,這些主張在方向上是合理且內部一致的。任何曾經在程式設計或資安任務上使用 AI agents 的人都見過,更長的運行時間往往能解鎖更好的結果,特別是在系統可以測試假設、檢查錯誤並重試時。該研究院似乎補上的,是一個結構化論點:基準設計正在系統性地把量測值往下偏。
這些發現也有重要的界限。首先,提升並非普遍存在,正如報導中的 HealthBench 結果所示。其次,更高的 token 預算會提高成本、增加延遲,並可能為低效搜尋留下更多空間。第三,擴大運算後的基準表現,並不等同於在企業限制下可依賴的實際生產表現。
據報導,英國 AI 安全研究院現在會使用多個預算,並尋找「最低資訊性預算」,也就是表現不再有實質改善的臨界點。這是一個有用的概念,但仍留下營運標準上的問題。買家不只是想知道最大能力;他們還需要知道在可接受的成本、速度與風險下,能力能到哪裡。
對於打造 AI agents 的團隊來說,訊息很直接:光挑選基準已經不夠了。評估設計必須包含預算掃描,尤其是在軟體工程、cyber 作業,以及其他使用工具的領域。一個在一次性預算下看起來平庸的模型,若允許更長的推理或更多重試,可能就會變得可用。
對 enterprise AI 買家而言,這使供應商比較變得更複雜。若兩家供應商是在不同的運算上限下達成基準勝出,那麼它們引用的成績就不能直接比較。採購團隊不僅應要求 SWE-Bench Pro、TerminalBench 2.0 或 HealthBench 的分數,也應要求產生這些分數時使用的 token 預算、延遲、重試策略與工具權限。
對安全與政策工作而言,這項研究觸及的是更敏感的點。如果 cybersecurity 中的有害能力評估是在會截斷表現的預算下進行,風險評估可能會落後於可部署的現實。英國 AI 安全研究院聚焦 cyber 任務,暗示這不是純學術問題。隨著推理成本下降、編排工具改善,高預算能力可能在真實世界中變得可達。
更廣泛的市場含義是,評估可能需要從靜態分數轉向能力曲線。這會比現有排行榜更混亂、成本更高,但也可能更貼近前沿模型在產品中的實際使用方式。
下一個關鍵訊號,是英國 AI 安全研究院是否會公開底層論文、方法與基準配置,並提供足夠細節讓外部能重現。若沒有這些資訊,這個標題式主張仍然重要,但會更難稽核。
第二個訊號是基準維護者與實驗室是否採納。如果像 SWE-Bench Pro、Humanity's Last Exam 或 HealthBench 這類測試開始以預算範圍而非單一數字報告表現,該研究院的論點就會立即產生影響。
第三,觀察模型供應商。如果實驗室開始強調受預算條件影響的表現曲線,而不是單點估計,這表示市場已接受測試時運算是能力的一部分,而不只是執行時設定。
最後,觀察企業定價與部署模式。隨著 token 成本下降,更多客戶可能會在程式設計與 cyber 工作流程中選擇更長時間運行的 AI agents。若真如此,“基準能力” 與 “部署能力” 之間的差距可能會迅速縮小。
英國 AI 安全研究院指出了一個 AI 產業一直容忍的盲點,因為單一數字的基準容易發布,也容易比較。但 AI agents 不是靜態預測器。它們是會搜尋、驗證並從錯誤中恢復的系統,而這些行為深受其被允許消耗多少運算資源所影響。
對建構者與買家而言,實際可行的結論不是「永遠多花 tokens」。而是評估必須反映你真正關心的運作情境。在軟體工程與 cybersecurity 中,AI agents 可以從反覆迭代與回饋中受益,因此預算本身就是產品的一部分。如果基準實務無法捕捉這一點,商業決策與安全判斷都會持續姍姍來遲。