
UK AI Security Institute는 많은 AI 벤치마크 결과의 기본 가정 하나가 틀렸다고 주장한다. 에이전트의 역량은 하나의 점수가 아니라, 모델이 사용할 수 있는 테스트 시점 컴퓨트의 양에 따라 실질적으로 변하는 움직이는 표적이라는 것이다.
The Decoder가 이 기관의 새 연구를 보도한 내용에 따르면, 이 기관은 최전선 모델들을 7개 벤치마크 전반에서 테스트했고 고정된 토큰 예산이 AI 에이전트가 실제로 달성할 수 있는 것을 체계적으로 과소평가할 수 있다는 점을 발견했다. 이는 단순한 리더보드 논쟁을 훨씬 넘어서는 문제다. 벤치마크 점수가 모델 성능이 더 이상 올라가지 않기 전에 기록되고 있다면, 개발자, 기업 구매자, 안전 평가자는 유용성과 위험 모두에 대해 인위적으로 낮은 수치를 바탕으로 결정을 내리고 있을 수 있다.
즉각적인 함의는 실용적이다. 코딩, 사이버 방어 또는 기타 다단계 작업용 AI 에이전트를 평가하는 많은 팀은 시스템이 배포 준비가 되었는지 판단하기 위해 벤치마크 수치에 의존한다. UK AI Security Institute의 발견은, 특히 에이전트가 코드를 실행하거나, 익스플로잇을 테스트하거나, 출력을 확인함으로써 중간 작업을 검증할 수 있는 작업에서는 그 수치가 한계가 아니라 최저선을 반영할 수 있음을 시사한다.
The Decoder의 설명에 따르면, UK AI Security Institute의 핵심 주장은 테스트 시점 컴퓨트가 증가할수록 성능이 오르지만 일반적인 평가 설정은 이를 충분히 포착하지 못한다는 것이다. 연구에서 TerminalBench 2.0과 SWE-Bench Pro를 포함한 벤치마크의 소프트웨어 엔지니어링 작업 성공률은 토큰 예산을 100만에서 1,000만으로 늘렸을 때 약 25% 증가했다고 전해진다.
이 효과는 코딩에만 국한되지 않았다. Humanity's Last Exam 같은 수학 및 학술 평가에서도 500만 토큰 예산까지 약 22%의 향상이 있었다고 한다. 사이버보안에서는 예산이 1,000만 토큰을 넘어서야 약 8%의 작업이 풀렸고, 일부는 5,000만 토큰이 필요했으며 최신 모델들은 1억 토큰을 넘는 예산에서 더 높은 성과를 보였다고 The Decoder는 전한다.
이 패턴은 더 넓은 방법론적 요점을 뒷받침한다. 벤치마크 운영자가 실행을 너무 일찍 상한 처리하면, 일부 어려운 작업은 모델이 더 많은 컴퓨트를 사용하면 풀 수 있음에도 실패로 기록된다. 이런 관점에서 벤치마크 점수는 안정적인 역량 측정치라기보다 예산 선택에 크게 좌우되는 값이 된다.
이 기관은 또한 분야별로 중요한 차이가 있다고 보고한 것으로 전해진다. The Decoder가 의료 작업 벤치마크로 설명한 HealthBench에서는 모델이 표준 예산 안에서 평평해지는 양상을 보였다. 다시 말해, 그 분야에서는 더 많은 컴퓨트가 큰 도움이 되지 않았다. 보고된 설명은 직관적이다. 추가 토큰은 에이전트가 자신의 작업을 반복적으로 테스트하고 검증할 수 있는 환경에서 가장 유용하다. 반대로 피드백이 드물거나, 모호하거나, 지연되는 경우에는 덜 중요하다.
이 연구의 더 중요한 주장은 단순히 큰 예산이 점수를 올린다는 것만이 아니라, 최전선에서의 역량 진전이 표준 평가가 보여주는 것보다 더 빠르게 진행되고 있을 수 있다는 점이다. The Decoder는 이 기관이 이전에 사이버 작업에서 최전선 모델의 시간 지평을 고정된 250만 토큰 예산으로 추정했다고 전한다. 예산을 5,000만 토큰으로 늘리면 진전 추세가 약 60% 더 가파르게 보인다고 한다.
다르게 말하면, 개선 속도의 체감은 평가자가 얼마나 많은 컴퓨트를 쓰려 하느냐에 부분적으로 달려 있다. 이 기관은 한 설정에서는 약 67일에서 91일 수준이던 배가 시간이 더 높은 예산 설정에서는 약 40일에서 50일로 바뀐다고 보고한 것으로 전해진다. 사실이라면, 이는 고정 예산 벤치마크를 사용해 위험 증가나 상용 준비도를 추적하는 누구에게나 중요한 경고다.
UK AI Security Institute는 또한 토큰 사용량과 작업 지속 시간을 연결한다. METR의 소프트웨어 엔지니어링 작업 211개와 자체 테스트의 사이버 작업 78개를 바탕으로, 인간 전문가가 필요한 시간과 AI 에이전트가 소비하는 토큰 수 사이에 멱법칙 관계가 있다고 보고한 것으로 전해진다. 1분 걸리는 작업은 수천 개의 토큰이 필요할 수 있고, 1시간은 수백만 개, 1주는 수십억 개가 필요할 수 있다.
이 관계는 고정 예산이 장기 작업을 체계적으로 배제하는 이유를 설명한다. 어떤 벤치마크에는 원칙적으로는 모델이 풀 수 있지만 할당된 비용 안에서는 풀 수 없는 작업이 포함될 수 있다. The Decoder는 인간 전문가 기준 약 20시간이 걸릴 것으로 추정되는 사이버 작업 “The Last Ones”를 인용하며, 테스트된 어떤 모델도 3,000만 토큰 아래에서는 성공하지 못했다고 전한다.
개발자에게 이는 “에이전트 실패”가 종종 최소 세 가지 요소, 즉 모델 능력, 도구 접근 권한, 추론 예산이 결합된 결과라는 점을 상기시킨다. 모든 실패를 역량 한계로 간주하면 제품 의사결정이 왜곡될 수 있다.
또 다른 주목할 만한 결과는 최신 최전선 시스템이 과거 모델보다 추가 컴퓨트에서 더 큰 이득을 얻는다는 점이다. The Decoder에 따르면, 이 기관은 도달 범위(reach), 즉 더 어려운 작업이 풀리는 정도; 신뢰성(reliability), 즉 같은 작업을 더 일관되게 푸는 정도; 효율성(efficiency), 즉 같은 결과에 더 적은 토큰이 필요한 정도의 세 차원에서 향상을 관찰했다고 한다.
보고된 시간 지평 수치가 이를 구체화한다. 연구 설명에 따르면, 현재 최전선 모델의 사이버 작업 시간 지평은 250만 토큰에서 약 40분이던 것이 5,000만 토큰에서는 약 4시간으로 늘었다. 더 넓은 최전선 전반에서는 높은 예산에서 시간 지평이 약 2시간에서 약 14시간으로 이동했다.
그렇다고 모든 진전이 매끄럽거나 단조롭다는 뜻은 아니다. 이 기관은 약 10~30%의 작업에서 최신 모델이 이전 모델보다 더 나쁜 성능을 보였다고 보고한 것으로 전해진다. 이 단서는 “더 최신이면 어디서나 더 낫다”는 단순한 서사에 제동을 건다. 제품 팀에게 이 결과는 넓은 모델 브랜딩에 의존하기보다 작업별 테스트가 필요하다는 점을 강화한다.
그럼에도 최신 모델이 더 큰 컴퓨트 예산에서 비례적으로 더 큰 가치를 끌어낸다면, 과거의 비용 가정에 기반한 평가 관행은 점점 구식이 될 수 있다. 추론 비용 하락은 시간이 지나면서 고예산 실행을 더 접근 가능하게 만들어, 현재는 너무 비싸 보이는 역량이 일반적인 제품과 워크플로우에서 나타나게 할 수 있다.
이 이야기는 여기 제공된 원천 세트의 직접적인 연구 논문이나 기관 게시물이 아니라, 주로 UK AI Security Institute 연구에 대한 The Decoder의 보도에 기반한다. 따라서 구체적인 벤치마크 수치, 토큰 임계값, 시간 지평 추정치는 Creati.ai가 원자료를 통해 독립적으로 검증한 사실이라기보다 보도된 결과로 보아야 한다.
그럼에도 주장들은 방향성이 타당하고 내부적으로 일관된다. 코딩이나 보안 작업에서 AI 에이전트를 써 본 사람이라면, 특히 시스템이 가설을 시험하고, 오류를 확인하고, 재시도할 수 있을 때 더 긴 실행이 더 나은 결과를 여는 경우를 보았을 것이다. 이 기관이 추가하는 것으로 보이는 점은 벤치마크 설계가 측정을 체계적으로 아래로 편향시키고 있다는 구조적 논거다.
또한 결과에는 중요한 경계가 있다. 첫째, 보고된 HealthBench 결과가 시사하듯 향상은 보편적이지 않다. 둘째, 더 높은 토큰 예산은 비용을 높이고 지연 시간을 늘리며 비생산적인 탐색 여지를 더 키울 수 있다. 셋째, 확장된 컴퓨트 아래의 벤치마크 성과는 기업 제약 하에서의 신뢰할 수 있는 실제 성과와 같은 것이 아니다.
UK AI Security Institute는 이제 여러 예산을 사용하고 성능이 더 이상 실질적으로 개선되지 않는 “최소 정보 예산(minimum informative budgets)”을 찾는다고 전해진다. 유용한 개념이긴 하지만, 운영 기준에 대한 질문은 여전히 남는다. 구매자는 최대 역량만 알고 싶은 것이 아니라, 수용 가능한 비용, 속도, 위험에서의 역량을 알아야 한다.
AI 에이전트를 만드는 팀에게 메시지는 분명하다. 벤치마크 선택만으로는 충분하지 않다. 평가 설계에는 예산 스윕이 포함되어야 하며, 특히 소프트웨어 엔지니어링, 사이버 운영, 기타 도구 사용형 도메인의 워크플로우에서 그렇다. 한 번에 주어진 예산에서는 평범해 보이는 모델도 더 오래 추론하거나 더 자주 재시도할 수 있게 되면 충분히 실용적일 수 있다.
기업용 AI 구매자에게는 이 점이 공급자 비교를 더 복잡하게 만든다. 두 제공업체가 서로 다른 컴퓨트 상한 아래에서 달성한 것이라면, 같은 벤치마크 승리를 직접 비교할 수 없다. 조달 팀은 SWE-Bench Pro, TerminalBench 2.0, HealthBench의 점수만이 아니라, 그 점수를 만들어낸 토큰 예산, 지연 시간, 재시도 정책, 도구 권한도 요청해야 한다.
안전 및 정책 작업에서는 이 연구가 훨씬 더 민감한 지점에 닿는다. 사이버보안에서 유해 역량 평가가 성능을 잘라내는 예산 아래 수행되고 있다면, 위험 평가는 배포 가능한 현실에 뒤처질 수 있다. UK AI Security Institute가 사이버 작업에 초점을 맞춘 것은 이 문제가 단지 학술적 쟁점이 아니라는 점을 시사한다. 추론이 더 싸지고 오케스트레이션 도구가 좋아지면, 높은 예산의 역량이 실제 세계에서 도달 가능해질 수 있다.
더 넓은 시장 함의는 평가가 정적인 점수에서 역량 곡선으로 이동해야 할 수도 있다는 것이다. 이는 현재의 리더보드보다 더 번거롭고 비용이 많이 들겠지만, 최전선 모델이 실제 제품 안에서 어떻게 쓰이는지를 더 잘 반영할 수 있다.
다음 핵심 신호는 UK AI Security Institute가 외부 재현이 가능하도록 충분한 세부 정보와 함께 기본 논문, 방법, 벤치마크 구성을 공개하느냐는 것이다. 그게 없다면 헤드라인 주장은 중요하더라도 검증하기는 더 어려울 것이다.
두 번째 신호는 벤치마크 유지자와 연구소들의 채택 여부다. SWE-Bench Pro, Humanity's Last Exam, HealthBench 같은 테스트가 단일 숫자 대신 예산 범위별 성능을 보고하기 시작하면, 이 기관의 주장은 즉각적인 영향을 갖게 될 것이다.
세 번째는 모델 공급자다. 연구소들이 점 추정치 대신 예산 조건부 성능 곡선을 강조하기 시작한다면, 이는 시장이 테스트 시점 컴퓨트를 단순한 런타임 설정이 아니라 역량의 일부로 받아들였음을 뜻한다.
마지막으로 기업 가격 책정과 배포 패턴을 지켜볼 필요가 있다. 토큰 비용이 내려가면 더 많은 고객이 코딩과 사이버 워크플로우에 더 오래 실행되는 AI 에이전트를 선택할 수 있다. 그렇게 되면 “벤치마크 역량”과 “배포 역량”의 차이는 빠르게 줄어들 수 있다.
UK AI Security Institute는 AI 업계가 단일 숫자 벤치마크를 게시하고 비교하기 쉽다는 이유로 방치해 온 사각지대를 지적하고 있다. 하지만 AI 에이전트는 정적인 예측기가 아니다. 이들은 탐색하고, 검증하고, 실수를 복구하는 시스템이며, 이러한 행동은 허용된 컴퓨트 양에 크게 좌우된다.
개발자와 구매자에게 실용적인 교훈은 “항상 더 많은 토큰을 쓰라”가 아니다. 핵심은 평가가 실제로 중요한 운영 환경을 반영해야 한다는 점이다. AI 에이전트가 반복과 피드백의 혜택을 볼 수 있는 소프트웨어 엔지니어링과 사이버보안에서는 예산이 제품의 일부다. 벤치마크 관행이 이를 포착하지 못한다면, 상업적 결정과 안전 판단 모두 계속 늦게 도착하게 될 것이다.