O UK AI Security Institute diz que benchmarks comuns deixam passar o que agentes de IA conseguem fazer quando recebem mais compute

O UK AI Security Institute está argumentando que uma suposição básica por trás de muitos resultados de benchmarks de IA está errada: a capacidade de agentes não é uma única pontuação, mas um alvo móvel que muda de forma material com a quantidade de compute em tempo de teste que um modelo pode usar.

De acordo com a reportagem de The Decoder sobre o novo estudo do instituto, a agência testou modelos de ponta em sete benchmarks e concluiu que orçamentos fixos de tokens podem subestimar sistematicamente o que agentes de IA conseguem realizar. Isso importa muito além das disputas por liderança em rankings. Se as pontuações dos benchmarks estiverem sendo registradas antes de o desempenho de um modelo se estabilizar, desenvolvedores, compradores corporativos e avaliadores de segurança podem estar tomando decisões com base em leituras artificialmente baixas tanto de utilidade quanto de risco.

A implicação imediata é prática. Muitas equipes que avaliam agentes de IA para programação, defesa cibernética ou outras tarefas em múltiplas etapas dependem de números de benchmarks para decidir se um sistema está pronto para implantação. As conclusões do UK AI Security Institute sugerem que esses números podem refletir um piso, e não um teto, especialmente em tarefas nas quais o agente pode verificar o trabalho intermediário executando código, testando um exploit ou checando saídas.

O que o estudo encontrou

A afirmação central do UK AI Security Institute, conforme descrita por The Decoder, é que o desempenho aumenta com o compute em tempo de teste de maneiras que configurações comuns de avaliação não capturam totalmente. No estudo, as taxas de sucesso em tarefas de engenharia de software teriam aumentado em cerca de 25 por cento quando o orçamento de tokens subiu de um milhão para dez milhões em benchmarks como TerminalBench 2.0 e SWE-Bench Pro.

O efeito não ficou limitado à programação. Em avaliações de matemática e acadêmicas como Humanity's Last Exam, os ganhos teriam chegado a cerca de 22 por cento até um orçamento de cinco milhões de tokens. Em cibersegurança, The Decoder relata que cerca de 8 por cento das tarefas só foram resolvidas quando os orçamentos excederam 10 milhões de tokens, com algumas exigindo 50 milhões de tokens e modelos mais novos indo além em orçamentos acima de 100 milhões.

Esse padrão sustenta um ponto metodológico mais amplo. Se os organizadores de benchmarks encerram as execuções cedo demais, parte das tarefas difíceis será registrada como falha mesmo quando o modelo poderia resolvê-las com mais compute. Nessa leitura, a pontuação de um benchmark passa a depender fortemente da escolha do orçamento, em vez de ser uma medida estável de capacidade.

O instituto também teria encontrado variação importante por domínio. No HealthBench, que The Decoder descreve como um benchmark de tarefas médicas, os modelos pareceram atingir um platô dentro do orçamento padrão. Em outras palavras, mais compute não ajudou muito nesse caso. A explicação relatada é intuitiva: tokens extras são mais úteis em contextos em que um agente pode testar e verificar iterativamente seu próprio trabalho. Eles importam menos onde o feedback é escasso, ambíguo ou atrasado.

Por que os orçamentos de tokens mudam o quadro

O argumento mais consequente do estudo não é apenas que orçamentos maiores melhoram as pontuações, mas que o progresso de capacidade na fronteira pode estar avançando mais rápido do que as avaliações padrão sugerem. The Decoder relata que o instituto estimou anteriormente horizontes de tempo de modelos de fronteira em tarefas de cibersegurança com um orçamento fixo de 2,5 milhões de tokens. Quando o orçamento é ampliado para 50 milhões de tokens, a tendência de progresso parece cerca de 60 por cento mais íngreme.

Em outras palavras, o ritmo aparente de melhoria depende em parte de quanto compute os avaliadores estão dispostos a gastar. O instituto teria dito que os tempos de dobra mudam de cerca de 67 para 91 dias em uma configuração para algo em torno de 40 a 50 dias na configuração de orçamento maior. Se isso estiver correto, é um grande alerta para qualquer pessoa que use benchmarks de orçamento fixo para acompanhar escalada de risco ou prontidão comercial.

O UK AI Security Institute também relaciona o uso de tokens à duração da tarefa. Com base em 211 tarefas de engenharia de software do METR e 78 tarefas de cibersegurança de seus próprios testes, o instituto teria encontrado uma relação de lei de potência entre quanto tempo um especialista humano levaria e quantos tokens um agente de IA tende a consumir. Uma tarefa que leva um minuto pode exigir milhares de tokens; uma hora pode exigir milhões; uma semana pode exigir bilhões.

Essa relação ajuda a explicar por que orçamentos fixos excluem sistematicamente trabalhos de longo horizonte. Um benchmark pode conter tarefas que, em princípio, são solucionáveis por um modelo, mas não dentro do gasto alocado. The Decoder cita uma tarefa de cibersegurança chamada “The Last Ones”, estimada em cerca de 20 horas para um especialista humano, em que nenhum modelo testado teria tido sucesso abaixo de 30 milhões de tokens.

Para quem desenvolve, isso lembra que “falha do agente” muitas vezes combina pelo menos três fatores: habilidade do modelo, acesso a ferramentas e orçamento de inferência. Tratar todas as falhas como limites de capacidade pode gerar decisões de produto enganosas.

Modelos mais novos parecem se beneficiar mais

Outro resultado notável é que sistemas de fronteira mais novos teriam ganhado mais com compute extra do que os mais antigos. The Decoder diz que o instituto observou melhorias em três dimensões: alcance, isto é, tarefas mais difíceis se tornam solucionáveis; confiabilidade, isto é, a mesma tarefa é resolvida de forma mais consistente; e eficiência, isto é, são necessários menos tokens para um resultado dado.

Os números de horizonte temporal relatados tornam isso concreto. O horizonte de um modelo de fronteira atual em tarefas de cibersegurança subiu de cerca de 40 minutos com 2,5 milhões de tokens para aproximadamente quatro horas com 50 milhões de tokens, segundo o relato de The Decoder sobre o estudo. Na fronteira mais ampla, o horizonte passou de cerca de duas horas para aproximadamente 14 horas no orçamento mais alto.

Isso não significa que todo progresso seja suave ou monotônico. O instituto teria encontrado que, em cerca de 10 a 30 por cento das tarefas, modelos mais novos tiveram desempenho pior do que predecessores. Essa ressalva importa porque contesta uma narrativa simplista de “mais recente = melhor em tudo”. Para equipes de produto, o resultado reforça a necessidade de testes específicos por tarefa, em vez de depender de uma marca genérica de modelo.

Ainda assim, se modelos mais novos extraem valor desproporcional de orçamentos maiores de compute, práticas de avaliação baseadas em suposições antigas de custo podem se tornar cada vez mais defasadas. A queda nos custos de inferência pode tornar execuções de alto orçamento mais acessíveis ao longo do tempo, permitindo que capacidades que hoje parecem caras demais surjam em produtos e fluxos de trabalho comuns.

Evidências, limites e quanto de confiança depositar nas alegações

Esta história se baseia principalmente na reportagem de The Decoder sobre um estudo do UK AI Security Institute, e não em um artigo de pesquisa ou publicação do instituto fornecidos diretamente no conjunto de fontes aqui. Isso significa que os números específicos de benchmark, limiares de tokens e estimativas de horizonte temporal devem ser tratados como achados relatados, e não como algo verificado de forma independente pela Creati.ai a partir de materiais originais.

Mesmo assim, as alegações são plausíveis em termos de direção e consistentes internamente. Qualquer pessoa que tenha trabalhado com agentes de IA em tarefas de programação ou segurança já viu que execuções mais longas podem desbloquear resultados melhores, especialmente quando o sistema consegue testar hipóteses, inspecionar erros e tentar novamente. O que o instituto parece acrescentar é um argumento estruturado de que o desenho do benchmark está enviesando as medições sistematicamente para baixo.

Também há limites importantes para os achados. Primeiro, os ganhos não são universais, como sugere o resultado relatado do HealthBench. Segundo, orçamentos maiores de tokens aumentam os custos, elevam a latência e podem abrir mais espaço para busca improdutiva. Terceiro, desempenho em benchmark sob compute expandido não é o mesmo que desempenho de produção confiável sob restrições corporativas.

O UK AI Security Institute teria passado a usar múltiplos orçamentos e a buscar “orçamentos mínimos informativos”, nos quais o desempenho deixa de melhorar de forma material. É um conceito útil, mas ainda deixa em aberto questões sobre padrões operacionais. Compradores não querem apenas saber a capacidade máxima; eles precisam saber a capacidade com custo, velocidade e risco aceitáveis.

O que isso significa para agentes de IA e IA corporativa

Para equipes que constroem agentes de IA, a mensagem é direta: a escolha do benchmark já não é suficiente. O desenho da avaliação precisa incluir varreduras de orçamento, especialmente para fluxos de trabalho em engenharia de software, operações cibernéticas e outros domínios que usam ferramentas. Um modelo que parece medíocre com um orçamento de tentativa única pode se tornar viável quando recebe mais tempo para raciocinar ou mais chances de retentativa.

Para compradores de IA corporativa, isso complica comparações entre fornecedores. Dois provedores podem citar vitórias em benchmarks que não são diretamente comparáveis se foram alcançadas sob tetos de compute diferentes. As equipes de aquisição deveriam pedir não apenas pontuações em SWE-Bench Pro, TerminalBench 2.0 ou HealthBench, mas também os orçamentos de tokens, a latência, as políticas de retentativa e as permissões de ferramentas usadas para produzi-las.

Para o trabalho de segurança e política, o estudo toca em um ponto ainda mais sensível. Se avaliações de capacidade nociva em cibersegurança estão sendo conduzidas sob orçamentos que truncam o desempenho, as avaliações de risco podem ficar atrás da realidade implantável. O foco do UK AI Security Institute em tarefas de cibersegurança sugere que a questão não é apenas acadêmica. A capacidade de alto orçamento pode se tornar alcançável no mundo real à medida que a inferência fica mais barata e as ferramentas de orquestração melhoram.

A implicação mais ampla para o mercado é que a avaliação talvez precise migrar de pontuações estáticas para curvas de capacidade. Isso será mais bagunçado e caro do que os rankings atuais, mas pode refletir melhor como os modelos de fronteira são realmente usados dentro de produtos.

O que observar a seguir

O próximo sinal importante é se o UK AI Security Institute publicar o artigo subjacente, os métodos e as configurações de benchmark com detalhe suficiente para reprodução externa. Sem isso, a afirmação principal continuará importante, mas mais difícil de auditar.

Um segundo sinal é a adoção por mantenedores de benchmarks e laboratórios. Se testes como SWE-Bench Pro, Humanity's Last Exam ou HealthBench começarem a reportar desempenho em faixas de orçamento em vez de números únicos, o argumento do instituto terá influência imediata.

Terceiro, observe os fornecedores de modelos. Se os laboratórios começarem a enfatizar curvas de desempenho condicionadas ao orçamento em vez de estimativas pontuais, isso indicará que o mercado aceita que o compute em tempo de teste faz parte da capacidade, e não apenas de uma configuração de execução.

Por fim, observe os preços e padrões de implantação corporativa. À medida que os custos de tokens caem, mais clientes podem escolher agentes de IA de execução mais longa para fluxos de programação e cibersegurança. Se isso acontecer, a diferença entre “capacidade de benchmark” e “capacidade implantada” pode diminuir rapidamente.

Perspectiva da Creati.ai

O UK AI Security Institute está destacando um ponto cego que a indústria de IA tolerou porque benchmarks de número único são fáceis de publicar e comparar. Mas agentes de IA não são preditores estáticos. Eles são sistemas que buscam, verificam e se recuperam de erros, e esses comportamentos são fortemente moldados por quanto compute podem consumir.

Para quem desenvolve e compra, a conclusão prática não é “sempre gastar mais tokens”. É que a avaliação precisa refletir o regime operacional com o qual você realmente se importa. Em engenharia de software e cibersegurança, onde agentes de IA podem se beneficiar de iteração e feedback, o orçamento faz parte do produto. Se a prática de benchmark não conseguir capturar isso, tanto as decisões comerciais quanto os julgamentos de segurança continuarão chegando tarde.