
Das UK AI Security Institute argumentiert, dass eine grundlegende Annahme hinter vielen KI-Benchmark-Ergebnissen falsch ist: Die Leistungsfähigkeit von Agenten ist kein einzelner Wert, sondern ein bewegliches Ziel, das sich spürbar verändert, je nachdem, wie viel Testzeit-Rechenleistung ein Modell nutzen darf.
Laut Berichten von The Decoder über die neue Studie des Instituts testete die Behörde Frontier-Modelle anhand von sieben Benchmarks und stellte fest, dass feste Token-Budgets systematisch unterschätzen können, was KI-Agenten tatsächlich erreichen. Das ist weit mehr als eine Debatte um Leaderboards. Wenn Benchmark-Ergebnisse erfasst werden, bevor die Leistung eines Modells sich eingependelt hat, treffen Entwickler, Unternehmenskäufer und Sicherheitsprüfer ihre Entscheidungen möglicherweise auf Basis künstlich zu niedriger Werte sowohl beim Nutzen als auch beim Risiko.
Die unmittelbare Konsequenz ist praktisch. Viele Teams, die KI-Agenten für Programmierung, Cyberabwehr oder andere mehrstufige Aufgaben bewerten, verlassen sich auf Benchmark-Zahlen, um zu entscheiden, ob ein System bereit für den Einsatz ist. Die Ergebnisse des UK AI Security Institute deuten darauf hin, dass diese Zahlen eher eine Untergrenze als eine Obergrenze darstellen könnten – besonders bei Aufgaben, bei denen der Agent Zwischenschritte durch Ausführen von Code, Testen eines Exploits oder Prüfen von Ausgaben verifizieren kann.
Die zentrale Aussage des UK AI Security Institute besteht laut The Decoder darin, dass die Leistung mit der Testzeit-Rechenleistung auf eine Weise steigt, die gängige Evaluations-Setups nicht vollständig erfassen. In der Studie sollen die Erfolgsraten bei Software-Engineering-Aufgaben um etwa 25 Prozent gestiegen sein, als das Token-Budget auf zehn Millionen erhöht wurde, verglichen mit einer Million, auf Benchmarks wie TerminalBench 2.0 und SWE-Bench Pro.
Der Effekt beschränkte sich nicht auf Programmierung. Bei Mathematik- und akademischen Evaluierungen wie Humanity's Last Exam sollen die Gewinne bis zu einem Budget von fünf Millionen Tokens bei etwa 22 Prozent gelegen haben. In Cybersicherheit berichtet The Decoder, dass rund 8 Prozent der Aufgaben erst dann gelöst wurden, als die Budgets 10 Millionen Tokens überschritten, wobei einige 50 Millionen Tokens erforderten und neuere Modelle bei Budgets über 100 Millionen noch weiter nach oben gingen.
Dieses Muster stützt einen breiteren methodischen Punkt. Wenn Benchmark-Organisatoren Läufe zu früh begrenzen, wird ein Teil der schwierigen Aufgaben als Fehlschlag gewertet, obwohl das Modell sie mit mehr Rechenleistung lösen könnte. In dieser Sichtweise hängt ein Benchmark-Score stark von der Budgetentscheidung ab und ist kein stabiler Maßstab für Leistungsfähigkeit.
Das Institut soll außerdem wichtige Unterschiede je nach Domäne gefunden haben. Bei HealthBench, den The Decoder als medizinischen Aufgaben-Benchmark beschreibt, schienen Modelle innerhalb des Standardbudgets zu plateauieren. Mit anderen Worten: Mehr Rechenleistung half dort kaum. Die berichtete Erklärung ist plausibel: Zusätzliche Tokens sind vor allem in Umgebungen nützlich, in denen ein Agent seine Arbeit iterativ testen und verifizieren kann. Weniger wichtig sind sie dort, wo Rückmeldungen spärlich, unklar oder verzögert sind.
Die weitreichendere Aussage der Studie ist nicht nur, dass größere Budgets die Werte verbessern, sondern dass sich der Fähigkeitsfortschritt an der Spitze möglicherweise schneller entwickelt, als Standard-Evaluationen vermuten lassen. The Decoder berichtet, dass das Institut zuvor Zeithorizonte von Frontier-Modellen bei Cyber-Aufgaben mit einem festen Budget von 2,5 Millionen Tokens geschätzt hatte. Wird das Budget auf 50 Millionen Tokens erhöht, erscheint der Fortschrittstrend etwa 60 Prozent steiler.
Anders gesagt: Das scheinbare Tempo der Verbesserung hängt teilweise davon ab, wie viel Rechenleistung Evaluatoren bereit sind auszugeben. Laut dem Institut verschieben sich Verdopplungszeiten unter einem Setup von ungefähr 67 bis 91 Tagen auf rund 40 bis 50 Tage unter dem höher budgetierten Setup. Wenn das zutrifft, ist das ein erhebliches Warnsignal für alle, die feste Benchmarks nutzen, um Risikoanstieg oder kommerzielle Einsatzreife zu verfolgen.
Das UK AI Security Institute verknüpft Token-Nutzung auch mit der Aufgabendauer. Auf Grundlage von 211 Software-Engineering-Aufgaben von METR und 78 Cyber-Aufgaben aus eigenen Tests soll das Institut eine Potenzgesetz-Beziehung zwischen der Zeit, die ein menschlicher Experte benötigen würde, und der Token-Menge gefunden haben, die ein KI-Agent typischerweise verbraucht. Eine Aufgabe, die eine Minute dauert, kann Tausende Tokens erfordern; eine Stunde kann Millionen benötigen; eine Woche kann Milliarden verlangen.
Diese Beziehung erklärt, warum feste Budgets langfristige Arbeit systematisch ausschließen. Ein Benchmark kann Aufgaben enthalten, die ein Modell grundsätzlich lösen könnte, aber nicht innerhalb des zugeteilten Aufwands. The Decoder verweist auf eine Cyber-Aufgabe namens „The Last Ones“, die auf etwa 20 Stunden für einen menschlichen Experten geschätzt wurde und bei der angeblich kein getestetes Modell unter 30 Millionen Tokens erfolgreich war.
Für Entwickler erinnert das daran, dass „Agentenfehler“ oft mindestens drei Faktoren umfassen: Modellfähigkeit, Werkzeugzugang und Inferenzbudget. Wer alle Fehlschläge als Fähigkeitsgrenzen behandelt, kann zu irreführenden Produktentscheidungen gelangen.
Ein weiteres bemerkenswertes Ergebnis ist, dass neuere Frontier-Systeme angeblich stärker von zusätzlicher Rechenleistung profitieren als ältere. The Decoder zufolge beobachtete das Institut Verbesserungen in drei Dimensionen: Reichweite, also dass schwierigere Aufgaben lösbar werden; Zuverlässigkeit, also dass dieselbe Aufgabe konsistenter gelöst wird; und Effizienz, also dass für ein gegebenes Ergebnis weniger Tokens benötigt werden.
Die berichteten Zeithorizont-Zahlen machen das konkret. Der Zeithorizont eines aktuellen Frontier-Modells bei Cyber-Aufgaben stieg laut The Decoder von etwa 40 Minuten bei 2,5 Millionen Tokens auf ungefähr vier Stunden bei 50 Millionen Tokens. Über die breitere Frontier hinweg verschob sich der Horizont bei dem höheren Budget von etwa zwei Stunden auf rund 14 Stunden.
Das bedeutet nicht, dass Fortschritt überall glatt oder monoton verläuft. Das Institut soll bei etwa 10 bis 30 Prozent der Aufgaben festgestellt haben, dass neuere Modelle schlechter abschnitten als Vorgänger. Diese Einschränkung ist wichtig, weil sie einer vereinfachenden „je neuer, desto besser“-Erzählung entgegenwirkt. Für Produktteams unterstreicht das die Notwendigkeit aufgabenspezifischer Tests statt des Verlassens auf allgemeines Modell-Branding.
Wenn neuere Modelle jedoch einen überproportionalen Nutzen aus größeren Rechenbudgets ziehen, könnten Evaluationspraktiken, die auf älteren Kostenannahmen beruhen, zunehmend veraltet sein. Sinkende Inferenzkosten könnten hochbudgetierte Läufe im Laufe der Zeit zugänglicher machen und so Fähigkeiten, die derzeit zu teuer erscheinen, in gewöhnlichen Produkten und Workflows hervortreten lassen.
Diese Geschichte beruht vor allem auf der Berichterstattung von The Decoder über eine Studie des UK AI Security Institute und nicht auf einem direkt vorliegenden Forschungspapier oder einer Institutspublikation in der hier zugrunde liegenden Quellensammlung. Das bedeutet, dass die konkreten Benchmark-Werte, Token-Schwellen und Zeithorizont-Schätzungen als berichtete Ergebnisse zu behandeln sind und nicht als von Creati.ai unabhängig anhand des Originalmaterials verifiziert.
Dennoch sind die Aussagen in ihrer Richtung plausibel und intern konsistent. Wer mit KI-Agenten bei Programmier- oder Sicherheitsaufgaben gearbeitet hat, hat gesehen, dass längere Läufe bessere Ergebnisse ermöglichen können, insbesondere wenn das System Hypothesen testen, Fehler untersuchen und erneut versuchen kann. Was das Institut offenbar hinzufügt, ist ein strukturierter Befund, dass das Benchmark-Design die Messungen systematisch nach unten verzerrt.
Es gibt auch wichtige Grenzen der Ergebnisse. Erstens sind die Gewinne nicht universell, wie das berichtete HealthBench-Ergebnis nahelegt. Zweitens erhöhen höhere Token-Budgets die Kosten, steigern die Latenz und können mehr Raum für unproduktive Suche schaffen. Drittens ist Benchmark-Leistung unter erweitertem Rechenaufwand nicht dasselbe wie verlässliche Produktionsleistung unter Unternehmensbedingungen.
Das UK AI Security Institute verwendet laut Bericht inzwischen mehrere Budgets und sucht nach „minimal informativen Budgets“, bei denen sich die Leistung nicht mehr materiell verbessert. Das ist ein nützliches Konzept, lässt aber weiterhin Fragen zu operativen Standards offen. Käufer wollen nicht nur die maximale Leistungsfähigkeit wissen; sie müssen die Fähigkeit bei akzeptablen Kosten, angemessener Geschwindigkeit und vertretbarem Risiko kennen.
Für Teams, die KI-Agenten bauen, ist die Botschaft klar: Die Auswahl des Benchmarks reicht nicht mehr aus. Das Evaluationsdesign muss Budget-Sweeps einbeziehen, besonders für Workflows in Software-Engineering, Cyber-Operationen und anderen Werkzeug-nutzenden Domänen. Ein Modell, das unter einem Einmal-Durchlauf-Budget mittelmäßig aussieht, kann brauchbar werden, wenn es länger nachdenken oder häufiger erneut versuchen darf.
Für Enterprise-AI-Käufer erschwert das die Anbieter-Vergleiche. Zwei Anbieter können Benchmark-Erfolge anführen, die nicht direkt vergleichbar sind, wenn sie unter unterschiedlichen Rechenobergrenzen erzielt wurden. Einkaufsteams sollten nicht nur nach Scores auf SWE-Bench Pro, TerminalBench 2.0 oder HealthBench fragen, sondern auch nach den dafür verwendeten Token-Budgets, Latenzen, Wiederholungsrichtlinien und Werkzeugberechtigungen.
Für Sicherheits- und Politikarbeit trifft die Studie einen noch sensibleren Punkt. Wenn Bewertungen schädlicher Fähigkeiten in der Cybersicherheit unter Budgets durchgeführt werden, die die Leistung abbrechen, könnten Risikobewertungen der real einsetzbaren Praxis hinterherhinken. Der Fokus des UK AI Security Institute auf Cyber-Aufgaben deutet darauf hin, dass es sich nicht bloß um ein akademisches Problem handelt. Hochbudgetierte Fähigkeiten könnten in der realen Welt erreichbar werden, wenn Inferenz günstiger und Orchestrierungswerkzeuge besser werden.
Die breitere Marktimplikation ist, dass sich die Evaluation von statischen Scores hin zu Fähigkeitskurven verschieben könnte. Das wäre unübersichtlicher und teurer als heutige Leaderboards, würde aber möglicherweise besser widerspiegeln, wie Frontier-Modelle tatsächlich in Produkten eingesetzt werden.
Das nächste wichtige Signal ist, ob das UK AI Security Institute das zugrunde liegende Paper, die Methoden und die Benchmark-Konfigurationen in ausreichender Detailtiefe veröffentlicht, damit sie von außen repliziert werden können. Ohne das bleibt die zentrale Aussage wichtig, aber schwerer zu überprüfen.
Ein zweites Signal ist die Übernahme durch Benchmark-Betreiber und Labore. Wenn Tests wie SWE-Bench Pro, Humanity's Last Exam oder HealthBench beginnen, die Leistung über Budget-Spannen statt als einzelne Zahlen auszuweisen, wird die Argumentation des Instituts unmittelbaren Einfluss haben.
Drittens lohnt sich ein Blick auf Modellanbieter. Wenn Labs beginnen, budgetabhängige Leistungskurven statt Punkt-Schätzungen zu betonen, zeigt das, dass der Markt akzeptiert, dass Testzeit-Rechenleistung Teil der Fähigkeit ist und nicht nur eine Laufzeiteinstellung.
Schließlich sollte man Preis- und Bereitstellungsmodelle in Unternehmen beobachten. Wenn die Token-Kosten sinken, könnten mehr Kunden länger laufende KI-Agenten für Programmier- und Cyber-Workflows wählen. Wenn das passiert, könnte sich der Unterschied zwischen „Benchmark-Fähigkeit“ und „eingesetzter Fähigkeit“ schnell verringern.
Das UK AI Security Institute weist auf einen blinden Fleck hin, den die KI-Branche toleriert hat, weil sich Ein-Zahlen-Benchmarks leicht veröffentlichen und vergleichen lassen. Aber KI-Agenten sind keine statischen Vorhersagesysteme. Sie sind Systeme, die suchen, verifizieren und sich von Fehlern erholen, und dieses Verhalten wird stark davon geprägt, wie viel Rechenleistung sie verbrauchen dürfen.
Für Entwickler und Käufer ist die praktische Schlussfolgerung nicht: „Immer mehr Tokens ausgeben.“ Vielmehr muss die Evaluation den Betriebsmodus widerspiegeln, der tatsächlich relevant ist. In Software-Engineering und Cybersicherheit, wo KI-Agenten von Iteration und Feedback profitieren können, ist das Budget Teil des Produkts. Wenn Benchmark-Praxis das nicht erfasst, werden kommerzielle Entscheidungen und Sicherheitsurteile weiter zu spät kommen.