
В быстро развивающейся области искусственного интеллекта (Generative AI) показатели производительности традиционно фокусировались на навыках программирования, математических рассуждениях или творческом письме. Однако новаторское исследование исследователей из Принстона сместило парадигму в сторону долгосрочного операционного управления. Проект, получивший название CEO-Bench, выявил отрезвляющую реальность: из всех протестированных ведущих больших языковых моделей (LLM) только три смогли справиться со сложностями 500-дневной симуляции стартапа, не исчерпав свой первоначальный капитал.
Это исследование подчеркивает критический пробел в текущей разработке ИИ — способность поддерживать последовательное, ориентированное на достижение целей принятие решений в течение длительного времени. Поскольку ИИ начинает переходить от цифрового помощника к автономному агенту, способному управлять сложными рабочими процессами, результаты этой симуляции служат важным сигналом как для разработчиков, так и для энтузиастов.
Система CEO-Bench была разработана не для проверки статических знаний, а для измерения «коэффициента выживаемости предпринимателя» у модели. Исследователи поставили перед различными современными моделями ИИ задачи по симулированным руководящим ролям, включая распределение ресурсов, адаптацию к рынку и реагирование на кризисные ситуации.
Среда представляла собой 500-дневный жизненный цикл фиктивного стартапа. Чтобы добиться успеха, модели нужно было сбалансировать рост, операционные расходы и неожиданную волатильность рынка. Если банковский счет стартапа опускался до нуля, имитируя банкротство, модель проваливала тест. Сложность этого испытания заключается в необходимости долгосрочного планирования — области, в которой многие современные архитектуры нейронных сетей до сих пор испытывают трудности.
В следующей таблице представлены показатели выживаемости моделей, участвовавших в исследовании, основанные на их способности поддерживать положительный баланс собственного капитала на протяжении 500-дневной симуляции.
| Финансовые показатели | Риск банкротства | Операционная эффективность |
|---|---|---|
| Claude Fable 5 | Низкий | Высокая |
| Claude Opus 4.8 | Умеренный | Высокая |
| GPT-5.5 | Низкий | Стабильная |
| Другие протестированные LLM | Высокий | Отказ |
Как показывают данные, грань между успехом и неудачей очень тонка. Хотя большинство моделей продемонстрировали отличное техническое понимание концепций стартапа, им не хватило стратегической последовательности, необходимой для выживания в течение всего периода.
Случаи провала среди моделей, не справившихся с задачей, редко были вызваны одной катастрофической ошибкой. Вместо этого исследователи выявили несколько повторяющихся паттернов, которые привели к банкротству симулированных компаний:
Более того, исследование показало, что «интеллекта» в вакууме недостаточно для бизнеса. Успешные модели, такие как Claude Fable 5 и GPT-5.5, продемонстрировали врожденную способность отдавать приоритет долгосрочной устойчивости, а не краткосрочной выгоде, имитируя поведение, свойственное институциональному операционному мышлению.
Тот факт, что только три модели прошли симуляцию в Принстоне, имеет серьезные последствия для будущего ИИ в корпоративной среде. Это говорит о том, что, достигнув замечательной беглости речи и технической компетенции, мы все еще совершенствуем «агентные» возможности, необходимые для профессиональных ролей с высокой степенью ответственности.
Результаты исследования CEO-Bench в Принстоне представляют собой важную веху в развитии агентов ИИ. Мы выходим за пределы эпохи чат-ботов в эпоху автономных агентов. Для компаний, стремящихся интегрировать ИИ в управление или планирование, эти результаты являются напоминанием о том, что технология все еще находится на начальной стадии институциональной устойчивости.
В Creati.ai мы верим, что уроки, извлеченные из этой 500-дневной симуляции, послужат толчком для следующей волны улучшений в архитектуре моделей. По мере того как эти системы будут лучше сохранять фокус и управлять ресурсами под давлением, мы, несомненно, увидим сдвиг в способах их развертывания: от простой эффективности бэк-офиса к ролям, требующим подлинной, долгосрочной стратегической проницательности.
Марафон к по-настоящему автономному ИИ только начинается, и на данный момент лидеры гонки — Claude и GPT-5.5 — установили высокую планку, которой предстоит следовать остальной индустрии.