Только три ИИ-модели пережили 500-дневную симуляцию стартапа Принстона

Тест на устойчивость: может ли ИИ управлять компанией 500 дней?

В быстро развивающейся области искусственного интеллекта (Generative AI) показатели производительности традиционно фокусировались на навыках программирования, математических рассуждениях или творческом письме. Однако новаторское исследование исследователей из Принстона сместило парадигму в сторону долгосрочного операционного управления. Проект, получивший название CEO-Bench, выявил отрезвляющую реальность: из всех протестированных ведущих больших языковых моделей (LLM) только три смогли справиться со сложностями 500-дневной симуляции стартапа, не исчерпав свой первоначальный капитал.

Это исследование подчеркивает критический пробел в текущей разработке ИИ — способность поддерживать последовательное, ориентированное на достижение целей принятие решений в течение длительного времени. Поскольку ИИ начинает переходить от цифрового помощника к автономному агенту, способному управлять сложными рабочими процессами, результаты этой симуляции служат важным сигналом как для разработчиков, так и для энтузиастов.

Методология: проверка искусственного интеллекта в роли генерального директора

Система CEO-Bench была разработана не для проверки статических знаний, а для измерения «коэффициента выживаемости предпринимателя» у модели. Исследователи поставили перед различными современными моделями ИИ задачи по симулированным руководящим ролям, включая распределение ресурсов, адаптацию к рынку и реагирование на кризисные ситуации.

Среда представляла собой 500-дневный жизненный цикл фиктивного стартапа. Чтобы добиться успеха, модели нужно было сбалансировать рост, операционные расходы и неожиданную волатильность рынка. Если банковский счет стартапа опускался до нуля, имитируя банкротство, модель проваливала тест. Сложность этого испытания заключается в необходимости долгосрочного планирования — области, в которой многие современные архитектуры нейронных сетей до сих пор испытывают трудности.

Иерархия производительности

В следующей таблице представлены показатели выживаемости моделей, участвовавших в исследовании, основанные на их способности поддерживать положительный баланс собственного капитала на протяжении 500-дневной симуляции.

Финансовые показатели	Риск банкротства	Операционная эффективность
Claude Fable 5	Низкий	Высокая
Claude Opus 4.8	Умеренный	Высокая
GPT-5.5	Низкий	Стабильная
Другие протестированные LLM	Высокий	Отказ

Как показывают данные, грань между успехом и неудачей очень тонка. Хотя большинство моделей продемонстрировали отличное техническое понимание концепций стартапа, им не хватило стратегической последовательности, необходимой для выживания в течение всего периода.

Анализ: почему большинство моделей потерпели неудачу

Случаи провала среди моделей, не справившихся с задачей, редко были вызваны одной катастрофической ошибкой. Вместо этого исследователи выявили несколько повторяющихся паттернов, которые привели к банкротству симулированных компаний:

Чрезмерный риск: модели часто вкладывали капитал в стратегии роста с высоким уровнем риска, не готовясь к спадам на рынке, что приводило к быстрому расходу денежных средств.
Отсутствие упорства: столкнувшись с падением выручки, некоторые модели пытались постоянно «совершать пивот» (резко менять стратегию), вместо того чтобы совершенствовать существующие стратегии, что вызывало операционную нестабильность.
Ограничения контекстного окна: управление компанией в течение 500 виртуальных дней требует отслеживания огромной истории взаимодействий и решений. Модели, которые теряли из виду ограничения ранних этапов, быстро сбивались с курса.

Более того, исследование показало, что «интеллекта» в вакууме недостаточно для бизнеса. Успешные модели, такие как Claude Fable 5 и GPT-5.5, продемонстрировали врожденную способность отдавать приоритет долгосрочной устойчивости, а не краткосрочной выгоде, имитируя поведение, свойственное институциональному операционному мышлению.

Преодоление разрыва: что это значит для будущего ИИ

Тот факт, что только три модели прошли симуляцию в Принстоне, имеет серьезные последствия для будущего ИИ в корпоративной среде. Это говорит о том, что, достигнув замечательной беглости речи и технической компетенции, мы все еще совершенствуем «агентные» возможности, необходимые для профессиональных ролей с высокой степенью ответственности.

Приоритеты будущего развития

Итеративное планирование: архитектуры будущего должны отдавать приоритет управлению памятью, чтобы удерживать в фокусе сложные многоуровневые бизнес-цели.
Устойчивость к волатильности: обучающие данные должны включать больше сценариев «стресс-тестирования», чтобы помочь моделям понимать влияние внешних экономических сдвигов.
Интеграция управления: симуляция подчеркивает необходимость работы ИИ в рамках строгих граничных условий, обеспечивая, чтобы рост не приносил в жертву основные параметры организации.

Заключение: путь вперед

Результаты исследования CEO-Bench в Принстоне представляют собой важную веху в развитии агентов ИИ. Мы выходим за пределы эпохи чат-ботов в эпоху автономных агентов. Для компаний, стремящихся интегрировать ИИ в управление или планирование, эти результаты являются напоминанием о том, что технология все еще находится на начальной стадии институциональной устойчивости.

В Creati.ai мы верим, что уроки, извлеченные из этой 500-дневной симуляции, послужат толчком для следующей волны улучшений в архитектуре моделей. По мере того как эти системы будут лучше сохранять фокус и управлять ресурсами под давлением, мы, несомненно, увидим сдвиг в способах их развертывания: от простой эффективности бэк-офиса к ролям, требующим подлинной, долгосрочной стратегической проницательности.

Марафон к по-настоящему автономному ИИ только начинается, и на данный момент лидеры гонки — Claude и GPT-5.5 — установили высокую планку, которой предстоит следовать остальной индустрии.