
OpenAI представила GeneBench-Pro — новый бенчмарк, предназначенный для проверки того, могут ли ИИ-системы делать больше, чем просто выполнять стандартные аналитические скрипты в биологии. По словам компании, бенчмарк нацелен на более сложную часть вычислительных исследований: принятие решений в условиях неопределенности, пересмотр предположений по мере изменения доказательств и определение того, когда ответ достаточно надежен для последующего научного или клинического решения.
Запуск важен, потому что многие оценки ИИ по-прежнему вознаграждают воспроизведение данных, беглость в коде или успех в жестко заданных задачах. OpenAI утверждает, что реальная биологическая работа выглядит иначе. В описании GeneBench-Pro компания говорит, что ученые часто сталкиваются с запутанными данными, неполными сигналами и несколькими равнообоснованными аналитическими путями. Это делает геномику и трансляционные исследования полезным стресс-тестом для ИИ-агентов, которые заявляют о поддержке ценных экспертных рабочих процессов.
OpenAI описывает GeneBench-Pro как расширенного преемника GeneBench, охватывающего более сложные задачи в геномике, количественной биологии и трансляционной медицине. Бенчмарк содержит 129 вопросов, каждый из которых оформлен как самостоятельная задача анализа. Модели получают короткий промпт, файлы с данными и доступ к ограниченному рабочему пространству с Python и стандартным научным стеком, включая такие инструменты, как PLINK 2.0.
Компания говорит, что каждая задача построена вокруг того, что она называет «research taste» — последовательности аналитических суждений, необходимых для решения, что позволяют данные, какие методы уместны и когда исходный план следует изменить. Это заметный сдвиг в подходе по сравнению со многими ИИ-бенчмарками, которые обычно фокусируются на том, может ли модель воспроизвести известную процедуру, а не определить правильную процедуру с самого начала.
Чтобы обеспечить внешнюю проверку, OpenAI заявляет, что выкладывает в open source 10 репрезентативных задач на Hugging Face и планирует передать Artificial Analysis 50-вопросную подвыборку для стороннего бенчмаркинга. Отдельная страница с кейс-стади описывает примерные задачи, включая оценку эффекта лечения в синтетическом онкологическом регистре, оценку кажущейся зависимости lncRNA по данным CRISPRi и оценку эффекта заболевания с использованием cis-MVMR. Эти примеры должны показать диапазон рабочих процессов, включенных в GeneBench-Pro, а не узкую фокусировку на одном биологическом поддомене.
Основная техническая идея GeneBench-Pro заключается в том, что он избегает распространенных слабых мест длинных научных бенчмарков. OpenAI говорит, что исторические реальные датасеты могут создавать проблемы с оцениванием, поскольку несколько разумных аналитических решений могут привести к немного разным ответам, а плохо спроектированные задачи также могут позволить моделям проходить тесты, несмотря на серьезные методологические ошибки.
Решение компании заключалось в создании синтетических бенчмарк-задач с контролем всего процесса генерации данных. По словам OpenAI, это позволяет создателям бенчмарка знать причинно-следственную структуру, настраивать сложность, проверять, что правильные подходы работают, и через абляции проверять, что правдоподобные, но неверные подходы проваливаются. Компания также утверждает, что провела аудит черновиков задач на предмет утечек информации и непреднамеренных обходных путей.
Такой выбор дизайна важен для оценки ИИ. В кодинге детерминированная проверка сравнительно проста, потому что код либо проходит тесты, либо нет. В научном анализе, особенно в вычислительной биологии, успех чаще определяется качеством вывода, а не точным воспроизведением канонической последовательности шагов. По сути, OpenAI пытается создать бенчмарк, который сохраняет неопределенность исследовательской работы, но при этом позволяет проводить детерминированный скоринг.
Компания также заявляет, что 82 из 129 вопросов были проверены внешними экспертами в предметной области, включая аспирантов, постдоков, отраслевых ученых и профессоров. Рецензенты оценивали реалистичность, идентифицируемость целевого ответа и то, подходят ли методы и оцениватели, а обратная связь использовалась для доработки задач. Это не делает бенчмарк автоматически нейтральным, но указывает на то, что OpenAI пытается заранее снять критику о том, что задачи отражают только внутренние допущения.
Главный результат OpenAI заключается в том, что ее модель GPT-5.6 Sol достигла 28,7% успешного прохождения GeneBench-Pro на самом высоком уровне рассуждений, а с включенным режимом Pro показатель вырос до 31,5%. Компания противопоставляет это, по ее словам, результату ниже 5% у GPT-5, когда она только начинала разрабатывать более ранний бенчмарк GeneBench.
OpenAI также утверждает, что вычисления во время теста имеют большое значение. На самом низком уровне рассуждений GPT-5.6 Sol, как сообщается, показывает результат лишь в однозначных процентах, тогда как на самом высоком уровне рассуждений он решает почти в шесть раз больше вопросов, чем GPT-5.2, при этом используя примерно на две трети меньше токенов. Если это подтвердится независимо, такой результат будет важен для продуктовых команд, которым нужно балансировать задержку и стоимость против качества в развертываниях экспертных агентов.
Компания также утверждает, что системы GPT, по-видимому, сильнее ведущих open-source альтернатив в такого рода количественном научном мышлении. В публикации OpenAI отдельно упоминает GLM 5.2 как ведущий open-source ориентир и заявляет, что разрыв на GeneBench-Pro больше, чем можно было бы ожидать только по кодинговым бенчмаркам.
Но это результаты, предоставленные вендором, полученные на бенчмарке, разработанном самой OpenAI. OpenAI признает, что в процессе разработки использовались frontier GPT-модели для оценки и усиления задач, и говорит, что сначала подозревала возможную предвзятость бенчмарка против GPT-моделей по сравнению с другими семействами. Вывод компании состоит в том, что конкуренты все же лишь, в лучшем случае, сравнялись с соответствующей GPT-моделью, доступной на тот момент. Тем не менее, пока Artificial Analysis или другие внешние группы не опубликуют независимые прогоны, наиболее сильные сравнительные заявления следует считать предварительными.
Для разработчиков GeneBench-Pro подчеркивает практическую проблему ИИ-агентов: успех в бенчмарках по кодингу или вопрос-ответу может не переноситься напрямую в области, где задача состоит в выборе анализа, который нужно провести. Команды, создающие научных ассистентов, инструменты для медицинских исследований или внутренние copilots для лабораторий, часто обнаруживают, что самые серьезные сбои происходят до этапа выполнения. Модель может писать правильный Python, но выбрать неправильный оцениваемый параметр, проигнорировать смешивающий фактор или чрезмерно уверенно интерпретировать слабые данные.
OpenAI позиционирует GeneBench-Pro как способ измерять именно такие сбои. Если такая рамка получит распространение, это может сместить ИИ-оценку в сторону системных тестов суждения, а не более узких unit-тестов. Это было бы важно не только для биологии, но и для корпоративных сценариев ИИ, где обычны неопределенность, частичная наблюдаемость и переработка рабочих процессов.
Для корпоративных покупателей в биотехе и фарме релиз полезнее как сигнал, чем как быстрый путь к закупке. Сама OpenAI говорит, что нынешние ИИ-агенты все еще слишком ненадежны, чтобы заменить человеческих экспертов. В то же время компания утверждает, что экономику уже трудно игнорировать: по оценке рецензентов, типичная задача GeneBench-Pro может занять у эксперта-человека 20–40 часов, тогда как стоимость инференса модели составляет лишь несколько долларов за задачу. Эти цифры — это подача OpenAI, а не независимо подтвержденная модель ROI, но они показывают, где покупатели могут увидеть пользу в первую очередь: сортировка, exploratory analysis или черновая аналитическая работа, которая остается под контролем эксперта.
Бенчмарк также вписывается в более широкое движение к ИИ-агентам, способным работать в предметно-специфических программных средах, а не только в чат-окнах. Используя реалистичное рабочее пространство с Python и пакетами для биоинформатики, GeneBench-Pro соответствует тому, как многие разработчики сейчас мыслят о развертываемых агентах: системах, использующих инструменты, которые работают с файлами, кодом и итеративными циклами рассуждений.
База доказательств здесь — прежде всего собственное объявление OpenAI и материалы с кейс-стади. Это означает, что основные факты о дизайне бенчмарка, структуре датасета, размере в 129 вопросов, использовании синтетической генерации и заявленных результатах GPT-5.6 Sol исходят от самого вендора.
Некоторые элементы выглядят сильнее других. Само существование бенчмарка, планируемый выпуск 10 задач на Hugging Face и грядущая 50-вопросная подвыборка для Artificial Analysis — это конкретные и проверяемые вещи. Процесс внешней экспертной проверки также является значимым сигналом доверия, хотя в представленном здесь источнике анонс не дает полного публичного разбора результатов работы рецензентов.
Сравнительные рейтинги моделей, значимость разрыва по сравнению с кодинговыми бенчмарками и предположение, что к концу года бенчмарк может быть насыщен, — это интерпретативные утверждения OpenAI. Они могут оказаться в целом верными, но пока не являются независимым рыночным консенсусом. Аналогично, сравнение стоимости труда человеческого эксперта и инференса ИИ лучше читать как иллюстративную рамку, а не как бизнес-кейс, готовый к внедрению.
Первым конкретным сигналом будет то, даст ли релиз на Hugging Face внешним исследователям достаточно материала, чтобы изучить конструкцию GeneBench-Pro, логику оценивания и уязвимость к shortcutting. Если независимые команды смогут воспроизвести общие выводы OpenAI, бенчмарк приобретет больший вес.
Второй сигнал — запланированная передача данных в Artificial Analysis. Сторонние прогоны по GPT-моделям и системам не от OpenAI будут важнее внутренних сравнений, особенно если они покажут более узкие или, наоборот, более широкие разрывы, чем заявляет OpenAI.
Третье — стоит следить, ответят ли другие лаборатории сопоставимыми бенчмарками в wet-lab биологии, поиске лекарств или аналитике клинических исследований. Если GeneBench-Pro станет ориентиром, конкурентам придется показывать не только сильные результаты в кодинге или общем мышлении, но и предметное суждение в условиях неопределенности.
Наконец, самый важный продуктовый сигнал — будут ли улучшения по бенчмарку конвертироваться в полезные инструменты. Если будущие продукты OpenAI или партнеров начнут показывать устойчивую производительность в геномике, трансляционной медицине или более широких рабочих процессах вычислительной биологии, GeneBench-Pro будет выглядеть уже не как исследовательский артефакт, а как ранний тест готовности корпоративного ИИ к применению в науке.
GeneBench-Pro примечателен не столько текущими показателями прохождения, сколько тем, что он пытается измерить. OpenAI доказывает, что следующий узкий момент для ИИ в экспертной работе — это не сырое выполнение, а суждение: выбор правильного пути, его корректировка при изменении данных и понимание, когда не стоит делать слишком сильные выводы. Это более требовательный стандарт, чем тот, который до сих пор использовала большая часть культуры бенчмарков.
Для рынка это полезное развитие, даже если пока цифры исходят только от вендора. Создателям ИИ нужны более жесткие цели оценки для исследовательских рабочих процессов, а корпоративным покупателям нужны более надежные способы отличать отполированные демо от систем, способных выдерживать неоднозначный, высокорисковый анализ. Станет ли GeneBench-Pro стандартом, будет зависеть от внешней валидации, но он отражает важный сдвиг в ИИ — от выдачи ответов к дисциплинированному аналитическому мышлению.