Bridgewater говорит, что дообученная модель Qwen обошла GPT и Claude в закрытых финансовых задачах, обучаясь на суждениях, которых не было в интернете

Bridgewater и Thinking Machines Lab заявляют, что создали систему анализа финансовых документов, которая превзошла ведущие коммерческие ИИ-модели в внутренних тестовых задачах хедж-фонда, используя то, чего нет у поставщиков frontier-моделей: проприетарные примеры инвесторских суждений.

Согласно материалу The Decoder об анализе компаний, система построена на базе Qwen3-235B и была дообучена на внутренних рабочих процессах в финансах с использованием меток, исправленных инвесторами Bridgewater. В сообщаемых результатах модель достигла точности 84,7 процента в шести классификационных задачах финансовой направленности против 78,2 процента у лучшей протестированной «frontier model», при этом стоила почти в 14 раз меньше в эксплуатации. Если эти цифры подтвердятся вне собственных тестов компаний, история будет не столько о победе в одном бенчмарке, сколько о более широком уроке корпоративного ИИ: в специализированной работе недостающим ингредиентом может быть не более крупная базовая модель, а доступ к закрытым ответам и закрытой экспертизе.

Что, по словам Bridgewater и Thinking Machines Lab, они построили

Сообщаемый проект появился благодаря AIA Labs Bridgewater, работавшей вместе с Thinking Machines Lab — стартапом, основанным бывшим CTO OpenAI Мирой Мурати. Их целью были не общие инвестиционные исследования, а более узкая операционная проблема внутри финансовых команд: быстро определять, что важно, в потоке входящего текста.

The Decoder пишет, что команды определили шесть задач, взятых из повседневной работы инвесторов. Среди них были определение того, релевантна ли финансовая статья для руководителя, и указывает ли документ центрального банка на будущую траекторию ставок. Смысл, как описано в отчете, на который ссылается The Decoder, заключался в автоматизации повторяющихся экспертных суждений, которые опытным инвесторам легко даются, но трудно формализуются в явные письменные правила.

Этот подход важен. Речь не о классических публичных бенчмарках, где ответ можно вытащить из интернета или восстановить по существующим датасетам. «Правильный» ответ зависит от собственного определения релевантности, значимости и применимости внутри конкретной организации. В этом смысле Bridgewater проверяла, может ли ИИ-система освоить внутренний вкус и внутренние критерии принятия решений, а не просто публичные финансовые знания.

Как сообщается, инфраструктура работала на Tinker — платформе Thinking Machines Lab для разработки на открытых моделях, — а в качестве базовой модели использовалась Qwen3-235B. Использование модели с открытыми весами — центральная часть предложения: компании могут держать данные, настройку модели и, потенциально, вычисления под собственным контролем, а не отправлять чувствительную информацию во внешний API-процесс.

Почему, по сообщениям, GPT, Claude и Gemini испытывали трудности

Согласно описанию анализа у The Decoder, варианты GPT, Claude и Gemini набирали около 50 процентов точности при базовом промпте на внутренних задачах Bridgewater. Добавление инструкций, написанных экспертами, и трехуровневой шкалы релевантности, как сообщается, улучшило результаты до середины 70-х процентов, но это все равно не достигло порога в 80 процентов, который авторы сочли достаточно надежным для внедрения.

Этот результат примечателен не потому, что GPT, Claude или Gemini вообще слабы, а потому, что задача, по-видимому, была принципиально плохо представлена в публичных данных. Модель может быть сильной в понимании языка и все же не уловить специфические для компании суждения, если целевое поведение никогда не было доступно в ее обучающем корпусе и не может быть надежно выведено из общих промптов.

Приведенные примеры иллюстрируют это. Заголовок о заявлении Дональда Трампа по поводу Гренландии был сочтен нерелевантным, тогда как угроза новых тарифов в отношении Китая — очень релевантной. Оба сюжета касаются геополитики и вполне могут повлиять на рынки. Разница между ними — не только в широких знаниях о мире, а в очень специфическом институциональном взгляде на рыночную значимость.

Именно такой сигнал крупные публичные модели часто упускают в специализированных корпоративных сценариях. Промптинг может прояснить инструкции, но если модель не видела достаточно примеров того, как конкретная команда различает «интересное», «релевантное, но неинтересное» и «нерелевантное», у prompt engineering есть предел.

Роль проприетарных меток и исправленных экспертных суждений

Самая важная часть описанного рабочего процесса может быть не в модели и не в оценке бенчмарка, а в стратегии данных. The Decoder пишет, что Bridgewater сначала использовала внешних подрядчиков для разметки документов, а затем обнаружила, что многие метки были неверными. Вместо того чтобы просить дорогостоящих отраслевых экспертов перемаркировать все заново, команда использовала процесс, основанный на расхождениях.

Как описано, сначала обучили первую модель на шумных метках, а затем попросили ее повторно оценить те же примеры. Когда предсказание модели расходилось с исходной меткой, такой случай считался вероятно содержащим ошибку и передавался инвесторам Bridgewater на исправление. По сути, система сосредоточила экспертную проверку на самых неоднозначных или противоречивых точках данных.

Эта деталь помогает объяснить заголовок о том, что «правильные ответы никогда не были публичными». Ценность здесь возникла не из прорыва в архитектуре. Она возникла из извлечения неявного знания внутри фирмы, поиска мест, где дешёвая разметка не сработала, и выборочного применения дорогого внимания экспертов для создания более надежного обучающего набора.

Для команд корпоративного ИИ это практический шаблон. Во многих секторах, особенно в финансах, юриспруденции, здравоохранении и промышленных операциях, узкое место — не доступ к базовой модели. Узкое место — сбор высококачественных меток, отражающих то, как организация на самом деле хочет принимать решения.

Доказательства, бенчмарки и где заявления сильнее и слабее всего

Главная оговорка в этой истории — ключевые показатели производительности и стоимости исходят от самих вендоров. The Decoder прямо отмечает, что сравнение основано на внутренних оценках Bridgewater и Thinking Machines Lab, и у обеих организаций есть интерес показать ценность своего подхода, а у Thinking Machines Lab — еще и своей платформы Tinker.

Сообщаемые цифры конкретны: 84,7 процента точности для дообученной системы Qwen3-235B против 78,2 процента у лучшей протестированной frontier-модели и почти в 14 раз более низкая стоимость эксплуатации. В статье также приводится утверждение, что более новые версии моделей давали лишь ограниченный рост точности на доллар, включая сравнение с GPT 5.4 и 5.2. Но поскольку исходные детали отчета не были независимо воспроизведены в предоставленном здесь материале, к этим цифрам стоит относиться как к ориентировочным свидетельствам, а не как к окончательно установленному факту рынка.

Остается несколько неизвестных. Источник не приводит полную конструкцию бенчмарка, точные настройки промптов для каждой модели, число примеров на задачу, доверительные интервалы или то, тестировались ли модели, доступные через API, при идентичных условиях retrieval и контекста. Также не доказано, что результаты можно перенести за пределы внутренних критериев Bridgewater или за пределы шести выбранных задач.

Тем не менее основное утверждение в более узком смысле правдоподобно: дообученная open-модель может превзойти общую frontier-модель на специализированной внутренней задаче, если данные для настройки отражают экспертизу, которая изначально не была публичной. Это согласуется с тем, как обычно работает доменная адаптация в машинном обучении, даже если точные заявленные разрывы требуют независимой проверки.

Что это значит для корпоративного ИИ и стратегии моделей

Для разработчиков ИИ и корпоративных покупателей стратегический вывод прямолинеен. Если ваш рабочий процесс зависит от частных суждений, внутренних политик или пограничных правил, самой выгодной инвестицией может оказаться не постоянное обновление до новейшей универсальной API-модели, а сбор данных и дообучение.

Это не означает, что frontier-модели вроде GPT, Claude и Gemini неважны. Они по-прежнему остаются сильной отправной точкой для широких задач рассуждения, суммаризации, программирования и мультимодальной работы. Но сообщаемые результаты Bridgewater показывают, что в корпоративных ИИ-развертываниях настоящий moat может возникать из превращения институционального знания в обучающие данные и сохранения этого цикла в закрытом контуре.

Это также подогревает спор об открытых и закрытых моделях. Open-weight модель вроде Qwen3-235B может быть адаптирована внутри среды компании с большим контролем над безопасностью, стоимостью и хранением данных. Для регулируемых отраслей или фирм с чувствительной информацией это может быть не менее важно, чем чистое качество. Позиционирование Tinker от Thinking Machines Lab явно нацелено на этот рынок: организации, которым нужна кастомизация без раскрытия проприетарных материалов крупному внешнему провайдеру.

Для продуктовых команд эта история — напоминание переосмыслить оценку. Публичные лидерборды не отражают многие из задач, которые наиболее важны для компаний. Модель, доминирующая в общих бенчмарках, все равно может уступать во внутренних задачах первичного отбора, приоритизации, эскалации или комплаенса, где «правильность» зависит от конкретной организации.

За чем следить дальше

Первый сигнал, за которым стоит следить, — опубликуют ли Bridgewater или Thinking Machines Lab больше информации о методологии. Независимое воспроизведение или хотя бы более подробные данные о построении датасета и тестового дизайна сделали бы эти бенчмарк-заявления полезнее для рынка.

Второй сигнал — будут ли другие компании публично сообщать о похожих успехах с open-weight системами. Если дополнительные команды в финансах, юриспруденции или здравоохранении покажут, что дообученные открытые модели стабильно превосходят frontier API на закрытых рабочих процессах, конкурентное давление на OpenAI, Anthropic и Google усилится.

Третье — как вендоры ответят на это, сделав кастомизацию проще без необходимости передавать чувствительные данные клиентами. Это может включать больше on-premises-вариантов, более сильные гарантии приватности или улучшенные инструменты для безопасного дообучения и оценки.

Наконец, стоит обратить внимание на то, подтвердится ли в продакшене заявленная стоимость. Сообщаемое 14-кратное преимущество по runtime выглядит убедительно, но реальная экономика будет зависеть от хостинга модели, целевых задержек, частоты переобучения и накладных расходов на ручную проверку.

Взгляд Creati.ai

Эта история важна потому, что она переосмысливает привычное сравнение ИИ-моделей. Интересный результат не просто в том, что Qwen3-235B обошла GPT или Claude в одном финансовом бенчмарке. Интереснее то, что сам бенчмарк был построен вокруг суждений, которые публичные модели, вероятно, не могли выучить из открытого интернета.

Для основателей и корпоративных команд это полезная коррекция к гонке за моделями. Во многих высокоценных развертываниях устойчивое преимущество будет возникать из захвата проприетарных рабочих процессов, очистки шумных меток и оценки по бизнес-специфичным порогам. Frontier-модели по-прежнему задают общий базовый уровень, но коммерческое преимущество все чаще может принадлежать организациям, способным превращать закрытую экспертизу в настроенные системы, не раскрывая ее. Если заявления Bridgewater и Thinking Machines Lab подтвердятся, это будет не столько поражение GPT или Claude, сколько кейс о том, где на самом деле создается ценность корпоративного ИИ.