DiscoBench показывает, что AI search-агенты срываются на неоднозначных запросах, потому что не просят пользователей уточнить

Новый бенчмарк от Tencent Hunyuan и Университета Цинхуа утверждает, что современные AI search-агенты сдерживаются не столько качеством извлечения данных или использованием инструментов. По данным, которые привели исследователи, более серьезная точка отказа в том, что модели часто не останавливаются, чтобы задать уточняющий вопрос, когда запрос пользователя расплывчатый, недоопределенный или неверный.

Это важно, потому что индустрия быстро движется к упаковке больших моделей в роли исследовательских ассистентов, браузерных агентов и ответных систем. Если бенчмарк подтвердится, он указывает на практическую проблему проектирования для команд, создающих AI search-продукты: больше поисков и более длинные цепочки рассуждений не обязательно улучшают результат, если система так и не подтверждает, что именно имел в виду пользователь. В некоторых случаях, как утверждают исследователи, повторный поиск работает хуже, чем просто догадка.

Что DiscoBench пытается измерить

Новый бенчмарк под названием DiscoBench предназначен для проверки того, может ли модель обнаруживать неоднозначность в ходе многошагового поиска информации, задавать пользователю полезный уточняющий вопрос, а затем возвращаться на правильный исследовательский путь. Как описывает The Decoder, датасет включает 211 задач с 463 неоднозначными точками в одиннадцати доменах, включая спорт, кино, музыку, науку, политику и видеоигры.

Исследователи рассматривают это как пробел в существующей оценке агентов. Такие бенчмарки, как GAIA и BrowseComp, обычно предполагают, что запрос пользователя уже полон и точен. DiscoBench же фокусируется на распространенном производственном сценарии: пользователь просит о чем-то, что может относиться к нескольким сущностям, разным временным периодам, неясным критериям ранжирования или даже ложной фактической предпосылке. В такой ситуации модель может выстроить аккуратный поиск и все равно с самого первого решения пойти не туда.

Согласно описанной методологии, каждая задача разбивается на контрольные точки, где агент может продолжать поиск, запросить уточнение или ответить. В бенчмарке используется Tavily для поиска и симулятор пользователя на базе Gemini 3 Flash, который возвращает заранее заданные подсказки, если агент задает полезный уточняющий вопрос. Датасет в основном на китайском языке, что, по словам исследователей, отражает типичные паттерны китайскоязычного веба.

Этот языковой и инструментальный контекст важен для интерпретации. DiscoBench не является универсальной мерой для всех поисковых задач во всех веб-экосистемах, а использование LLM-симулятора означает, что цикл взаимодействия структурирован, а не полностью открыт. Тем не менее бенчмарк примечателен тем, что он изолирует поведение продукта, с которым многие пользовательские AI-системы испытывают трудности: понимание момента, когда не следует продолжать.

Результаты показывают дефицит уточнения, а не дефицит поиска

Главный результат — скромная абсолютная производительность. The Decoder сообщает, что среди одиннадцати недавно выпущенных моделей лучший итоговый результат без явной подсказки о неоднозначности составил 43,1 процента у Doubao Seed 2.0 Pro. За ней следовала Gemini 3.1 Pro Preview с 40,8 процента, а Claude Opus 4.7 — с 39,8 процента.

Эти цифры достаточно низкие, чтобы сделать общий вывод трудноигнорируемым. Даже сильные передовые модели, по-видимому, испытывают трудности, когда неоднозначность добавляется в цепочку поисковых действий. Авторы бенчмарка утверждают, что основная проблема не в том, что модели не умеют искать, а в том, что они слишком многое предполагают и слишком мало спрашивают.

Анализ поведения, на который ссылается The Decoder, особенно показателен. Системы, которые сначала искали, а затем задавали уточняющий вопрос, якобы достигли 93,4 процента успеха. Модели, которые сразу угадывали, показали 56,5 процента. Модели, которые многократно искали, но так и не задавали вопроса, обозначенные как “SearchHeavyGuess”, упали до 51,9 процента. По интерпретации исследователей, такой паттерн говорит о том, что некоторые модели, по сути, чувствуют неопределенность, но не превращают ее во взаимодействие с пользователем.

Это помогает объяснить, почему дополнительное использование инструментов не автоматически приводит к лучшим результатам. Модель может сделать много поисков, просмотреть много страниц и все равно остаться привязанной к неправильной интерпретации исходного запроса. На практике разработчики не могут рассматривать глубину поиска как замену поведению по уточнению.

Почему этот бенчмарк важен для продуктов, которые уже выходят на рынок

Сроки важны, потому что AI search выходит за рамки демонстраций и переходит в коммерческие рабочие процессы. Команды выпускают исследовательские копилоты, ассистентов поддержки клиентов и продукты для автоматизации браузера, которые все больше зависят от многошагового извлечения. Для таких систем DiscoBench указывает на режим отказа, который легко пропустить в обычной оценке: модель выглядит активной и компетентной, пока преследует неверную цель.

Это имеет прямые последствия для корпоративных внедрений AI. Во внутренних системах знаний неоднозначность постоянно возникает в названиях проектов, версиях документов, именах клиентов, ссылках на политики и диапазонах дат. Во внешних поисковых продуктах проблема проявляется в сравнениях, рейтингах и неоднозначности брендов или сущностей. Если система считает каждый запрос завершенным, она может выдавать уверенную, но нерелевантную работу и при этом выглядеть очень отзывчивой.

Для разработчиков AI-агентов этот бенчмарк предлагает сдвиг в дизайне. Уточнение не следует рассматривать как запасной вариант на случай очевидной путаницы. Оно, возможно, должно стать базовой возможностью с явными порогами, отслеживанием состояния и UX, который делает задавание уточняющих вопросов естественным, а не мешающим. Данные, на которые ссылается The Decoder, также предполагают, что подсказки на уровне промпта могут помочь обнаруживать неоднозначность, но этого недостаточно, чтобы самостоятельно исправить выполнение задачи целиком.

Это различие важно для планирования дорожной карты. Более удачные системные промпты могут увеличить частоту вопросов, но полезный развернутый агент также должен задать правильный вопрос в правильный момент, а затем встроить ответ в дальнейший рабочий процесс. Обнаружение, формулировка и продолжение работы, по-видимому, являются разными возможностями.

Доказательства, оговорки и степень доверия к выводам

Самые сильные заявления здесь исходят из исследования бенчмарка, описанного The Decoder, а не из рецензируемой публикации, включенной в исходный набор. Это не опровергает выводы, но означает, что читателям следует воспринимать рейтинги производительности и поведенческие выводы как сообщенные исследователями, пока основная статья, данные и детали оценки не будут более широко изучены.

Из доступных данных видны несколько ограничений. Во-первых, DiscoBench в основном написан на китайском языке, поэтому результаты могут не переноситься напрямую на англоязычное поисковое поведение или корпоративные рабочие процессы с документами. Во-вторых, бенчмарк опирается на Tavily и симулированного пользователя, созданного с помощью Gemini 3 Flash. Такая схема разумна для контролируемого тестирования, но это не то же самое, что измерение полноценных продакшн-систем с реальными пользователями, разными стеком поиска или собственной оркестрацией.

В-третьих, список моделей и версий приведен так, как его сообщает The Decoder, включая Claude Opus 4.7, GPT 5.4, Gemini 3.1 Pro Preview, DeepSeek V4 Pro, GLM 5.1, Qwen3.6 Max, Kimi K2.6, MiniMax M2.7, MiMo v2.5 Pro, Hunyuan 3.0 Preview и Doubao Seed 2.0 Pro. Некоторые из этих обозначений могут отражать внутреннюю или региональную маркировку авторов бенчмарка, а исходный материал не дает полного разбора в формате model card по выбору конфигураций.

Тем не менее некоторые паттерны выглядят устойчивыми даже с учетом этих оговорок. Авторы сообщают, что без доступа к поиску производительность резко падает, что поддерживает идею о том, что задачи требуют живого извлечения, а не запомненных знаний. Они также сообщают, что когда неоднозначность убирают из запросов, точность растет примерно на 26,8–40,2 пункта в зависимости от модели. Если это воспроизводится, это сильный сигнал, что узким местом является именно обработка неоднозначности.

Статья также помещает DiscoBench в более широкий контекст критики надежности AI search. The Decoder ссылается на LiveBrowseComp как на доказательство того, что модели могут чрезмерно полагаться на предварительные знания, и на Halluhard — как на исследование проблем галлюцинаций при проверке источников. Это смежные исследования, а не прямые валидации DiscoBench, но они усиливают представление о том, что навык браузинга все еще хрупок.

Сигналы конкуренции для Anthropic, Perplexity и разработчиков search-агентов

Эти результаты появляются на фоне того, как вендоры продвигают разные подходы к AI-поддерживаемому исследованию. По сводке The Decoder, Anthropic заявляла, что Claude Opus 4.8 настроена чаще отмечать неопределенность. Если это подтвердится независимым тестированием, это будет очень близко к слабости, которую DiscoBench пытается выявить.

Perplexity, в свою очередь, исследует Search as Code — подход, который позволяет моделям выражать поисковые рабочие процессы как Python-программы, а не полагаться только на заранее созданные шаблоны API поиска. Это может помочь с планированием и проверкой, но DiscoBench подсказывает, что остается нерешенным отдельный вопрос: может ли система распознать, что недостающая информация находится не в интернете, а в голове пользователя?

Для команд, оценивающих AI-агентов, это создает более тонкий чек-лист закупки. Сравнивать оценки в бенчмарках, ориентированных на поиск, уже недостаточно. Покупателям, возможно, придется тестировать, может ли продукт остановиться, определить тип неоднозначности, задать краткий уточняющий вопрос и затем возобновить задачу без сброса контекста. В регулируемых или критически важных областях эта способность может быть важнее сырой скорости извлечения.

На что смотреть дальше

Следующий сигнал, за которым стоит следить, — опубликуют ли Tencent Hunyuan и Университет Цинхуа более полную документацию, код или публичные примеры для DiscoBench. Независимое воспроизведение будет особенно важно для англоязычных задач и в исследованиях с реальными пользователями.

Также стоит смотреть, начнут ли поставщики моделей публиковать метрики уточнения наряду с бенчмарками извлечения и рассуждения. Полезный стандарт мог бы включать обнаружение неоднозначности, качество вопроса, долю успешного восстановления после уточнения и режимы отказа по доменам.

На стороне продукта обращайте внимание на изменения в интерфейсах AI-агентов. Если вендоры начнут делать уточнение заметной, намеренной частью пользовательского опыта, а не случайным прерыванием, это будет означать, что рынок серьезно относится к этому классу отказов.

Наконец, следите за тем, покажут ли системы вроде Claude Opus 4.8, Gemini 3.1 Pro или GPT 5.4 заметный прогресс в задачах с сильной неоднозначностью при независимом тестировании. Конкурентное преимущество в AI search все больше может зависеть от сдержанности и диалога, а не только от большего числа инструментов.

Мнение Creati.ai

DiscoBench — полезное напоминание о том, что многие сбои AI-продуктов начинаются до извлечения, а не после него. Команды часто оптимизируют более качественные поисковые коннекторы, большие контекстные окна и более сложные цепочки агентов. Но если модель принимает неоднозначное задание и действует по нему, весь стек может выдавать отполированную нерелевантность.

Для разработчиков практический вывод прост: рассматривайте уточнение как базовую инфраструктуру. Побеждать в AI search, вероятно, будут системы, которые знают, когда остановиться, задать один точный вопрос и только потом продолжить. Это менее эффектно, чем автономный браузинг, но для корпоративного AI и доверия пользователей это, вероятно, более важная способность.