
Tencent Hunyuan과 Tsinghua University의 새로운 벤치마크는 오늘날의 AI 검색 에이전트가 주로 검색 품질이나 도구 사용에 의해 제약받는 것은 아니라고 주장한다. 연구진이 보고한 결과에 따르면, 더 큰 실패 지점은 모델이 사용자 요청이 모호하거나, 충분히 구체적이지 않거나, 잘못되었을 때 이를 멈추고 명확히 묻지 않는다는 점이다.
이는 업계가 대형 모델을 연구 보조, 브라우저 에이전트, 답변 엔진으로 빠르게 포장하고 있기 때문에 중요하다. 이 벤치마크가 타당하다면, AI 검색 제품을 만드는 팀에게 실질적인 설계 문제를 시사한다. 더 많은 검색과 더 긴 추론 체인이 시스템이 사용자가 실제로 무엇을 의미했는지 확인하지 않는다면 결과를 반드시 개선하지는 못한다. 연구진에 따르면 일부 경우에는 반복 검색이 추측보다도 더 나쁜 성과를 낸다.
DiscoBench라고 불리는 이 새로운 벤치마크는 모델이 다단계 정보 탐색 중 모호성을 감지하고, 사용자에게 유용한 후속 질문을 던진 뒤, 올바른 연구 경로로 복구할 수 있는지를 테스트하도록 설계되었다. The Decoder의 설명에 따르면, 데이터셋은 스포츠, 영화, 음악, 과학, 정치, 비디오 게임을 포함한 11개 도메인에 걸쳐 211개 과제와 463개의 모호한 지점을 포함한다.
연구진은 이를 기존 에이전트 평가의 공백으로 본다. GAIA나 BrowseComp 같은 벤치마크는 일반적으로 사용자 쿼리가 이미 완전하고 정확하다고 가정한다. 반면 DiscoBench는 흔한 실제 운영 시나리오에 초점을 맞춘다. 즉, 사용자가 여러 개체, 서로 다른 시간대, 불분명한 순위 기준, 혹은 사실과 다른 전제를 가리킬 수 있는 요청을 하는 상황이다. 이런 환경에서는 모델이 깔끔한 검색 흐름을 실행하더라도 첫 번째 판단에서부터 잘못된 방향으로 갈 수 있다.
보고된 방법론에 따르면 각 과제는 에이전트가 계속 검색할지, 명확화를 요청할지, 답할지를 선택할 수 있는 체크포인트로 나뉜다. 이 벤치마크는 Tavily를 검색에 사용하고, Gemini 3 Flash 기반 사용자 시뮬레이터가 에이전트가 유용한 후속 질문을 했을 때 미리 정의된 단서를 반환한다. 데이터셋은 대부분 중국어로 되어 있는데, 연구진은 이것이 중국어 웹에서 흔한 패턴을 반영한다고 설명한다.
이 언어와 도구의 맥락은 해석에서 중요하다. DiscoBench는 모든 웹 생태계의 모든 검색 과제를 보편적으로 측정하는 기준은 아니며, LLM 기반 시뮬레이터를 사용한다는 점에서 상호작용 루프는 완전히 개방형이라기보다 구조화되어 있다. 그럼에도 이 벤치마크가 주목받는 이유는, 많은 사용자 대면 AI 시스템이 어려워하는 제품 행동, 즉 언제 진행하지 말아야 하는지를 아는 능력을 분리해 보여주기 때문이다.
가장 눈에 띄는 결과는 절대 성능이 낮다는 점이다. The Decoder는 11개의 최근 출시 모델 가운데, 명시적인 모호성 힌트 없이 종단 간 최고 점수는 Doubao Seed 2.0 Pro의 43.1%였다고 전한다. 이어 Gemini 3.1 Pro Preview가 40.8%, Claude Opus 4.7이 39.8%를 기록했다.
이 수치는 더 큰 문제를 무시하기 어렵게 만든다. 강력한 최첨단 모델조차도 연결된 검색 과제에 모호성이 추가되면 어려움을 겪는 것으로 보인다. 벤치마크 저자들은 핵심 문제는 모델이 검색을 못하는 것이 아니라, 너무 많은 것을 가정하고 너무 적게 묻는 데 있다고 주장한다.
The Decoder가 인용한 행동 분석은 특히 시사적이다. 검색한 뒤 후속 질문을 던진 시스템은 93.4%의 성공률을 기록했다고 한다. 반면 바로 추측한 모델은 56.5%에 그쳤다. 또 반복적으로 검색했지만 끝내 질문하지 못한 모델, 이른바 “SearchHeavyGuess”는 51.9%까지 떨어졌다. 연구진의 해석에 따르면, 이런 패턴은 일부 모델이 사실상 불확실성을 감지하고 있지만 이를 사용자 상호작용으로 전환하지는 못하고 있음을 시사한다.
이는 추가 도구 사용이 자동으로 더 나은 결과로 이어지지 않는 이유를 설명해 준다. 모델은 많은 검색을 수행하고 많은 페이지를 검토할 수 있지만, 여전히 원래 프롬프트의 잘못된 해석에 고정될 수 있다. 실무적으로는, 구축자들이 검색의 깊이를 명확화 행동의 대체물로 취급해서는 안 된다는 뜻이다.
AI 검색이 데모를 넘어 상업적 워크플로로 이동하고 있기 때문에 시점도 중요하다. 팀들은 연구 코파일럿, 고객 지원 보조, 브라우저 자동화 제품을 출시하고 있으며, 이들 제품은 점점 더 다단계 검색에 의존한다. 이러한 시스템에서 DiscoBench는 기존 평가에서는 놓치기 쉬운 실패 양상을 보여준다. 즉, 모델이 잘못된 목표를 추구하면서도 활발하고 유능해 보인다는 점이다.
이는 기업용 AI 배포에 직접적인 의미를 갖는다. 내부 지식 시스템에서는 프로젝트명, 문서 버전, 고객명, 정책 참조, 날짜 범위에서 모호성이 끊임없이 발생한다. 외부 검색 제품에서는 비교, 순위, 브랜드 또는 개체 구분 문제로 나타난다. 시스템이 모든 프롬프트를 완결된 것으로 취급하면, 높은 반응성을 유지하면서도 확신에 찬 무관한 결과를 낼 수 있다.
AI 에이전트 구축자에게 이 벤치마크는 설계 전환을 시사한다. 명확화는 눈에 띄는 혼란이 있을 때만 쓰는 대안이 되어서는 안 된다. 대신 명시적 임계값, 상태 추적, 그리고 후속 질문을 방해가 아니라 자연스러운 경험으로 만드는 제품 UX를 갖춘 일급 기능이 되어야 할 수 있다. The Decoder가 인용한 데이터는 프롬프트 수준의 안내문이 모호성 감지를 돕기는 하지만, 종단 간 과제 완수를 단독으로 해결하기에는 충분하지 않다는 점도 보여준다.
이 구분은 로드맵 계획에서 중요하다. 더 나은 시스템 프롬프트는 질문 빈도를 높일 수 있지만, 실제로 배포된 유용한 에이전트는 적절한 순간에 올바른 질문을 하고, 그 답변을 나머지 워크플로에 반영해야 한다. 감지, 표현, 후속 처리는 서로 다른 능력인 것으로 보인다.
여기서 가장 강한 주장은 동료 심사를 거친 출판물이 아니라 The Decoder가 설명한 벤치마크 연구에서 나온 것이다. 그렇다고 해서 결과가 무효가 되는 것은 아니지만, 독자들은 저자 보고 성능 순위와 행동적 결론을 보다 광범위하게 검토되기 전까지는 연구진이 보고한 주장으로 받아들여야 한다.
확인 가능한 증거에는 몇 가지 한계가 있다. 첫째, DiscoBench는 대부분 중국어로 작성되어 있어 결과가 영어 검색 행동이나 기업 문서 워크플로에 깔끔하게 이전되지 않을 수 있다. 둘째, 벤치마크는 Tavily와 Gemini 3 Flash로 구축된 시뮬레이션 사용자를 활용한다. 이는 통제된 테스트로서 적절하지만, 실제 사용자, 다른 검색 스택, 맞춤형 오케스트레이션을 가진 완전한 프로덕션 시스템을 측정하는 것과는 다르다.
셋째, 모델 목록과 버전은 The Decoder가 보고한 그대로이며, Claude Opus 4.7, GPT 5.4, Gemini 3.1 Pro Preview, DeepSeek V4 Pro, GLM 5.1, Qwen3.6 Max, Kimi K2.6, MiniMax M2.7, MiMo v2.5 Pro, Hunyuan 3.0 Preview, Doubao Seed 2.0 Pro가 포함된다. 이들 중 일부 명명법은 벤치마크 저자들의 내부 또는 지역별 표기를 반영할 수 있으며, 원문에는 구성 선택에 대한 완전한 모델 카드식 설명이 제공되지 않는다.
그럼에도 이러한 주의점을 감안해도 일부 패턴은 견고해 보인다. 저자들은 검색 접근이 없을 때 성능이 급락한다고 보고했는데, 이는 과제가 암기 지식이 아니라 실시간 검색을 필요로 함을 뒷받침한다. 또한 쿼리에서 모호성을 제거하면 모델에 따라 정확도가 약 26.8~40.2포인트 상승한다고 보고한다. 이것이 재현된다면, 모호성 처리 자체가 병목이라는 강한 신호다.
이 기사는 또한 DiscoBench를 AI 검색 신뢰성에 대한 더 넓은 비판 흐름 속에 위치시킨다. The Decoder는 모델이 사전 지식에 과도하게 의존할 수 있다는 증거로 LiveBrowseComp를, 출처 검증의 환각 문제로 Halluhard를 인용한다. 이들은 DiscoBench의 직접 검증은 아니지만, 브라우징 역량이 여전히 취약하다는 견해를 강화한다.
이 발견은 벤더들이 AI 지원 연구에 서로 다른 접근법을 밀어붙이는 와중에 나왔다. The Decoder의 요약에 따르면 Anthropic은 Claude Opus 4.8이 불확실성을 더 자주 표시하도록 조정됐다고 밝혔다. 이 주장이 독립 테스트에서 사실로 확인된다면, DiscoBench가 드러내려는 약점과 매우 잘 맞아떨어질 것이다.
한편 Perplexity는 Search as Code를 실험하고 있다. 이는 모델이 미리 구축된 검색 API 패턴에만 의존하지 않고 검색 워크플로를 파이썬 프로그램으로 표현할 수 있게 하는 접근이다. 이는 계획과 검증에 도움이 될 수 있지만, DiscoBench는 또 다른 질문이 남아 있음을 시사한다. 즉, 필요한 정보가 웹에 있는 것이 아니라 사용자 머릿속에 있을 때도 시스템이 이를 알아챌 수 있는가?
AI 에이전트를 평가하는 팀에게 이는 조달 체크리스트를 더 정교하게 만든다. 검색 중심 과제에서의 벤치마크 점수 비교만으로는 더 이상 충분하지 않다. 구매자는 제품이 멈추어 모호성 유형을 식별하고, 간결한 명확화 질문을 던진 뒤, 맥락을 초기화하지 않고 작업을 재개할 수 있는지를 테스트해야 할 수 있다. 규제 대상이거나 높은 위험이 따르는 도메인에서는 이런 능력이 원시적인 검색 속도보다 더 중요할 수 있다.
다음으로 주목할 신호는 Tencent Hunyuan과 Tsinghua University가 DiscoBench에 대한 더 광범위한 문서, 코드, 공개 예시를 발표하는지 여부다. 독립적인 재현이 중요할 것이며, 특히 영어권 과제와 실제 사용자 연구에서 더욱 그렇다.
또한 모델 제공업체들이 검색 및 추론 벤치마크와 함께 명확화 지표를 보고하기 시작하는지도 지켜볼 가치가 있다. 유용한 표준에는 모호성 감지, 질문 품질, 명확화 후 복구율, 도메인별 실패 양상이 포함될 수 있다.
제품 측면에서는 AI 에이전트 인터페이스의 변화를 주목하자. 벤더들이 명확화를 가끔 방해가 되는 요소가 아니라 사용자 경험의 눈에 보이는 의도적 부분으로 만들기 시작한다면, 시장이 이 실패 범주를 심각하게 받아들이고 있다는 뜻일 것이다.
마지막으로 Claude Opus 4.8, Gemini 3.1 Pro, GPT 5.4 같은 시스템이 독립 테스트에서 모호성 중심 과제에서 측정 가능한 향상을 보이는지도 확인할 필요가 있다. AI 검색에서의 경쟁 우위는 더 많은 도구가 아니라, 절제와 대화에서 점점 더 나올 수 있다.
DiscoBench는 많은 AI 제품 실패가 검색 이후가 아니라 검색 이전에 시작된다는 점을 상기시켜 주는 유용한 사례다. 팀들은 종종 더 나은 검색 커넥터, 더 큰 컨텍스트 창, 더 정교한 에이전트 루프를 최적화한다. 하지만 모델이 모호한 지시를 받아들여 그대로 실행해 버리면, 전체 스택이 세련된 무의미함을 만들어낼 수 있다.
구축자에게 실질적인 교훈은 간단하다. 명확화를 핵심 인프라로 취급하라는 것이다. AI 검색에서 승리하는 시스템은 언제 멈춰야 하는지 알고, 날카로운 질문 하나를 던진 뒤에야 계속 진행하는 시스템일 수 있다. 이는 자율 브라우징보다 덜 화려하지만, 기업용 AI와 사용자 신뢰 측면에서는 아마도 더 중요한 능력일 것이다.