
騰訊混元與清華大學提出的一項新基準認為,當今的 AI 搜尋代理主要不是受限於檢索品質或工具使用。根據研究人員所回報的結果,更大的失敗點在於:當使用者需求含糊、資訊不足,或本身就有錯誤時,模型往往不會停下來提出澄清問題。
這一點很重要,因為產業正快速把大型模型包裝成研究助理、瀏覽器代理與答案引擎。如果這項基準結果成立,它暗示了為 AI 搜尋產品打造團隊的一個實際設計問題:即使系統進行更多搜尋、拉長推理鏈,也不一定能改善結果,因為它從未確認使用者真正的意思。有些情況下,研究人員指出,反覆搜尋的表現甚至比直接猜測還差。
這個名為 DiscoBench 的新基準,旨在測試模型是否能在多步資訊尋找過程中偵測到歧義、向使用者提出有用的後續問題,並重新回到正確的研究路徑。根據 The Decoder 的描述,資料集包含 211 個任務與 463 個歧義點,分布於 11 個領域,包括運動、電影、音樂、科學、政治與電子遊戲。
研究人員將這視為現有代理評估中的一個缺口。像 GAIA 和 BrowseComp 這類基準,通常預設使用者查詢已經完整且精確。相較之下,DiscoBench 聚焦於一個常見的實際情境:使用者提出的內容可能指向多個實體、不同時間區段、模糊的排名標準,甚至是錯誤的事實前提。在這種情況下,模型即使執行了乾淨俐落的搜尋流程,也可能從第一個決策開始就走錯方向。
根據所報告的方法,每個任務都被拆分成多個檢查點,代理可在其中繼續搜尋、詢問澄清,或直接回答。該基準使用 Tavily 進行搜尋,並以基於 Gemini 3 Flash 的使用者模擬器在代理提出有幫助的後續問題時回傳預先設定的提示。資料集大多以中文撰寫,研究人員表示這反映了中文網路上的常見模式。
這種語言與工具環境對於解讀結果很重要。DiscoBench 並不是對所有網路生態系中所有搜尋任務的通用衡量標準,而使用基於 LLM 的模擬器也意味著互動迴圈是結構化的,並非完全開放式。即便如此,這項基準仍然值得注意,因為它隔離出許多面向使用者的 AI 系統都會掙扎的一種產品行為:知道何時不該繼續往前。
最受關注的結果是整體表現偏低。The Decoder 報導,在 11 個近期發布的模型中,在沒有明確歧義提示的情況下,最佳端到端分數是 Doubao Seed 2.0 Pro 的 43.1%。Gemini 3.1 Pro Preview 以 40.8% 緊追在後,Claude Opus 4.7 則為 39.8%。
這些數字低到讓更大的問題無法忽視。即使是強大的前沿模型,一旦歧義被加入鏈式搜尋任務中,似乎也會陷入困境。基準作者認為,核心問題不是模型不會搜尋,而是它們假設太多、提問太少。
The Decoder 引述的行為分析尤其有啟發性。據報導,先搜尋再提出後續問題的系統,成功率達到 93.4%。直接猜測的模型則達到 56.5%。而那些反覆搜尋但仍未提問的模型,標記為「SearchHeavyGuess」,成功率下降至 51.9%。研究人員的解讀是,這種模式顯示某些模型其實已察覺不確定性,但沒有將其轉化為與使用者的互動。
這也說明了為什麼更多工具使用不會自動帶來更好的結果。模型可以進行很多次搜尋、檢視很多頁面,但仍可能被原始提示的錯誤解讀所錨定。從實務角度看,建造者不能把搜尋深度當成澄清行為的替代品。
時機很關鍵,因為 AI 搜尋正從 demo 走向商業工作流程。各團隊正在推出研究副駕、客服助理,以及越來越依賴多步檢索的瀏覽器自動化產品。對這些系統而言,DiscoBench 指出了一種在傳統評估中很容易被忽略的失敗模式:模型看起來很活躍、很能幹,但其實一直在朝錯誤目標前進。
這對企業級 AI 部署有直接影響。在內部知識系統中,歧義經常出現在專案名稱、文件版本、客戶姓名、政策引用與日期範圍裡。在外部搜尋產品中,問題則會出現在比較、排名,以及品牌或實體的消歧上。如果系統把每個提示都當成完整問題,它可能會產出看似自信、實則無關的成果,卻仍表現得反應非常靈敏。
對 AI 代理的建造者而言,這項基準意味著設計上的轉向。澄清不應被視為面對明顯混亂時的備用方案。它可能需要成為一項一級能力,具備明確門檻、狀態追蹤,以及讓提出後續問題看起來自然而非阻礙性的產品 UX。The Decoder 引述的數據也暗示,提示層級的提醒可以幫助歧義偵測,但不足以單獨修復端到端任務完成。
這種區分對路線圖規劃很重要。更好的系統提示可能提高提問頻率,但一個真正有用的已部署代理,還需要在正確時刻提出正確問題,並把回答納入後續工作流程。偵測、措辭與後續執行,似乎是彼此獨立的能力。
這裡最強的主張來自 The Decoder 所描述的一項基準研究,而非來源集中所包含的同行評審論文。這並不代表這些發現無效,但確實意味著讀者應將性能排名與行為結論視為研究人員回報的結果,直到其底層論文、資料與評估細節接受更廣泛檢視。
現有證據還有幾個限制。首先,DiscoBench 主要以中文撰寫,因此結果未必能乾淨地轉移到英文搜尋行為或企業文件工作流程。其次,該基準依賴 Tavily 與基於 Gemini 3 Flash 建立的模擬使用者。這種設計適合受控測試,但並不等同於衡量具備真實使用者、不同搜尋堆疊或客製化協調邏輯的完整生產系統。
第三,The Decoder 所報導的模型清單與版本包括 Claude Opus 4.7、GPT 5.4、Gemini 3.1 Pro Preview、DeepSeek V4 Pro、GLM 5.1、Qwen3.6 Max、Kimi K2.6、MiniMax M2.7、MiMo v2.5 Pro、Hunyuan 3.0 Preview 與 Doubao Seed 2.0 Pro。其中一些命名慣例可能反映基準作者的內部或區域性標示,而來源材料也沒有提供完整、類似 model card 的配置選擇說明。
即便如此,即使有這些限制,某些模式仍顯得相當穩固。作者報告指出,在沒有搜尋能力的情況下,表現會崩潰,這支持了這些任務需要即時檢索,而非依賴記憶中的知識。他們也報告,在移除查詢中的歧義後,準確率依模型不同大約提高 26.8 到 40.2 個百分點。如果能重現,這將是歧義處理本身就是瓶頸的一個強烈訊號。
文章也將 DiscoBench 放進了更廣泛的 AI 搜尋可靠性批評脈絡中。The Decoder 引用 LiveBrowseComp 作為模型過度依賴既有知識的證據,並引用 Halluhard 作為來源驗證中的幻覺問題。那些都是相鄰研究,而非對 DiscoBench 的直接驗證,但它們強化了這樣的觀點:瀏覽能力仍然脆弱。
這些發現出現在供應商推動不同 AI 輔助研究方案之際。根據 The Decoder 對更新的摘要,Anthropic 表示 Claude Opus 4.8 的調校方向是更常標記不確定性。如果這項說法在獨立測試中成立,那將與 DiscoBench 試圖揭露的弱點高度呼應。
與此同時,Perplexity 一直在探索 Search as Code,這種方法允許模型把搜尋工作流程表達為 Python 程式,而不只是依賴預先建立好的搜尋 API 模式。這可能有助於規劃與驗證,但 DiscoBench 顯示仍有一個不同的問題尚未解決:系統能否辨識出,缺少的資訊並不在網路上,而是在使用者腦中?
對評估 AI 代理的團隊來說,這使採購檢查清單變得更細緻。只比較搜尋密集任務上的基準分數已經不夠。買家可能需要測試產品是否能夠暫停、辨識歧義類型、提出簡潔的澄清問題,並在不重設上下文的情況下恢復任務。在受監管或高風險領域中,這項能力可能比原始檢索速度更重要。
下一個值得觀察的訊號,是騰訊混元與清華大學是否會為 DiscoBench 發布更完整的文件、程式碼或公開範例。獨立重現將非常重要,尤其是在英文任務與真實使用者研究中。
同時,也值得關注模型供應商是否開始在檢索與推理基準之外,另行回報澄清指標。一個有用的標準可能包括歧義偵測、問題品質、澄清後的恢復率,以及依領域劃分的失敗模式。
在產品層面,留意 AI 代理介面的變化。如果供應商開始把澄清作為使用者體驗中一個可見、刻意設計的部分,而非偶爾打斷流程的事件,那將顯示市場已認真看待這類失敗。
最後,也請關注 Claude Opus 4.8、Gemini 3.1 Pro 或 GPT 5.4 等系統在獨立測試中,是否能在歧義密集任務上取得可衡量的進步。AI 搜尋的競爭優勢,可能愈來愈來自克制與對話,而不只是更多工具。
DiscoBench 提醒我們,許多 AI 產品的失敗其實發生在檢索之前,而不是之後。團隊常常優化更好的搜尋連接器、更大的上下文窗口,以及更複雜的代理迴圈。但如果模型接受了一份模糊的簡報就直接開始執行,整個堆疊都可能產出包裝精美、實則無關的結果。
對建造者而言,實際 takeaway 很簡單:把澄清視為核心基礎設施。AI 搜尋中真正會勝出的系統,可能是那些知道何時停下來、問一個精準問題,然後再繼續前進的系統。這聽起來不如自主瀏覽那麼炫,但就企業 AI 與使用者信任而言,這大概才是更重要的能力。