DeepSeek V4 Pro 在政府基準測試中落後於美國 AI 模型
CAISI 的評估顯示,DeepSeek V4 Pro 是中國最強的模型,但仍落後於美國領先的前沿 AI 系統。
CAISI 的評估顯示,DeepSeek V4 Pro 是中國最強的模型,但仍落後於美國領先的前沿 AI 系統。
一項嚴格的新基準測試了頂尖AI模型在投資銀行任務上的表現;沒有任何輸出被認定為可直接交付客戶,不過有一半的銀行家認為它可作為起點。
一項新的基準測試顯示,即使是頂尖的 AI 模型,在分析複雜圖表時準確率也會下降約 50%,暴露出視覺推理中的一項關鍵限制。
Google 的強化版 Gemini 3 Deep Think 模型在最新的基準測試中展現出優於 OpenAI 的 GPT-5.2 與 Anthropic 的 Claude Opus 4.6 的表現。
Claude Opus 4.6 在 Terminal-Bench 上取得 65.4%、在 OSWorld 上取得 72.7% 的突破性表現,在真實工作應用中超越了 Gemini 3 Flash。