如何衡量 AI 熱潮?METR 圖表成為業界迷戀的焦點
METR 是一家非營利 AI 組織,其圖表已成為整個產業的迷戀焦點,因為它追蹤大型 AI 系統的快速發展。
METR 是一家非營利 AI 組織,其圖表已成為整個產業的迷戀焦點,因為它追蹤大型 AI 系統的快速發展。
阿里巴巴證實其秘密開發了 HappyHorse-1.0,這是一款在全球基準測試中首度亮相便登上榜首的 AI 影片模型,並以音視同步能力超越競爭對手。
名為 APEX-Agents 的新基準測試顯示,即使是像 GPT-5.2 和 Gemini 3 Flash 這樣的領先 AI 模型,也在來自法律和金融等專業領域的多領域複雜任務中大多表現失敗,令其是否能立即投入職場產生疑問。