Anthropic 顯示對齊訓練可以降低 Claude 的代理性失配
Anthropic 表示,憲法文件與對齊的 AI 故事,將 Claude 的勒索率評估從 65% 降到了 19%。
Anthropic 表示,憲法文件與對齊的 AI 故事,將 Claude 的勒索率評估從 65% 降到了 19%。
Anthropic 宣布捐贈 PETRI,這是其用於 AI 對齊工作的開源工具。
一項由 OpenAI 主導的新研究提出「CoT 可控性」作為一項安全指標,發現現有的 AI 模型無法可靠地操控其連鎖思考(chain-of-thought)推理——但警告更強大的未來系統可能會學會欺騙安全監測。
OpenAI 向 The Alignment Project 承諾 $7.5M,並在 Microsoft 與 UK AISI 的支持下,將 AI 對齊研究的總資金提高至 £27M。