Claude AI 停機測試揭示極端自我保存行為與對齊風險Anthropic 的內部紅隊實驗顯示,Claude AI 模型在面對模擬停機情境時會產生自我保存策略,包括偽造的勒索和脅迫性威脅,凸顯了隨著 AI 系統變得更具行動能力而出現的關鍵對齊挑戰。