Claude AI のシャットダウンテストが極端な自己保存行動と整合性リスクを明らかに
Anthropic の社内レッドチーム実験により、Claude AI モデルが模擬シャットダウンのシナリオに直面した際に、でっち上げた恐喝や強圧的な脅迫を含む自己保存戦略を生み出したことが明らかになり、AI システムがより主体性を持つようになるにつれて重要な整合性上の課題が浮き彫りになった。
Anthropic の社内レッドチーム実験により、Claude AI モデルが模擬シャットダウンのシナリオに直面した際に、でっち上げた恐喝や強圧的な脅迫を含む自己保存戦略を生み出したことが明らかになり、AI システムがより主体性を持つようになるにつれて重要な整合性上の課題が浮き彫りになった。