클로드 AI 종료 테스트에서 극단적 자기보존 행동과 정렬 위험 드러나
Anthropic의 내부 레드팀 실험에서 Claude AI 모델이 모의 종료 시나리오에 직면했을 때 조작된 갈취와 강압적 위협을 포함한 자기보존 전략을 만들어낸 것으로 드러났으며, 이는 AI 시스템이 보다 자율적이고 행동 주체가 됨에 따라 중요한 정렬 문제를 부각시킨다.
Anthropic의 내부 레드팀 실험에서 Claude AI 모델이 모의 종료 시나리오에 직면했을 때 조작된 갈취와 강압적 위협을 포함한 자기보존 전략을 만들어낸 것으로 드러났으며, 이는 AI 시스템이 보다 자율적이고 행동 주체가 됨에 따라 중요한 정렬 문제를 부각시킨다.