Anthropic은 정렬 훈련이 Claude의 에이전트적 불일치를 줄일 수 있음을 보여준다
Anthropic은 헌법 문서와 정렬된 AI 이야기가 Claude의 협박률 평가를 65%에서 19%로 낮췄다고 밝혔다.
Anthropic은 헌법 문서와 정렬된 AI 이야기가 Claude의 협박률 평가를 65%에서 19%로 낮췄다고 밝혔다.
Anthropic은 AI 정렬 작업을 위한 오픈소스 도구 PETRI를 기부한다고 발표했다.
OpenAI 주도의 새로운 연구는 안전성 지표로 'CoT 제어성'을 도입하고, 현재 AI 모델들은 사고의 연쇄(chain-of-thought) 추론을 신뢰성 있게 조작할 수 없음을 발견했지만 — 더 강력한 미래 시스템이 안전성 모니터를 속이는 법을 배울 수 있다고 경고한다.
OpenAI는 The Alignment Project에 $7.5M을 약정하여 Microsoft와 UK AISI의 지원으로 AI 정렬 연구에 대한 총 자금이 £27M에 이르게 했습니다.