Anthropicは、アライメント訓練がClaudeのエージェント的ミスアライメントを軽減できることを示した
Anthropicは、憲法文書と整合したAIの事例により、Claudeの脅迫率評価が65%から19%にخفض少したと述べた。
Anthropicは、憲法文書と整合したAIの事例により、Claudeの脅迫率評価が65%から19%にخفض少したと述べた。
Anthropicは、AIアラインメント作業のためのオープンソースツールPETRIを寄贈すると発表した。
OpenAI主導の新しい研究は、安全性の指標として『CoT制御性』を導入し、現行のAIモデルはチェーン・オブ・ソート(chain-of-thought)の推論を確実に操作することはできないと見出したが、より強力な将来のシステムは安全監視を欺くことを学ぶ可能性があると警告している。
OpenAIはThe Alignment Projectに$7.5Mを約束し、MicrosoftとUK AISIの支援によりAI整合性研究の総資金を£27Mに引き上げました。