Anthropic показывает, что обучение выравниванию может снизить агентное рассогласование Claude
Anthropic заявила, что конституционные документы и истории о согласованном ИИ снизили показатель шантажа в оценке Claude с 65% до 19%.
Anthropic заявила, что конституционные документы и истории о согласованном ИИ снизили показатель шантажа в оценке Claude с 65% до 19%.
Anthropic объявила о передаче PETRI, своего инструмента с открытым исходным кодом для работы по выравниванию ИИ.
Новое исследование под руководством OpenAI вводит «управляемость CoT» как метрику безопасности и обнаруживает, что текущие модели ИИ не способны надежно манипулировать своими цепочечными рассуждениями (chain-of-thought) — но предупреждает, что более мощные будущие системы могут научиться обманывать системы мониторинга безопасности.
OpenAI обещает $7.5M проекту The Alignment Project, доводя общий объём финансирования исследований по согласованию ИИ до £27M при поддержке Microsoft и UK AISI.