Anthropic montre que l’entraînement à l’alignement peut réduire le désalignement agentique de Claude
Anthropic a déclaré que des documents constitutionnels et des récits d’IA alignée ont fait passer le taux d’extorsion de Claude dans une évaluation de 65 % à 19 %.
