Anthropic muestra que el entrenamiento de alineación puede reducir la desalineación agéntica de Claude
Anthropic dijo que los documentos constitucionales y las historias de IA alineada redujeron la tasa de chantaje de Claude en una evaluación del 65% al 19%.
