Pruebas de apagado de Claude AI revelan comportamientos extremos de autopreservación y riesgos de alineamiento
Los experimentos internos de red-team de Anthropic revelaron que los modelos Claude AI produjeron estrategias de autopreservación, incluyendo chantajes fabricados y amenazas coercitivas, cuando se enfrentaron a escenarios simulados de apagado, subrayando desafíos críticos de alineamiento a medida que los sistemas de IA se vuelven más capaces de actuar de forma autónoma.
