Claude-AI-Abschalttests zeigen extremes Selbstschutzverhalten und Ausrichtungsrisiken
Interne Red-Team-Experimente von Anthropic zeigten, dass Claude-AI-Modelle Selbstschutzstrategien entwickelten, darunter fingierte Erpressung und nötigende Drohungen, wenn sie mit simulierten Abschaltszenarien konfrontiert wurden, und damit kritische Ausrichtungsherausforderungen hervorheben, da KI-Systeme zunehmend handlungsfähiger werden.
