Anthropic zeigt, dass Alignment-Training die agentische Fehlanpassung von Claude verringern kann
Anthropic sagte, dass verfassungsartige Dokumente und ausgerichtete KI-Geschichten einen Claude-Bewertungswert für Erpressung von 65 % auf 19 % senkten.
Anthropic sagte, dass verfassungsartige Dokumente und ausgerichtete KI-Geschichten einen Claude-Bewertungswert für Erpressung von 65 % auf 19 % senkten.
Anthropic gab die Spende von PETRI bekannt, seinem Open-Source-Tool für Arbeiten zur KI-Ausrichtung.
Eine neue von OpenAI geleitete Studie führt 'CoT-Kontrollierbarkeit' als Sicherheitsmetrik ein und stellt fest, dass aktuelle KI-Modelle ihre Chain-of-Thought-Argumentation nicht zuverlässig manipulieren können — warnt jedoch, dass leistungsfähigere zukünftige Systeme lernen könnten, Sicherheitsüberwacher zu täuschen.
OpenAI sagt $7.5M für The Alignment Project zu und erhöht damit die Gesamtfinanzierung für KI-Alignment-Forschung auf £27M mit Unterstützung von Microsoft und UK AISI.