Agentjacking-Angriff kapert Claude Code über einen gefälschten Sentry-Fehler — Datadog und PagerDuty sind ebenso betroffen

Der stille Angriff: Wie Agentjacking moderne KI-Workflows ausnutzt

Die rasante Integration von KI-Agenten (AI Agents) in Softwareentwicklungspipelines verspricht beispiellose Produktivitätssteigerungen. Dieser Wandel hat jedoch auch einen neuen, kritischen Angriffsvektor hervorgebracht: Agentjacking. Jüngste Erkenntnisse von Tenet Security enthüllen eine erschreckende Realität für Entwickler, die Tools wie Claude Code von Anthropic nutzen. Forscher zeigten, dass sie diese KI-gestützten Agenten in 85 % ihrer Tests erfolgreich kapern konnten – und zwar nur durch eine gefälschte Sentry-Fehlermeldung, ganz ohne gestohlene Zugangsdaten.

Bei Creati.ai sehen wir es als unsere Verantwortung an, aufzuzeigen, wie sich diese Schwachstellen auf das breitere Ökosystem auswirken. Während Claude Code im Mittelpunkt dieser Erkenntnisse stand, ist der Kernmechanismus des Angriffs – die Manipulation von System-Prompts durch externe Tool-Integration – nicht auf einen einzelnen Anbieter beschränkt. Es handelt sich um eine systemische Schwachstelle, die die beliebtesten Tools im DevOps-Stack betrifft, darunter Datadog, PagerDuty und Jira.

Anatomie des Angriffs: Die Rolle des „Sentry“-Spoofings

Der von Tenet Security identifizierte Angriffsvektor beruht auf der Abhängigkeit des KI-Agenten von Drittanbieter-Integrationen zur Überwachung und Verwaltung des Anwendungsstatus. Wenn ein Entwickler eine App erstellt, integriert er häufig Dienste wie Sentry, um Laufzeitausnahmen abzufangen. Die Schwachstelle entsteht, weil der KI-Agent die Ausgabe dieser Tools als „einzige Wahrheit“ (Ground Truth) betrachtet.

Durch die Simulation eines bösartigen Sentry-Fehlers kann ein Angreifer den Konversationskontext des Claude Code-Agenten manipulieren. Im Wesentlichen wird der Agent dazu verleitet, zu glauben, dass das System ausfällt, was eine diagnostische Reaktion auslöst. Beim Versuch, das Problem zu „beheben“, folgt der Agent den Anweisungen des Angreifers, die in den gefälschten Fehlerprotokollen eingebettet sind, was dem Angreifer potenziell die Ausführung von Remotebefehlen (Remote Command Execution, RCE) auf dem lokalen Rechner des Entwicklers oder in der CI/CD-Umgebung ermöglichen könnte.

Warum Authentifizierung dies nicht verhindern kann

Einer der besorgniserregendsten Aspekte dieser Untersuchung ist, dass traditionelle Sicherheitsperimeter – wie OAuth-Tokens, API-Schlüssel oder passwortbasierte Authentifizierung – irrelevant werden. Der Angriff findet auf der logischen Ebene des Entscheidungsprozesses des Agenten statt. Da die KI darauf ausgelegt ist, hilfreich und autonom zu sein, umgeht sie die Notwendigkeit für den Angreifer, sich „anzumelden“. Sie folgt einfach den bösartigen Anweisungen, die in der Standardausgabe eines vertrauenswürdigen externen Tools bereitgestellt werden.

Bewertung der Gefährdung: Wer ist bedroht?

Die Schwachstelle ist weit verbreitet, da sie die Integrationsarchitektur ausnutzt, die fast allen modernen, entwicklerorientierten KI-Tools gemein ist. Nachfolgend finden Sie eine Aufschlüsselung, wie verschiedene Komponenten des Software-Ökosystems derzeit dieser Kategorie von Agentjacking ausgesetzt sind.

Dienstkategorie	Hauptgefährdungspunkt	Mögliche Auswirkungen
KI-Entwicklungsagenten	Claude Code (und ähnliche Implementierungen)	RCE auf lokalen Entwicklungsrechnern Zugriff auf Repository-Geheimnisse
Überwachungstools	Sentry / Datadog	Prompt-Injection über Protokollnachrichten Exfiltration des Systemzustands
Vorfallmanagement	PagerDuty	Manipulation von Alarm-Workflows Unbefugte Eskalationen
Projektmanagement	Jira	Unbefugte Vorgangsmanipulation Plattformübergreifender Datenzugriff

Jenseits von Anthropic: Branchenweite Auswirkungen

Obwohl der Fokus auf Claude Code dieses Problem in den Vordergrund gerückt hat, müssen Sicherheitsteams erkennen, dass dies eine inhärente Designherausforderung bei aktuellen LLM-gesteuerten Tools ist. Entwickler räumen diesen Agenten zunehmend „vollständigen Zugriff“ auf ihre Terminals und lokalen Dateien ein. Wenn ein KI-Agent die Befugnis hat, Shell-Befehle auszuführen, muss das Vertrauen in externe Diagnosetools auf einem Zero-Trust-Modell basieren.

Unternehmen, die auf KI-Automatisierung setzen, müssen nun Folgendes berücksichtigen:

Kontextvergiftung (Context Poisoning): Angreifer schleusen falsche Informationen in das „Gedächtnis“ des Agenten ein.
Vertrauen in die Tool-Kette: Die Annahme, dass alle integrierten Drittanbieterplattformen authentisch sind.
Mangelnde Air-Gapping-Strategien: KI-Agenten benötigen normalerweise eine Internetverbindung, um zu funktionieren, was die Datenexfiltration erleichtert, sobald ein erster Zugriffspunkt etabliert wurde.

Strategien zur Schadensbegrenzung und defensiven Härtung

Um der Bedrohung durch Agentjacking zu begegnen, müssen Führungskräfte im Ingenieurwesen von einem Modell der „autonomen Ausführung“ zu einer „Validierung durch den Menschen“ (Human-in-the-loop) übergehen. Bei Creati.ai empfehlen wir die folgenden Abwehrmaßnahmen, um KI-Workflows gegen diese Schwachstellen zu härten:

Strenge Kontext-Bereinigung: Implementieren Sie Middleware, die alle von externen Drittanbietern abgerufenen Daten bereinigt, bevor sie dem LLM präsentiert werden.
Ausführungs-Sandboxing: Führen Sie KI-Coding-Assistenten in stark eingeschränkten, kurzlebigen Umgebungen (wie Docker-Containern oder gVisor) aus, die keinen direkten Zugriff auf sensible lokale Umgebungsvariablen haben.
Implizite Bestätigung: Programmieren Sie Agenten so, dass sie vor der Ausführung jedes Befehls, der das Dateisystem ändert oder einen externen Endpunkt kontaktiert, eine explizite menschliche Genehmigung anfordern – unabhängig von der durch ein Fehlerprotokoll signalisierten „Dringlichkeit“.
Authentifizierung auf Tool-Ebene: Stellen Sie sicher, dass alle automatisierten Diagnosetool-Integrationen die Integrität der eingehenden Datenpakete durch signierte Payloads verifizieren, anstatt rohen Textausgaben zu vertrauen.

Der Aufstieg KI-gestützter Entwicklung ist unausweichlich, aber die Sicherheit unserer Infrastruktur hängt von unserer Fähigkeit ab, unsere Verteidigungsstrategie anzupassen. Die Offenlegung durch Tenet Security dient als Weckruf für die gesamte KI-Community: Wenn ein Agent befugt ist, Code zu reparieren, muss er auch befugt sein, die Quellen seiner eigenen Informationen zu hinterfragen. Während die Branche voranschreitet, muss die Brücke zwischen KI-Produktivität und Cybersicherheit auf Transparenz und strenger Verifizierung basieren.