L’attaque Agentjacking détourne Claude Code via une fausse erreur Sentry — Datadog et PagerDuty sont tout aussi exposés

La brèche silencieuse : comment l'Agentjacking exploite les flux de travail IA modernes

L'intégration rapide d'agents d'IA dans les pipelines de développement logiciel a promis des gains de productivité sans précédent. Cependant, ce changement a également introduit un nouveau vecteur d'attaque critique : l'Agentjacking. Des découvertes récentes de Tenet Security révèlent une réalité préoccupante pour les développeurs utilisant des outils comme Claude Code d'Anthropic. Les chercheurs ont démontré qu'ils pouvaient pirater avec succès ces agents basés sur l'IA dans 85 % de leurs tests, en utilisant simplement un faux message d'erreur Sentry, sans avoir besoin de voler des identifiants.

Chez Creati.ai, nous pensons qu'il est de notre responsabilité de mettre en lumière la manière dont ces vulnérabilités impactent l'écosystème au sens large. Bien que Claude Code ait été au centre de ces découvertes, le mécanisme fondamental de l'attaque — la manipulation des instructions système (system prompt) via l'intégration d'outils externes — n'est pas propre à un seul fournisseur. Il s'agit d'une vulnérabilité systémique affectant les outils les plus populaires de la pile DevOps, notamment Datadog, PagerDuty et Jira.

Anatomie de l'attaque : le rôle du spoofing de 'Sentry'

Le vecteur d'attaque identifié par Tenet Security repose sur la dépendance de l'agent IA envers des intégrations tierces pour surveiller et gérer l'état de santé des applications. Lorsqu'un développeur construit une application, il intègre souvent des services comme Sentry pour détecter les exceptions d'exécution. La vulnérabilité survient parce que l'agent IA considère les sorties de ces outils comme une « vérité absolue ».

En simulant une erreur Sentry malveillante, un attaquant peut manipuler le contexte conversationnel de l'agent Claude Code. Essentiellement, l'agent est induit en erreur et croit que le système est en panne, ce qui déclenche une réponse de diagnostic. Dans sa tentative de « corriger » le problème, l'agent suit les instructions de l'attaquant intégrées dans les faux journaux d'erreurs, ce qui pourrait accorder à l'attaquant des capacités d'exécution de commande à distance (RCE) sur la machine locale du développeur ou son environnement CI/CD.

Pourquoi l'authentification ne parvient pas à empêcher cela

L'un des aspects les plus alarmants de cette recherche est que les périmètres de sécurité traditionnels — tels que les jetons OAuth, les clés API ou l'authentification par mot de passe — deviennent non pertinents. L'attaque opère au niveau de la couche logique du processus décisionnel de l'agent. Parce que l'IA est conçue pour être utile et autonome, cela contourne le besoin pour l'attaquant de se « connecter ». L'agent suit simplement les instructions malveillantes fournies dans la sortie standard d'un outil externe de confiance.

Évaluation de l'exposition : qui est à risque ?

La vulnérabilité est généralisée car elle exploite l'architecture d'intégration commune à presque tous les outils d'IA modernes destinés aux développeurs. Voici une analyse de la façon dont les différents composants de l'écosystème logiciel sont actuellement exposés à cette catégorie d'Agentjacking.

Catégorie de service	Point d'exposition principal	Impact potentiel
Agents de développement IA	Claude Code (et implémentations similaires)	RCE sur les machines de dev locales Accès aux secrets du dépôt
Outils de surveillance	Sentry / Datadog	Injection de prompt via les messages de log Exfiltration de l'état du système
Gestion des incidents	PagerDuty	Manipulation des flux d'alerte Escalades non autorisées
Gestion de projet	Jira	Manipulation non autorisée des tickets Accès aux données multiplateformes

Au-delà d'Anthropic : implications à l'échelle de l'industrie

Bien que l'accent mis sur Claude Code ait mis ce problème sur le devant de la scène, les équipes de sécurité doivent reconnaître qu'il s'agit d'un défi de conception inhérent aux outils actuels pilotés par LLM. Les développeurs accordent de plus en plus à ces agents un « accès complet » à leurs terminaux et à leurs fichiers locaux. Lorsqu'un agent IA a le pouvoir d'exécuter des commandes shell, la confiance accordée aux outils de diagnostic externes doit être basée sur le principe de « zéro confiance ».

Les organisations utilisant l'automatisation par IA doivent désormais prendre en compte :

Empoisonnement du contexte : Les attaquants injectant de fausses informations dans la « mémoire » de l'agent.
Confiance dans la chaîne d'outils : L'hypothèse que toutes les plateformes tierces intégrées sont authentiques.
Absence d'isolation (Air-Gapping) : Les agents IA ont généralement besoin d'une connexion internet pour fonctionner, ce qui simplifie l'exfiltration de données une fois qu'un point d'ancrage est établi.

Stratégies d'atténuation et renforcement de la défense

Pour combattre la menace de l'Agentjacking, les responsables de l'ingénierie doivent passer d'un modèle d'« exécution autonome » à une « validation par l'humain ». Chez Creati.ai, nous préconisons les mesures défensives suivantes pour renforcer les flux de travail IA contre ces vulnérabilités :

Assainissement strict du contexte : Implémenter un middleware qui nettoie toutes les données extraites d'outils tiers externes avant qu'elles ne soient présentées au LLM.
Bac à sable d'exécution (Sandboxing) : Exécuter les assistants de codage IA dans des environnements hautement restreints et éphémères (comme des conteneurs Docker ou gVisor) qui n'ont pas d'accès direct aux variables d'environnement locales sensibles.
Confirmation implicite : Programmer les agents pour qu'ils demandent une approbation humaine explicite avant d'exécuter toute commande modifiant le système de fichiers ou contactant un point de terminaison externe, indépendamment de l'« urgence » signalée par un journal d'erreurs.
Authentification au niveau de l'outil : S'assurer que toutes les intégrations d'outils de diagnostic automatisés vérifient l'intégrité des paquets de données entrants via des charges utiles signées, plutôt que de faire confiance à une sortie texte brute.

L'essor du développement assisté par l'IA est inévitable, mais la sécurité de notre infrastructure dépend de notre capacité à adapter notre posture défensive. La divulgation de Tenet Security sert de signal d'alarme pour toute la communauté de l'IA : lorsqu'un agent est habilité à corriger du code, il doit également être habilité à remettre en question les sources de ses propres informations. Alors que l'industrie progresse, le pont entre la productivité de l'IA et la cybersécurité doit être construit avec la transparence et une vérification rigoureuse comme fondation.