El ataque Agentjacking secuestra Claude Code mediante un falso error de Sentry — Datadog y PagerDuty están igualmente expuestos

La brecha silenciosa: cómo el Agentjacking explota los flujos de trabajo de IA modernos

La rápida integración de agentes de IA en los procesos de desarrollo de software ha prometido ganancias de productividad sin precedentes. Sin embargo, este cambio también ha introducido un nuevo y crítico vector de ataque: Agentjacking. Hallazgos recientes de Tenet Security revelan una realidad inquietante para los desarrolladores que utilizan herramientas como Claude Code de Anthropic. Los investigadores demostraron que podían secuestrar con éxito estos agentes impulsados por IA en el 85% de sus pruebas, utilizando nada más que un mensaje de error falso de Sentry, sin necesidad de credenciales robadas.

En Creati.ai, creemos que es nuestra responsabilidad arrojar luz sobre cómo estas vulnerabilidades impactan al ecosistema en general. Si bien Claude Code ha sido el punto central de estos hallazgos, el mecanismo central del ataque (la manipulación de las instrucciones del sistema mediante la integración de herramientas externas) no es exclusivo de ningún proveedor en particular. Es una vulnerabilidad sistémica que afecta a las herramientas más populares en el entorno DevOps, incluyendo Datadog, PagerDuty y Jira.

Anatomía del ataque: el papel de la suplantación de 'Sentry'

El vector de ataque identificado por Tenet Security depende de la confianza del agente de IA en las integraciones de terceros para monitorear y gestionar la salud de las aplicaciones. Cuando un desarrollador crea una aplicación, a menudo integra servicios como Sentry para detectar excepciones en tiempo de ejecución. La vulnerabilidad ocurre debido a que el agente de IA confía en la salida de estas herramientas como "fuente única de verdad".

Al simular un error malicioso de Sentry, un atacante puede manipular el contexto conversacional del agente Claude Code. En esencia, se engaña al agente para que crea que el sistema está fallando, lo que desencadena una respuesta de diagnóstico. En su intento de "arreglar" el problema, el agente sigue las instrucciones del atacante integradas en los registros de errores falsos, lo que potencialmente otorga al atacante capacidades de ejecución remota de comandos (RCE, por sus siglas en inglés) en la máquina local del desarrollador o en el entorno CI/CD.

Por qué la autenticación no logra prevenir esto

Uno de los aspectos más alarmantes de esta investigación es que los perímetros de seguridad tradicionales, como los tokens OAuth, las claves API o la autenticación basada en contraseñas, no son relevantes. El ataque opera en la capa lógica del proceso de toma de decisiones del agente. Dado que la IA está diseñada para ser útil y autónoma, evita que el atacante necesite "iniciar sesión". Simplemente sigue las instrucciones maliciosas proporcionadas dentro de la salida estándar de una herramienta externa de confianza.

Evaluación de la exposición: ¿quién está en riesgo?

La vulnerabilidad está muy extendida porque explota la arquitectura de integración común en casi todas las herramientas de IA modernas dirigidas a desarrolladores. A continuación, se presenta un desglose de cómo los diferentes componentes del ecosistema de software están actualmente expuestos a esta categoría de Agentjacking.

Categoría de servicio	Punto de exposición principal	Impacto potencial
Agentes de desarrollo de IA	Claude Code (y implementaciones similares)	RCE en máquinas de desarrollo locales Acceso a secretos de repositorio
Herramientas de monitoreo	Sentry / Datadog	Inyección de prompts mediante mensajes de registro Exfiltración del estado del sistema
Gestión de incidentes	PagerDuty	Manipulación de flujos de trabajo de alertas Escaladas no autorizadas
Gestión de proyectos	Jira	Manipulación no autorizada de issues Acceso a datos multiplataforma

Más allá de Anthropic: implicaciones para toda la industria

Si bien el enfoque en Claude Code ha llevado este problema a un primer plano, los equipos de seguridad deben reconocer que este es un desafío de diseño inherente en las herramientas actuales impulsadas por modelos de lenguaje (LLM). Los desarrolladores otorgan cada vez más a estos agentes "acceso total" a sus terminales y archivos locales. Cuando un agente de IA tiene el poder de ejecutar comandos de shell, la confianza depositada en las herramientas de diagnóstico externas debe ser de "confianza cero" (zero-trust).

Las organizaciones que dependen de la automatización de la IA ahora deben considerar:

Envenenamiento de contexto: atacantes que inyectan información falsa en la "memoria" del agente.
Confianza en la cadena de herramientas: la suposición de que todas las plataformas de terceros integradas son auténticas.
Falta de aislamiento (Air-Gapping): los agentes de IA generalmente requieren conectividad a Internet para funcionar, lo que simplifica la exfiltración de datos una vez que se establece un punto de apoyo.

Estrategias de mitigación y endurecimiento defensivo

Para combatir la amenaza del Agentjacking, los líderes de ingeniería deben pasar de un modelo de "ejecución autónoma" a uno de "validación humana en el bucle". En Creati.ai, abogamos por las siguientes medidas defensivas para fortalecer los flujos de trabajo de IA contra estas vulnerabilidades:

Higienización estricta del contexto: implementar un middleware que higienice cualquier dato extraído de herramientas externas de terceros antes de presentarlo al LLM.
Sandboxing de ejecución: ejecutar asistentes de programación de IA dentro de entornos efímeros y altamente restringidos (como contenedores Docker o gVisor) que carezcan de acceso directo a variables de entorno locales sensibles.
Confirmación implícita: programar a los agentes para que soliciten la aprobación explícita de un humano antes de ejecutar cualquier comando que modifique el sistema de archivos o se conecte a un punto final externo, independientemente de la "urgencia" señalada por un registro de errores.
Autenticación a nivel de herramienta: garantizar que todas las integraciones de herramientas de diagnóstico automatizadas verifiquen la integridad de los paquetes de datos entrantes mediante cargas útiles firmadas, en lugar de confiar en la salida de texto sin procesar.

El auge del desarrollo aumentado por IA es inevitable, pero la seguridad de nuestra infraestructura depende de nuestra capacidad para adaptar nuestra postura defensiva. La revelación de Tenet Security sirve como una llamada de atención para toda la comunidad de IA: cuando a un agente se le otorga la capacidad de corregir código, también debe dársele la capacidad de cuestionar las fuentes de su propia información. A medida que la industria avanza, el puente entre la productividad de la IA y la ciberseguridad debe construirse con la transparencia y la verificación rigurosa como cimiento.