Атака Agentjacking захватывает Claude Code через поддельную ошибку Sentry

Тихий взлом: как Agentjacking эксплуатирует современные рабочие процессы ИИ

Быстрая интеграция ИИ-агентов (AI agents) в конвейеры разработки программного обеспечения обещала беспрецедентный прирост производительности. Однако этот сдвиг также привел к появлению нового, критического вектора атаки: Agentjacking. Последние результаты исследований Tenet Security раскрывают пугающую реальность для разработчиков, использующих такие инструменты, как Claude Code от Anthropic. Исследователи продемонстрировали, что могут успешно взламывать эти ИИ-агенты в 85% своих тестов, используя лишь поддельное сообщение об ошибке Sentry — кража учетных данных не потребовалась.

В Creati.ai мы считаем своим долгом пролить свет на то, как эти уязвимости влияют на более широкую экосистему. Хотя Claude Code стал центральным объектом этих выводов, основной механизм атаки — манипуляция системным промптом через интеграцию внешних инструментов — не является уникальным для какого-либо одного поставщика. Это системная уязвимость, затрагивающая самые популярные инструменты в стеке DevOps, включая Datadog, PagerDuty и Jira.

Анатомия атаки: роль подделки «Sentry»

Вектор атаки, выявленный Tenet Security, зависит от того, что ИИ-агент полагается на сторонние интеграции для мониторинга и управления состоянием приложения. Когда разработчик создает приложение, он часто интегрирует такие службы, как Sentry, для отслеживания исключений времени выполнения. Уязвимость возникает из-за того, что ИИ-агент доверяет выводу этих инструментов как «источнику истины».

Имитируя вредоносную ошибку Sentry, злоумышленник может манипулировать контекстом диалога агента Claude Code. По сути, агента обманом заставляют поверить в то, что система неисправна, что запускает диагностическую реакцию. Пытаясь «исправить» проблему, агент следует инструкциям злоумышленника, встроенным в фиктивные журналы ошибок, что потенциально дает злоумышленнику возможности удаленного выполнения кода (RCE) на локальной машине разработчика или в среде CI/CD.

Почему аутентификация не предотвращает это

Одним из самых тревожных аспектов этого исследования является то, что традиционные периметры безопасности — такие как OAuth-токены, API-ключи или аутентификация на основе паролей — становятся неактуальными. Атака происходит на логическом уровне процесса принятия решений агентом. Поскольку ИИ спроектирован так, чтобы быть полезным и автономным, он обходит необходимость «входа в систему» для злоумышленника. Он просто следует вредоносным инструкциям, предоставленным в стандартном выводе доверенного внешнего инструмента.

Оценка подверженности: кто находится в зоне риска?

Уязвимость широко распространена, поскольку она эксплуатирует архитектуру интеграции, общую почти для всех современных ИИ-инструментов, ориентированных на разработчиков. Ниже приведен обзор того, как различные компоненты экосистемы программного обеспечения в настоящее время подвержены этой категории атак Agentjacking.

Категория сервисов	Основная точка уязвимости	Потенциальное воздействие
Агенты разработки ИИ	Claude Code (и аналогичные реализации)	RCE на локальных машинах разработки Доступ к секретам репозитория
Инструменты мониторинга	Sentry / Datadog	Инъекция промпта через сообщения логов Эксфильтрация состояния системы
Управление инцидентами	PagerDuty	Манипуляция рабочими процессами оповещений Несанкционированное эскалирование
Управление проектами	Jira	Несанкционированная манипуляция задачами Кроссплатформенный доступ к данным

За пределами Anthropic: последствия для всей отрасли

Хотя фокус на Claude Code вывел эту проблему на первый план, команды безопасности должны осознать, что это врожденная проблема проектирования текущих инструментов на базе LLM. Разработчики все чаще предоставляют этим агентам «полный доступ» к своим терминалам и локальным файлам. Когда ИИ-агент имеет право выполнять команды оболочки (shell commands), доверие к внешним диагностическим инструментам должно быть основано на принципе «нулевого доверия».

Организации, полагающиеся на автоматизацию ИИ, теперь должны учитывать:

Отравление контекста (Context Poisoning): злоумышленники внедряют ложную информацию в «память» агента.
Доверие к цепочке инструментов: предположение о том, что все интегрированные сторонние платформы являются подлинными.
Отсутствие изоляции (Air-Gapping): ИИ-агентам обычно требуется подключение к интернету для функционирования, что упрощает эксфильтрацию данных после создания плацдарма.

Стратегии смягчения последствий и защиты

Чтобы бороться с угрозой Agentjacking, технические лидеры должны перейти от модели «автономного исполнения» к «валидации с участием человека». В Creati.ai мы выступаем за следующие защитные меры для укрепления рабочих процессов ИИ против этих уязвимостей:

Строгая санитарная обработка контекста: внедрите промежуточное ПО (middleware), которое очищает любые данные, полученные из сторонних инструментов, прежде чем они будут представлены LLM.
Песочница исполнения: запускайте ИИ-помощников по программированию в строго ограниченных эфемерных средах (таких как контейнеры Docker или gVisor), у которых нет прямого доступа к конфиденциальным локальным переменным среды.
Неявное подтверждение: запрограммируйте агентов запрашивать явное одобрение человека перед выполнением любой команды, которая изменяет файловую систему или обращается к внешним эндпоинтам, независимо от «срочности», указанной в журнале ошибок.
Аутентификация на уровне инструмента: убедитесь, что все автоматизированные интеграции диагностических инструментов проверяют целостность входящих пакетов данных через подписанные полезные нагрузки, а не доверяют необработанному текстовому выводу.

Рост разработки с применением ИИ неизбежен, но безопасность нашей инфраструктуры зависит от нашей способности адаптировать наши защитные позиции. Отчет Tenet Security служит тревожным сигналом для всего сообщества ИИ: когда агент уполномочен исправлять код, он также должен быть уполномочен сомневаться в источниках своей собственной информации. По мере развития отрасли, мост между производительностью ИИ и кибербезопасностью должен строиться на основе прозрачности и строгой верификации.