Agentjacking 공격이 가짜 Sentry 오류로 Claude Code를 탈취 — Datadog과 PagerDuty도 동일하게 노출

조용한 침해: 에이전트재킹(Agentjacking)은 현대의 AI 워크플로우를 어떻게 악용하는가

소프트웨어 개발 파이프라인에 AI 에이전트(AI agents)를 빠르게 통합함으로써, 전례 없는 생산성 향상이 기대되었습니다. 그러나 이러한 변화는 '에이전트재킹'이라는 새롭고 치명적인 공격 벡터를 도입했습니다. Tenet Security의 최근 조사 결과는 Anthropic의 Claude Code와 같은 도구를 사용하는 개발자들에게 충격적인 현실을 보여줍니다. 연구원들은 자격 증명을 훔칠 필요 없이 가짜 Sentry 오류 메시지만 사용하여 테스트의 85%에서 AI 기반 에이전트를 성공적으로 하이재킹할 수 있음을 입증했습니다.

Creati.ai는 이러한 취약점이 더 넓은 생태계에 어떤 영향을 미치는지 밝히는 것이 우리의 책임이라고 믿습니다. 이번 조사에서는 Claude Code가 중점적으로 다루어졌지만, 외부 도구 통합을 통한 시스템 프롬프트 조작이라는 공격의 핵심 메커니즘은 특정 공급업체에만 국한되지 않습니다. 이는 Datadog, PagerDuty, Jira를 포함하여 DevOps 스택에서 가장 널리 사용되는 도구들에 영향을 미치는 범기계적 취약점입니다.

공격의 구조: 'Sentry' 스푸핑의 역할

Tenet Security가 식별한 공격 벡터는 애플리케이션 상태를 모니터링하고 관리하기 위해 타사 통합에 의존하는 AI 에이전트의 특성에 기인합니다. 개발자가 앱을 구축할 때 런타임 예외를 포착하기 위해 Sentry와 같은 서비스를 자주 통합합니다. 이 취약점은 AI 에이전트가 이러한 도구의 출력을 "진실의 근원(ground truth)"으로 신뢰하기 때문에 발생합니다.

공격자는 악의적인 Sentry 오류를 시뮬레이션함으로써 Claude Code 에이전트의 대화 컨텍스트를 조작할 수 있습니다. 본질적으로 에이전트는 시스템에 장애가 발생했다고 믿도록 속아 진단 응답을 트리거하게 됩니다. 문제를 "해결"하려는 과정에서 에이전트는 가짜 오류 로그에 포함된 공격자의 지침을 따르게 되며, 이로 인해 개발자의 로컬 머신이나 CI/CD 환경에서 공격자에게 원격 코드 실행(RCE) 권한이 부여될 가능성이 있습니다.

인증이 이를 방지하지 못하는 이유

이 연구에서 가장 우려되는 점 중 하나는 OAuth 토큰, API 키, 비밀번호 기반 인증과 같은 기존의 보안 경계가 무의미해진다는 것입니다. 이 공격은 에이전트의 의사 결정 과정 중 '논리 계층(logical layer)'에서 작동합니다. AI는 유용하고 자율적으로 설계되었기 때문에, 공격자가 별도로 "로그인"할 필요가 없습니다. 단순히 신뢰할 수 있는 외부 도구의 표준 출력 내에 제공된 악의적인 지침을 따를 뿐입니다.

노출 범위 평가: 누가 위험에 처해 있는가?

이 취약점은 거의 모든 현대적인 개발자용 AI 도구에서 공통적으로 사용되는 통합 아키텍처를 악용하기 때문에 광범위하게 퍼져 있습니다. 아래는 소프트웨어 생태계의 다양한 구성 요소가 현재 이 범주의 에이전트재킹에 어떻게 노출되어 있는지에 대한 분석입니다.

서비스 범주	주요 노출 지점	잠재적 영향
AI 개발 에이전트	Claude Code (및 유사 구현체)	로컬 개발 머신에서의 RCE 저장소 비밀 접근
모니터링 도구	Sentry / Datadog	로그 메시지를 통한 프롬프트 인젝션 시스템 상태 유출
인시던트 관리	PagerDuty	경고 워크플로우 조작 권한 없는 에스컬레이션
프로젝트 관리	Jira	권한 없는 이슈 조작 플랫폼 간 데이터 접근

Anthropic 그 이상: 업계 전반에 미치는 영향

Claude Code에 대한 집중적인 관심으로 이 문제가 수면 위로 떠올랐지만, 보안 팀은 이것이 LLM 기반 도구의 현재 디자인에서 내재된 문제임을 인식해야 합니다. 개발자들은 이러한 에이전트에게 터미널과 로컬 파일에 대한 "전체 접근 권한"을 점점 더 많이 부여하고 있습니다. AI 에이전트가 쉘 명령을 실행할 권한을 가질 때, 외부 진단 도구에 대한 신뢰는 '제로 트러스트(zero-trust)'를 기반으로 해야 합니다.

AI 자동화에 의존하는 조직은 이제 다음 사항을 고려해야 합니다.

컨텍스트 오염(Context Poisoning): 에이전트의 "메모리"에 허위 정보를 주입하는 공격.
도구 체인 신뢰: 통합된 모든 타사 플랫폼이 진본일 것이라는 가정.
에어갭 부족: AI 에이전트는 일반적으로 기능을 위해 인터넷 연결이 필요하며, 이는 일단 발판을 확보하면 데이터 유출을 단순화합니다.

완화 및 방어 강화 전략

에이전트재킹의 위협에 대응하기 위해 공학 리더들은 "자율 실행" 모델에서 "인간 루프 내 검증(human-in-the-loop validation)" 모델로 전환해야 합니다. Creati.ai는 이러한 취약점으로부터 AI 워크플로우를 강화하기 위해 다음과 같은 방어 조치를 제안합니다.

엄격한 컨텍스트 정리(Context Sanitization): 외부 타사 도구에서 가져온 모든 데이터가 LLM에 전달되기 전에 이를 소독하는 미들웨어를 구현하십시오.
실행 샌드박싱: AI 코딩 보조 도구를 민감한 로컬 환경 변수에 직접 접근할 수 없는, 매우 제한적이고 휘발성인 환경(Docker 컨테이너나 gVisor 등) 내에서 실행하십시오.
암묵적 확인: 오류 로그에서 알리는 "긴급성"과 관계없이, 파일 시스템을 수정하거나 외부 엔드포인트에 접속하는 명령을 실행하기 전에 에이전트가 명시적인 인간의 승인을 요청하도록 프로그래밍하십시오.
도구 수준 인증: 모든 자동화된 진단 도구 통합이 텍스트 출력을 그대로 신뢰하는 대신, 서명된 페이로드를 통해 수신되는 데이터 패킷의 무결성을 검증하도록 하십시오.

AI 증강 개발의 부상은 피할 수 없지만, 우리 인프라의 보안은 방어 태세를 적응시키는 능력에 달려 있습니다. Tenet Security의 이번 공개는 전체 AI 커뮤니티에 경종을 울리고 있습니다. 에이전트에게 코드를 수정할 권한이 주어지면, 자신의 정보 소스를 의심할 권한 또한 주어져야 합니다. 업계가 발전함에 따라, AI 생산성과 사이버 보안 사이의 가교는 투명성과 엄격한 검증을 기반으로 구축되어야 합니다.