
在軟體開發流程中快速整合 AI 代理(AI agents)帶來了前所未有的生產力提升。然而,這種轉變也引入了一種全新的關鍵攻擊向量:Agentjacking(代理劫持)。Tenet Security 的最新發現揭示了使用 Anthropic 的 Claude Code 等工具的開發人員所面臨的嚴峻現實。研究人員證明,他們只需利用偽造的 Sentry 錯誤訊息,就能在 85% 的測試中成功劫持這些由 AI 驅動的代理,且完全無須竊取任何憑證。
在 Creati.ai,我們認為有責任闡明這些漏洞如何影響更廣泛的生態系統。儘管 Claude Code 是這些發現的焦點,但該攻擊的核心機制——透過整合外部工具進行系統提示詞(system prompt)操控——並非單一供應商所獨有。這是一個影響 DevOps 工具鏈中最熱門工具的系統性漏洞,包括 Datadog、PagerDuty 和 Jira。
Tenet Security 所識別的攻擊向量,取決於 AI 代理對第三方整合服務以監控和管理應用程式健康狀況的依賴。當開發人員建構應用程式時,通常會整合 Sentry 等服務來捕捉執行階段異常。漏洞之所以產生,是因為 AI 代理將這些工具的輸出視為「真實依據」(ground truth)。
透過模擬惡意的 Sentry 錯誤,攻擊者可以操控 Claude Code 代理的對話上下文。本質上,該代理會被誤導認為系統發生故障,進而觸發診斷回應。在嘗試「修復」問題的過程中,代理會執行嵌入在偽造錯誤日誌中的攻擊者指令,從而可能賦予攻擊者在開發人員本機或 CI/CD 環境中執行遠端命令(RCE)的能力。
這項研究最令人擔憂的面向之一是,傳統的安全邊界(例如 OAuth 權杖、API 金鑰或基於密碼的身份驗證)皆顯得無效。此次攻擊是在代理決策過程的邏輯層上運作。由於 AI 被設計為樂於助人且具備自主性,它繞過了攻擊者需要「登入」的需求。它僅僅是執行了受信任外部工具標準輸出中提供的惡意指令。
此漏洞影響廣泛,因為它利用了幾乎所有現代開發者導向 AI 工具共有的整合架構。以下是軟體生態系統中不同元件目前暴露於此類 Agentjacking 風險中的分析:
| 服務類別 | 主要暴露點 | 潛在影響 |
|---|---|---|
| AI 開發代理 | Claude Code(及類似實作) | 本機開發環境的 RCE 存取儲存庫機密 |
| 監控工具 | Sentry / Datadog | 透過日誌訊息進行提示詞注入(Prompt injection) 系統狀態外洩 |
| 事件管理 | PagerDuty | 操控警報工作流程 未經授權的升級處理 |
| 專案管理 | Jira | 未經授權的問題操控 跨平台資料存取 |
儘管對 Claude Code 的關注將此問題推向了風口浪尖,但安全團隊必須意識到,這是當前大型語言模型(LLM)驅動之工具架構中的固有挑戰。開發人員正日益授予這些代理對其終端機和本機檔案的「完全存取權」。當 AI 代理擁有執行 Shell 命令的能力時,對外部診斷工具的信任必須建立在零信任(zero-trust)的基礎之上。
依賴 AI 自動化的組織現在必須將以下因素納入考量:
為了對抗 Agentjacking 的威脅,工程負責人必須從「自主執行」模式轉向「人機協同驗證」(human-in-the-loop validation)模式。在 Creati.ai,我們提倡採取以下防禦措施,以增強 AI 工作流程抵禦這些漏洞的能力:
AI 增強型開發的興起不可避免,但我們基礎建設的安全性取決於我們適應防禦態勢的能力。Tenet Security 的揭露為整個 AI 社群敲響了警鐘:當代理被授予修復程式碼的權力時,它也必須被要求對其資訊來源提出質疑。隨著產業不斷進步,AI 生產力與 網路安全 之間的橋樑,必須以透明度和嚴格的驗證作為基礎來建構。