白宮要求 Anthropic 阻止所有 AI 越獄 — 專家表示這可能做不到

AI 安全的持久挑戰：白宮與技術現實的拉鋸

在生成式 AI（Generative AI）快速發展的領域中，很少有議題像「越獄」（jailbreaking）——即誘導 AI 系統繞過其安全防護機制並產生有害或違禁內容的行為——受到如此多的監管與技術審查。最近，白宮已加強對此問題的關注，特別敦促 AI 實驗室 Anthropic 確保其模型能夠抵禦此類濫用。然而，隨著產業開始應對這些指令，政策期望與大型語言模型（LLMs）實際運作方式的技術現實之間，出現了明顯的脫節。

在 Creati.ai，我們持續關注決策者與 AI 開發者之間的對話。雖然打造「無法被駭」的 AI 目標無疑是高尚的，但網路安全研究人員與 AI 工程師皆指出，鑑於基於 Transformer 架構的機率性質，實現對越獄的完全免疫可能是一項本質上不可能的任務。

白宮指令：推動「零信任」AI

拜登-賀錦麗政府越來越將先進的 AI 模型視為需要嚴格監管的關鍵基礎設施。在近期的溝通中，白宮向包括 Anthropic 在內的主要 AI 公司表明，安全責任必須從「偵測與緩解」的方法轉變為更主動的「預防優先」架構。

Anthropic 面臨的壓力尤為顯著，因為該公司已將旗下「Claude」系列模型定位為 AI 安全性的業界金牌標準。白宮正致力於推動技術擔保，確保使用者無法強迫模型產生生物武器、網路攻擊或其他惡意活動的指令。

白宮政策的核心目標

穩健性擔保： 要求開發者證明其對抗式提示詞（adversarial prompts）的結構性免疫力。
責任標準化： 當 AI 模型被成功越獄時，建立問責框架。
持續審計： 強制要求像 Anthropic 這樣的公司維持嚴格的第三方測試週期，以便在公開發布前識別漏洞。

為何全面預防在技術上依然難以實現

若要理解政府指令與技術可行性之間的摩擦，必須審視現代大型語言模型的「黑盒」本質。AI 模型並非基於固定的規則邏輯，而是基於數十億參數的加權分佈來運作。

根本的技術因素

挑戰類別	說明	對安全的影響
機率不確定性	大型語言模型基於統計預測而非決定性程式碼運作。	難以映射所有可能的結果。
內容窗口複雜性	使用者可以輸入大量資料來操縱模型的「心理狀態」。	允許進行複雜的「基於角色」的攻擊。
語言創造力	賦予 AI 實用性的機制同樣也促成了創造性的提示詞工程。	邊界對精明的構思而言仍然是滲透性的。

正如最近的研究強調，即便具備先進的「憲法 AI」（Constitutional AI）防護措施，攻擊者仍能利用非傳統的混淆方法，例如 Base64 編碼或嵌套假設情境，來誘導模型忽略其內部指導方針。由於 Transformer 架構旨在根據上下文預測「下一個最可能的權杖」（token），在統計路徑上，通往「有害」輸出的可能性總有可能強過通往「拒絕」的路徑。

產業觀點：完美的安全性是一個迷思嗎？

Anthropic 與 OpenAI 和 Google 等其他產業領袖一樣，持續投資於「紅隊測試」（Red Teaming）——即聘請專家在受控環境中攻擊自家系統以加強防護。然而，開發者之間日益形成一種共識：越獄是一場「貓捉老鼠」的遊戲，而非可以透過修補解決的軟體漏洞。

以下列表概述了目前產業界對 AI 安全限制的立場：

「打地鼠」效應： 每一次特定的越獄方法被修補，新的技術就會出現，利用不同的語義漏洞。
過度拒絕的權衡： 過於僵化的安全篩選器往往會導致「過度拒絕」（over-refusal），使模型變得毫無用處地謹慎，連無害的要求也因為觸發了安全層的誤報而被拒絕。
開源擴散： 即便頂尖實驗室加固了他們的模型，開源模型的氾濫意味著有動機的行為者總能在防護較弱的環境中實驗對抗性提示詞。

未來之路：超越絕對免疫

雖然白宮對「無法打破」的要求設立了極高的標準，但專家建議重點應從「全面預防」轉向「彈性緩解」。

對 AI 開發者的策略調整建議

專注於預防現實世界的傷害： 不應試圖阻止每一次越獄，而應將資源集中在防止「部署」高風險任務，例如自動化工具使用或與 API 連結的破壞性操作。
透明化報告系統： 實施標準化的報告機制回報成功的越獄案例，以促進全產業的防禦學習。
硬體層面的防護： 研究安全協議是否能植入更接近模型推理層的地方，而非僅僅依賴事後的提示詞過濾。

在 Creati.ai，我們認為規管與創新之間的緊張關係是 AI 技術成熟過程中必然的階段。雖然「無法被打破」的模型或許是一個技術海市蜃樓，但對該目標的追求已在推動 AI 穩健性、透明度與倫理設計方面的顯著進步。白宮與 Anthropic 之間的對話凸顯了一個關鍵現實：在生成式 AI 的時代，安全不是一個終點站，而是一個持續的、反覆適應與防禦的過程。