
在生成式 AI(Generative AI)快速發展的領域中,很少有議題像「越獄」(jailbreaking)——即誘導 AI 系統繞過其安全防護機制並產生有害或違禁內容的行為——受到如此多的監管與技術審查。最近,白宮已加強對此問題的關注,特別敦促 AI 實驗室 Anthropic 確保其模型能夠抵禦此類濫用。然而,隨著產業開始應對這些指令,政策期望與 大型語言模型(LLMs)實際運作方式的技術現實之間,出現了明顯的脫節。
在 Creati.ai,我們持續關注決策者與 AI 開發者之間的對話。雖然打造「無法被駭」的 AI 目標無疑是高尚的,但 網路安全研究人員與 AI 工程師皆指出,鑑於基於 Transformer 架構的機率性質,實現對越獄的完全免疫可能是一項本質上不可能的任務。
拜登-賀錦麗政府越來越將先進的 AI 模型視為需要嚴格監管的關鍵基礎設施。在近期的溝通中,白宮向包括 Anthropic 在內的主要 AI 公司表明,安全責任必須從「偵測與緩解」的方法轉變為更主動的「預防優先」架構。
Anthropic 面臨的壓力尤為顯著,因為該公司已將旗下「Claude」系列模型定位為 AI 安全性的業界金牌標準。白宮正致力於推動技術擔保,確保使用者無法強迫模型產生生物武器、網路攻擊或其他惡意活動的指令。
若要理解政府指令與技術可行性之間的摩擦,必須審視現代大型語言模型的「黑盒」本質。AI 模型並非基於固定的規則邏輯,而是基於數十億參數的加權分佈來運作。
| 挑戰類別 | 說明 | 對安全的影響 |
|---|---|---|
| 機率不確定性 | 大型語言模型基於統計預測而非決定性程式碼運作。 | 難以映射所有可能的結果。 |
| 內容窗口複雜性 | 使用者可以輸入大量資料來操縱模型的「心理狀態」。 | 允許進行複雜的「基於角色」的攻擊。 |
| 語言創造力 | 賦予 AI 實用性的機制同樣也促成了創造性的提示詞工程。 | 邊界對精明的構思而言仍然是滲透性的。 |
正如最近的研究強調,即便具備先進的「憲法 AI」(Constitutional AI)防護措施,攻擊者仍能利用非傳統的混淆方法,例如 Base64 編碼或嵌套假設情境,來誘導模型忽略其內部指導方針。由於 Transformer 架構旨在根據上下文預測「下一個最可能的權杖」(token),在統計路徑上,通往「有害」輸出的可能性總有可能強過通往「拒絕」的路徑。
Anthropic 與 OpenAI 和 Google 等其他產業領袖一樣,持續投資於「紅隊測試」(Red Teaming)——即聘請專家在受控環境中攻擊自家系統以加強防護。然而,開發者之間日益形成一種共識:越獄是一場「貓捉老鼠」的遊戲,而非可以透過修補解決的軟體漏洞。
以下列表概述了目前產業界對 AI 安全限制的立場:
雖然白宮對「無法打破」的要求設立了極高的標準,但專家建議重點應從「全面預防」轉向「彈性緩解」。
在 Creati.ai,我們認為規管與創新之間的緊張關係是 AI 技術成熟過程中必然的階段。雖然「無法被打破」的模型或許是一個技術海市蜃樓,但對該目標的追求已在推動 AI 穩健性、透明度與倫理設計方面的顯著進步。白宮與 Anthropic 之間的對話凸顯了一個關鍵現實:在生成式 AI 的時代,安全不是一個終點站,而是一個持續的、反覆適應與防禦的過程。