ホワイトハウス、AnthropicにAIの全ての脱獄を阻止するよう要求 — 専門家は実現不可能かもしれないと指摘

AIセキュリティの終わりのない課題：ホワイトハウス対技術的現実

急速に進化する生成AI（Generative AI）の状況において、「ジェイルブレイク（脱獄）」ほど規制当局や技術的な監視の目を受けている問題はほとんどありません。これは、AIシステムの安全ガードレールを回避し、有害または禁止されたコンテンツを生成させるようAIを誘導する行為を指します。最近、ホワイトハウスはこの問題への注力を強めており、特にAI研究所であるAnthropicに対し、同社のモデルがこうした悪用に対して免疫を持つことを保証するよう強く求めています。しかし、業界がこれらの指示への対応に苦慮する中で、政策的な期待と、大規模言語モデル（LLM）が実際にどのように動作するかという技術的現実との間に、大きな乖離が生まれています。

Creati.aiでは、政策立案者とAI開発者の間で行われている議論を継続的に監視してきました。「ハッキング不可能な」AIを作るという目標は疑いようもなく高潔ですが、サイバーセキュリティの研究者やAIエンジニアは、トランスフォーマー（transformer）ベースのアーキテクチャが持つ確率的な性質を考えれば、ジェイルブレイクに対する完全な免疫を獲得することは本質的に不可能な任務である可能性があると主張しています。

ホワイトハウスの指令：「ゼロトラスト」AIへの推進

バイデン・ハリス政権は、高度なAIモデルを厳格な監視を必要とする重要なインフラとますます見なすようになっています。最近のコミュニケーションにおいて、ホワイトハウスはAnthropicを含む主要なAI企業に対し、安全への責任を「検出と緩和（detect and mitigate）」のアプローチから、より先を見越した「予防第一（prevention-first）」のアーキテクチャへと移行すべきであるとのシグナルを送っています。

Anthropicに対する圧力は特に注目に値します。同社は自社の「Claude」モデルファミリーを、AI安全性の業界ゴールドスタンダードとして位置づけているからです。ホワイトハウスは、ユーザーが生物兵器、サイバー攻撃、その他の悪意ある活動の指示を生成するようモデルを強制できないことを保証するための、技術的な裏付けを求めています。

ホワイトハウスの政策の主要目標

堅牢性の保証： 開発者に対し、敵対的プロンプトに対する構造的な免疫を実証することを要求。
責任の標準化： AIモデルがジェイルブレイクされた際の責任を明確にする枠組みの構築。
継続的な監査： Anthropicのような企業に対し、一般公開前に脆弱性を特定するための厳格なサードパーティテストサイクルの維持を義務付け。

なぜ完全な予防は依然として技術的に困難なのか

政府の指令と技術的な実現可能性の摩擦を理解するには、現代のLLMが持つ「ブラックボックス」の特性に目を向ける必要があります。AIモデルは固定されたルールベースのロジックで動作するのではなく、数十億ものパラメータの重み分布という複雑な計算に基づいて機能します。

基本的な技術的要因

チャレンジのカテゴリ	説明	セキュリティへの影響
確率的な不確実性	LLMは決定論的なコードではなく、統計的な予測に基づいている。	すべての可能な結果をマッピングすることが困難。
コンテキストウィンドウの複雑性	ユーザーは膨大なデータを入力してモデルの「心境」を操作できる。	高度な「ペルソナ型」の攻撃が可能になる。
言語の創造性	AIを役立つものにしているのと同じメカニズムが、創造的なプロンプトエンジニアリングを可能にする。	境界線は巧妙な構成に対して透過的なまま。

最近の研究で強調されているように、高度な「憲法AI（constitutional AI）」の安全装置を備えていたとしても、攻撃者はbase64エンコーディングや入れ子状の仮説シナリオといった従来とは異なる難読化手法を駆使し、モデルを騙して内部指示を無視させることができます。トランスフォーマー・アーキテクチャはコンテキストに基づいて「次に最も可能性の高いトークン」を予測するように設計されているため、「有害な」出力に至る確率的な経路が「拒否」に至る経路よりも強くなるというエッジケースが常に存在します。

業界の視点：「完璧な安全性」は神話か？

Anthropicは、OpenAIやGoogleといった他の業界リーダーとともに、レッドチーミング（Red Teaming）——管理された環境下で専門家を雇って自社システムを攻撃させ、強化を図る手法——に絶えず投資してきました。しかし、開発者の間では、「ジェイルブレイクはパッチを当てて解決できるソフトウェアのバグではなく、いたちごっこである」という見解が強まっています。

以下のリストは、AIの安全性の限界に関する現在の業界の姿勢を概説したものです：

「モグラ叩き」効果： 特定のジェイルブレイク手法にパッチを当てるたびに、異なる意味的な脆弱性を突く新しい手法が登場する。
過剰拒否のトレードオフ： 過度に厳格な安全フィルターは「過剰拒否（over-refusal）」を招くことが多く、安全層で偽陽性がトリガーされるため、無害な要求であってもモデルが回答を拒否するようになり、役に立たなくなる。
オープンソースの蔓延： トップティアの研究所がモデルを強化したとしても、オープンソースモデルが蔓延している以上、動機を持ったアクターは敵対的プロンプトを実験するためのガードの緩い環境を常に見つけてしまう。

今後の展望：絶対的な免疫を超えて

ホワイトハウスが求める「壊せない」という要求は高いハードルですが、専門家は「完全な予防」から「回復力を持った緩和（resilient mitigation）」へと焦点を進化させる必要があると示唆しています。

AI開発者に推奨される戦略的転換

現実世界の害の防止に注力する： すべてのジェイルブレイクを防ごうとするのではなく、自動化されたツール利用やAPI連携による破壊的なアクションなど、リスクの高いタスクの「デプロイメント（実装）」を防ぐことにリソースを集中させる。
透明性のある報告システム： 成功したジェイルブレイクを報告するための標準化された方法を実装し、業界全体での防御的な学習を助ける。
ハードウェアレベルのガードレール： 事後的なプロンプトフィルタリングのみに頼るのではなく、安全プロトコルがモデルの推論レイヤーにより近い場所に組み込めるかを調査する。

Creati.aiでは、規制とイノベーションの間の緊張関係は、AI技術の成熟過程において必要な段階であると考えています。「壊れない」モデルという展望は技術的な蜃気楼かもしれませんが、その目標の追求はすでにAIの堅牢性、透明性、倫理的な設計において大きな改善をもたらしています。ホワイトハウスとAnthropicの対話は、生成AIの時代において、安全性とは最終状態ではなく、適応と防御の継続的かつ反復的なプロセスであるという極めて重要な現実を浮き彫りにしています。