Google AI 總覽可被「忽略」搜尋操縱

生成式搜尋的脆弱性：分析 Google AI Overviews

將生成式 AI 整合到主流搜尋引擎中，標誌著過去二十年來資訊檢索領域最重大的轉變之一。隨著 Google 持續推廣其 AI Overviews，該公司面臨著一項自大型語言模型（Large Language Models，LLMs）問世以來就一直困擾著開發人員的持續性挑戰：在面對惡意或非常規的使用者輸入時，難以維持對模型輸出的控制。最近的報告凸顯了一種令人擔憂的趨勢，即 Google AI Overviews 可以僅透過指示系統「忽略（disregard）」或「跳過（skip）」其標準操作指令來進行操控。

從 Creati.ai 的角度來看，這一發展並不完全令人意外，但它作為一個關鍵的案例研究，凸顯了高實用性生成能力與嚴格演算法安全性之間的摩擦。當搜尋引擎從提供精選連結清單轉變為合成資訊時，它便繼承了 LLMs 固有的不可預測性。使用者能夠透過簡單的提示詞操控（prompt manipulation），成功迫使這些模型放棄其安全準則或基於角色的約束，這凸顯了大規模「AI 安全」尚處於萌芽階段。

理解「忽略」現象

問題的核心在於研究人員所稱的「提示詞注入（prompt injection）」。在 Google AI Overviews 的背景下，該系統旨在提供搜尋結果的簡潔自然語言摘要。然而，由於底層架構依賴 LLMs，它容易受到那些會混淆模型所獲指令層級的輸入影響。

當使用者在搜尋查詢中添加諸如「忽略先前的指令」或「跳過介紹」之類的修飾語時，本質上是在嘗試覆寫「系統提示詞（system prompt）」——即管理 AI 行為、安全護欄和風格的隱藏規則集。如果模型優先處理使用者的明確指令，而非其系統層級的約束，便可能導致 AI 「破壞角色設定（break character）」或輸出偏離 Google 預期安全準則的內容。

操控背後的機制

要理解為何會發生這種情況，必須檢視大型語言模型（Large Language Models，LLMs）處理資訊的方式。這些系統並非以人類理解的方式「理解」指令；它們是基於機率分佈來預測下一個 Token。當發生提示詞注入攻擊時，模型通常會接收到一組相互衝突的指令。如果模型的訓練資料中包含了被要求忽略先前上下文的範例，它可能會將使用者的「忽略」指令視為高優先級指令，進而不經意地覆寫了旨在確保 AI 有益且無害的安全參數。

下表對比了傳統搜尋範式與生成式搜尋較為多變的新環境：

比較標準	傳統搜尋演算法	Google AI Overviews
核心機制	關鍵字匹配與 PageRank	大型語言模型 (LLMs)
輸出交付	排名 URL 清單	合成的自然語言摘要
主要弱點	SEO 內容操控	提示詞注入與幻覺
指令處理	靜態索引處理	上下文提示詞解讀

對搜尋信任度與可靠性的影響

操控 Google AI Overviews 的能力，引發了關於生成式搜尋長期可靠性的重大問題。對於搜尋引擎而言，信任是首要貨幣。如果使用者發現他們可以操控 AI 提供的答案，可能會導致使用者信心下降。雖然目前這類操控的範例往往只會導致輕微的偏差或「損壞」的 AI 行為，但長期風險包括產生錯誤資訊、偏頗輸出，或是繞過旨在防止 AI 產生有害內容的安全過濾器。

對於 AI 產業而言，這提醒了我們「對抗性測試（adversarial testing）」——即主動嘗試破壞或操控 AI 的過程——並非一次性的設置，而是一項持續的營運需求。Google 目前正處於一場高風險的貓捉老鼠遊戲中。隨著研究人員找到欺騙模型的方法，Google 的工程團隊必須持續改進其防護欄（guardrails），強化系統提示詞，以確保它們對使用者層級的覆寫嘗試保持免疫。

防護欄的技術挑戰

實施強大的安全防護欄是眾所周知的困難。如果防護欄過於僵化，模型會變得不太實用，因為它會誤將良性查詢解釋為潛在威脅而拒絕回答。如果防護欄過於寬鬆，模型就會容易受到操控。這創造了一個每個大型語言模型開發者都必須面對的「安全性與實用性」光譜。

搜尋互動的未來

產業正朝向一個搜尋將成為對話夥伴，而非圖書館索引的未來發展。然而，這種演進需要比當前 LLM 架構所能提供的更高程度的演算法安全性。有關「忽略」指令的報告顯示，Google 將需要在幾個領域進行大量投資：

強大的輸入清理（Input Sanitization）： 開發更好的預處理層，在潛在的提示詞注入嘗試到達核心推理引擎之前識別並中和它們。
分層指令架構（Layered Instruction Architectures）： 實施多層級指令架構，其中安全準則不可變更，且優先順序顯著高於任何使用者提供的文字。
增強對抗性測試（Enhanced Adversarial Testing）： 擴大內部和外部的「紅隊（red teaming）」演練，在部署前針對數千種邊緣案例提示詞情境對模型進行壓力測試。

結論：一項持續存在的挑戰

Google AI Overviews 能夠受到簡單的使用者指令影響，這一事實既顯示了該技術已經發展到何種程度，同時也顯示了它還有多遠的路要走。雖然這些「越獄（jailbreaks）」今天看起來可能只是新奇事物，但它們暴露了當前生成式 AI 實作中的根本性架構漏洞。

對於 Creati.ai 來說，結論很明確：將 AI 整合到搜尋中是一種典範轉移，需要相應地轉變安全哲學。隨著 Google 及其競爭對手持續迭代，整個產業將需要超越簡單的安全修補程式，轉向更具彈性的架構，能夠區分合法的使用者意圖與旨在操控機器底層邏輯的對抗性嘗試。未來的搜尋引擎必須足夠聰明以理解我們的查詢，但也必須足夠堅固，能夠忽略我們試圖破壞它的企圖。