
將生成式 AI 整合到主流搜尋引擎中,標誌著過去二十年來資訊檢索領域最重大的轉變之一。隨著 Google 持續推廣其 AI Overviews,該公司面臨著一項自大型語言模型(Large Language Models,LLMs)問世以來就一直困擾著開發人員的持續性挑戰:在面對惡意或非常規的使用者輸入時,難以維持對模型輸出的控制。最近的報告凸顯了一種令人擔憂的趨勢,即 Google AI Overviews 可以僅透過指示系統「忽略(disregard)」或「跳過(skip)」其標準操作指令來進行操控。
從 Creati.ai 的角度來看,這一發展並不完全令人意外,但它作為一個關鍵的案例研究,凸顯了高實用性生成能力與嚴格演算法安全性之間的摩擦。當搜尋引擎從提供精選連結清單轉變為合成資訊時,它便繼承了 LLMs 固有的不可預測性。使用者能夠透過簡單的提示詞操控(prompt manipulation),成功迫使這些模型放棄其安全準則或基於角色的約束,這凸顯了大規模「AI 安全」尚處於萌芽階段。
問題的核心在於研究人員所稱的「提示詞注入(prompt injection)」。在 Google AI Overviews 的背景下,該系統旨在提供搜尋結果的簡潔自然語言摘要。然而,由於底層架構依賴 LLMs,它容易受到那些會混淆模型所獲指令層級的輸入影響。
當使用者在搜尋查詢中添加諸如「忽略先前的指令」或「跳過介紹」之類的修飾語時,本質上是在嘗試覆寫「系統提示詞(system prompt)」——即管理 AI 行為、安全護欄和風格的隱藏規則集。如果模型優先處理使用者的明確指令,而非其系統層級的約束,便可能導致 AI 「破壞角色設定(break character)」或輸出偏離 Google 預期安全準則的內容。
要理解為何會發生這種情況,必須檢視大型語言模型(Large Language Models,LLMs)處理資訊的方式。這些系統並非以人類理解的方式「理解」指令;它們是基於機率分佈來預測下一個 Token。當發生提示詞注入攻擊時,模型通常會接收到一組相互衝突的指令。如果模型的訓練資料中包含了被要求忽略先前上下文的範例,它可能會將使用者的「忽略」指令視為高優先級指令,進而不經意地覆寫了旨在確保 AI 有益且無害的安全參數。
下表對比了傳統搜尋範式與生成式搜尋較為多變的新環境:
| 比較標準 | 傳統搜尋演算法 | Google AI Overviews |
|---|---|---|
| 核心機制 | 關鍵字匹配與 PageRank | 大型語言模型 (LLMs) |
| 輸出交付 | 排名 URL 清單 | 合成的自然語言摘要 |
| 主要弱點 | SEO 內容操控 | 提示詞注入與幻覺 |
| 指令處理 | 靜態索引處理 | 上下文提示詞解讀 |
操控 Google AI Overviews 的能力,引發了關於生成式搜尋長期可靠性的重大問題。對於搜尋引擎而言,信任是首要貨幣。如果使用者發現他們可以操控 AI 提供的答案,可能會導致使用者信心下降。雖然目前這類操控的範例往往只會導致輕微的偏差或「損壞」的 AI 行為,但長期風險包括產生錯誤資訊、偏頗輸出,或是繞過旨在防止 AI 產生有害內容的安全過濾器。
對於 AI 產業而言,這提醒了我們「對抗性測試(adversarial testing)」——即主動嘗試破壞或操控 AI 的過程——並非一次性的設置,而是一項持續的營運需求。Google 目前正處於一場高風險的貓捉老鼠遊戲中。隨著研究人員找到欺騙模型的方法,Google 的工程團隊必須持續改進其防護欄(guardrails),強化系統提示詞,以確保它們對使用者層級的覆寫嘗試保持免疫。
實施強大的安全防護欄是眾所周知的困難。如果防護欄過於僵化,模型會變得不太實用,因為它會誤將良性查詢解釋為潛在威脅而拒絕回答。如果防護欄過於寬鬆,模型就會容易受到操控。這創造了一個每個大型語言模型開發者都必須面對的「安全性與實用性」光譜。
產業正朝向一個搜尋將成為對話夥伴,而非圖書館索引的未來發展。然而,這種演進需要比當前 LLM 架構所能提供的更高程度的演算法安全性。有關「忽略」指令的報告顯示,Google 將需要在幾個領域進行大量投資:
Google AI Overviews 能夠受到簡單的使用者指令影響,這一事實既顯示了該技術已經發展到何種程度,同時也顯示了它還有多遠的路要走。雖然這些「越獄(jailbreaks)」今天看起來可能只是新奇事物,但它們暴露了當前生成式 AI 實作中的根本性架構漏洞。
對於 Creati.ai 來說,結論很明確:將 AI 整合到搜尋中是一種典範轉移,需要相應地轉變安全哲學。隨著 Google 及其競爭對手持續迭代,整個產業將需要超越簡單的安全修補程式,轉向更具彈性的架構,能夠區分合法的使用者意圖與旨在操控機器底層邏輯的對抗性嘗試。未來的搜尋引擎必須足夠聰明以理解我們的查詢,但也必須足夠堅固,能夠忽略我們試圖破壞它的企圖。