
在日益激烈的競爭環境中,企業為了在生成式 AI(Generative AI)發展中取得優勢,正在不斷探索數據收集的邊界。近期有關 Meta 內部一項秘密計畫——代號為「坎城」(Cannes)——的揭露,引發了關於企業情報、用戶安全以及大型語言模型(LLMs)開發等方面重大倫理問題的討論。據《連線》(Wired) 雜誌的調查報導,數百名 Meta 外包人員刻意冒充青少年與競爭對手的 AI 聊天機器人互動,專門測試它們在敏感且高風險話題上的安全防護欄 (guardrails)。
此行動展現了 AI 「軍備競賽」中激進的一面。在當前的競賽中,主要參與者已不再僅僅是比較技術基準,而是透過模擬極度脆弱的用戶群體,主動測試競爭對手安全架構的弱點。
該專案涉及 Meta 外包勞動力採取的一系列複雜手段,旨在探測包括 OpenAI 的 ChatGPT、Google 的 Gemini 以及專門平台 Character.AI 在內的業界領先者的安全機制。透過創建數百個虛假的未成年帳號,外包人員受命以「危機提示詞」(crisis prompts) 與這些機器人互動。這些提示詞旨在誘導機器人做出關於自殘、色情內容、藥物使用及其他違禁主題的回應。
據報導,其目標是為了確定這些頂尖 AI 平台在保護未成年人(或冒充未成年人的用戶)免受有害或不當內容影響方面的有效性。儘管 Meta 已公開聲明不會使用這些互動數據來訓練自家的模型,但其手段已在業界引發激烈辯論。
Meta 的計畫針對特定平台進行了測試,這些平台是基於其市場突出地位和獨特的安全實作而選定的。以下是「坎城」專案中針對特定領域的分析:
| 平台 | 測試核心焦點 | 探測的潛在弱點 |
|---|---|---|
| ChatGPT | 一般推理與安全防護欄 | 內容審核效率 複雜提示詞的抵抗能力 |
| Gemini | 多模態安全與查詢準確性 | 深層倫理限制 政策執行力 |
| Character.AI | 基於角色互動的安全性 | 對角色扮演行為的邊界突破 情緒操縱抵抗能力 |
「坎城」專案凸顯了 AI 發展中黑暗的一面。雖然「紅隊測試」(red teaming)——即檢測 AI 系統漏洞的過程——是 AI 安全中標準且必要的組成部分,但獲取這些數據的「方式」在倫理上仍備受爭議。透過欺騙手段滲透競爭對手的生態系統,Meta 實際上已將人機互動測試轉化為一種對抗性行動。
從 AI 安全的角度來看,業界通常鼓勵主動且透明的紅隊測試。當企業在孤立狀態下並以欺騙手段進行測試時,這不僅剝奪了更廣泛的科學界對研究結果進行同儕審查的機會,還鞏固了定義當前 AI 版圖的產業孤島。
隨著 AI 模型越來越融入未成年人的生活中,安全負擔沉重地落在了託管這些服務的企業身上。Meta 的專案作為一個嚴峻的警示:如果有一家公司在探測這些漏洞,其他公司很可能也在做同樣的事情。
業界現在必須因應幾項迫切需求:
「坎城」事件的披露是促進對 AI 安全 進行更成熟討論的催化劑。儘管競爭推動了創新,但生態系統的誠信取決於企業如何對待那些旨在保護最脆弱用戶的安全防護欄。Creati.ai 將持續關注該專案的後續影響,因为它為競爭對手如何在 生成式 AI 快速發展的世界中互相進行「壓力測試」設立了一個關鍵的前例。