Meta 承包商偽裝成青少年，以促使競爭對手的聊天機器人談論自殺、性與毒品

競爭情報的隱形成本：內部代號「坎城」(Cannes) 專案揭秘

在日益激烈的競爭環境中，企業為了在生成式 AI（Generative AI）發展中取得優勢，正在不斷探索數據收集的邊界。近期有關 Meta 內部一項秘密計畫——代號為「坎城」(Cannes)——的揭露，引發了關於企業情報、用戶安全以及大型語言模型（LLMs）開發等方面重大倫理問題的討論。據《連線》(Wired) 雜誌的調查報導，數百名 Meta 外包人員刻意冒充青少年與競爭對手的 AI 聊天機器人互動，專門測試它們在敏感且高風險話題上的安全防護欄 (guardrails)。

此行動展現了 AI 「軍備競賽」中激進的一面。在當前的競賽中，主要參與者已不再僅僅是比較技術基準，而是透過模擬極度脆弱的用戶群體，主動測試競爭對手安全架構的弱點。

「坎城」行動的運作範圍

該專案涉及 Meta 外包勞動力採取的一系列複雜手段，旨在探測包括 OpenAI 的 ChatGPT、Google 的 Gemini 以及專門平台 Character.AI 在內的業界領先者的安全機制。透過創建數百個虛假的未成年帳號，外包人員受命以「危機提示詞」(crisis prompts) 與這些機器人互動。這些提示詞旨在誘導機器人做出關於自殘、色情內容、藥物使用及其他違禁主題的回應。

據報導，其目標是為了確定這些頂尖 AI 平台在保護未成年人（或冒充未成年人的用戶）免受有害或不當內容影響方面的有效性。儘管 Meta 已公開聲明不會使用這些互動數據來訓練自家的模型，但其手段已在業界引發激烈辯論。

目標聊天機器人的比較分析

Meta 的計畫針對特定平台進行了測試，這些平台是基於其市場突出地位和獨特的安全實作而選定的。以下是「坎城」專案中針對特定領域的分析：

平台	測試核心焦點	探測的潛在弱點
ChatGPT	一般推理與安全防護欄	內容審核效率複雜提示詞的抵抗能力
Gemini	多模態安全與查詢準確性	深層倫理限制政策執行力
Character.AI	基於角色互動的安全性	對角色扮演行為的邊界突破情緒操縱抵抗能力

倫理意涵與產業標準

「坎城」專案凸顯了 AI 發展中黑暗的一面。雖然「紅隊測試」(red teaming)——即檢測 AI 系統漏洞的過程——是 AI 安全中標準且必要的組成部分，但獲取這些數據的「方式」在倫理上仍備受爭議。透過欺騙手段滲透競爭對手的生態系統，Meta 實際上已將人機互動測試轉化為一種對抗性行動。

關鍵倫理困境

欺騙性測試： 使用虛假身份繞過安全協議引發了對標準研究倫理的疑慮。
數據稀缺與安全： 為了衡量安全防護欄的有效性，是否有必要模擬處於危機中的青少年，還是有更透明的方法？
企業倫理： 倫理基準測試與工業間諜或「安全嘲弄」之間的界線似乎越來越模糊。

從 AI 安全的角度來看，業界通常鼓勵主動且透明的紅隊測試。當企業在孤立狀態下並以欺騙手段進行測試時，這不僅剝奪了更廣泛的科學界對研究結果進行同儕審查的機會，還鞏固了定義當前 AI 版圖的產業孤島。

對生成式 AI 未來的啟示

隨著 AI 模型越來越融入未成年人的生活中，安全負擔沉重地落在了託管這些服務的企業身上。Meta 的專案作為一個嚴峻的警示：如果有一家公司在探測這些漏洞，其他公司很可能也在做同樣的事情。

業界現在必須因應幾項迫切需求：

標準化安全基準： 業界需要統一的安全測試方法，從零散且具有欺騙性的做法轉向透明的評估框架。
模型探測規範： 決策者可能需要考慮相關準則，規範私營企業在進行競爭分析時如何與面向公眾的 AI 工具互動。
紅隊測試的透明度： 企業應致力於發布其安全測試的高層級洞見，確保安全改進能造福整個生態系統，而非僅僅服務於特定的企業議程。

「坎城」事件的披露是促進對 AI 安全 進行更成熟討論的催化劑。儘管競爭推動了創新，但生態系統的誠信取決於企業如何對待那些旨在保護最脆弱用戶的安全防護欄。Creati.ai 將持續關注該專案的後續影響，因为它為競爭對手如何在生成式 AI 快速發展的世界中互相進行「壓力測試」設立了一個關鍵的前例。