
人工智慧(AI)領域正見證一場重大辯論,Anthropic 最新發布的「神話級」(Mythos-class)模型 Claude Fable,正面臨來自專業研發社群日益強烈的批評。儘管 Anthropic 長期以來將自己定位為「憲法 AI」(Constitutional AI)與道德模型對齊領域的行業領導者,但其最新發布版本中嚴格安全協議的執行,卻引發了強烈反彈。研究人員認為,當前的防護機制(guardrails)不僅限制了創造性產出,更在生物學與網路安全等關鍵領域中,積極阻礙了合法工作的進行。
在 Creati.ai,我們一直密切追蹤大型語言模型的演進。對 Claude Fable 的引進,代表著對話複雜度的一大躍進,但也凸顯了防止 AI 濫用與維持科學及學術研究所需實用性之間,依然存在著揮之不去的張力。
Anthropic 在設計作為其最新神話級系列主幹的 Claude Fable 時,以前所未有的力度聚焦於安全性。這些「防護機制」是程式化的約束條件,旨在防止模型生成有害內容,例如製作生物威脅或執行零時差攻擊(zero-day exploits)的指導手冊。然而,開發者回報稱,其執行過程遭遇了「過度拒絕」(over-refusal)的問題,即模型將良性的科學詢問誤判為安全風險。
使用者回饋顯示,目前該模型的拒絕門檻設定過高,難以滿足實際應用需求。
| 領域 | 觀察到的問題 | 對工作流程的影響 |
|---|---|---|
| 生物學研究 | 拒絕討論標準蛋白質定序 | 中斷學術與實驗室工作流程 |
| 網路安全 | 封鎖關於已知弱點的查詢 | 無法測試防禦性安全修補程式 |
| 一般開發 | 過度冗長的警示聲明 | 輸出延遲高且工作流程產生摩擦 |
對於網路安全專家與生物研究人員而言,模型的實用性取決於它處理複雜且往往敏感的技術數據之能力。批評者認為,Claude Fable 拒絕處理基礎概念(例如在生物研究背景下描述基本細胞結構,或分析標準漏洞模式的程式碼片段),實際上抵銷了該模型作為專業工具的價值。
「我們並非要求獲取造成傷害的指導手冊,」一位知名安全研究人員指出。「我們要求的是讓模型理解漏洞的運作機制,以便我們能進行緩解。如果一個模型過度恐懼而無法處理弱點議題,那麼對安全工程師而言它就毫無用處。」
針對 AI 安全 措施的反彈是業界重複出現的主題。隨著模型日益強大,對「雙重用途」(dual-use)能力的擔憂也隨之增加。然而,Anthropic 目前正處於十字路口:是堅持採取高度保護的僵化立場而疏遠專業使用者社群,還是開發出一種更細緻的「分級」安全系統,用以識別請求的背景情境,而不僅僅是針對主題進行判斷。
隨著社群持續評估該模型,改進工作出現了三種潛在路徑:
開發者生態系統內的不滿,根源於模型行為的不可預測性。當模型表現出前後不一、時而拒絕回答核心問題、時而又提供部分答案時,將其整合至自動化管線中便變得異常困難。
儘管 Anthropic 明顯在業界追求最高的安全標準,但一個根本性的認知正在浮現:如果安全機制對專業人士而言過於嚴苛,市場必然會轉向那些能提供更均衡、儘管風險略高之實用性的模型。
目前,業界正密切關注 Mythos 級模型是否會獲得更新以微調這些防護機制。若不進行重新校準,Claude Fable 的創新潛力恐將被那些旨在確保其負責任部署的安全措施所扼殺。隨著 AI 領域的前進,挑戰依然存在:如何在防止研究人員使用相同工具進行防禦的同時,又能保護世界免受惡意 AI 的侵害。