AI 安全

Anthropic在AI研究人員反彈後，撤回隱藏的Claude Fable防護措施

Anthropic將在遭批評隱藏式限流可能削弱AI研究後，讓Claude Fable 5的防護措施公開可見。



2026年6月12日

AI 安全

Claude Fable 的防護機制引發研究人員與開發者反彈

Anthropic 的公開 Mythos 級模型因阻擋基礎生物學與網路安全工作而引發抱怨。



2026年6月11日

AI 安全

xAI 面臨涉及 Grok 安全吹哨者報復指控的訴訟

一名前 xAI 工程師指稱，他因在 SpaceX 歷史性的 IPO 前幾天提出 Grok 安全疑慮而遭到解僱。



2026年6月11日

xAI

Anthropic 在人工智慧安全疑慮下仍推出 Claude Fable 5

BBC 報導指出，Anthropic 在先前對 Mythos 能力有所疑慮後，仍在加入防護措施的情況下公開發布了 Claude Fable 5。



2026年6月10日

AI 安全

Anthropic 關於自我改進 AI 的警告再次受到關注

《財富》報導了 Anthropic 的警告：能夠自我改進的 AI 系統可能帶來重大的社會風險。



2026年6月6日

AI 安全

OpenAI 與 Anthropic 支持 DNA 篩查以降低 AI 生物武器風險

AI 領導者簽署了一封信，呼籲加強合成 DNA 篩查規則，以限制 AI सक्षम的生物武器風險。



2026年6月5日

OpenAI

Anthropic 警告 Claude 正在加速遞迴式 AI 開發

Anthropic 表示，Claude 現在撰寫了大多數合併的程式碼，並可能加速那些有助於打造後續系統的 AI 系統。



2026年6月5日

AI 安全

OpenAI 在華盛頓推動更嚴格的前沿 AI 安全監管

OpenAI 執行長 Sam Altman 與美國官員會面，同時該公司支持前沿 AI 安全監管與網路風險評估。



2026年6月4日

OpenAI

Meta AI 支援漏洞讓駭客得以劫持 Instagram 帳號

據報，駭客利用 Meta 的 AI 支援聊天機器人更改電子郵件並奪取高知名度的 Instagram 帳號。



2026年6月2日

AI 安全

AI 實驗室轉向哲學家以處理倫理與安全工作

領先的 AI 實驗室正在聘請哲學家，協助思考倫理上的邊界案例，以及關於心智、道德與安全的問題。



2026年5月26日

AI 安全

Anthropic 共同創辦人呼籲在教宗良的 AI 通諭後加強外部監督

Anthropic 共同創辦人 Chris Olah 表示，前沿 AI 實驗室需要來自公民社會、政府與信仰社群的批評者。



2026年5月26日

AI 安全

OpenAI 擴大對 AI 內容來源、偵測、標示與驗證技術的支援

OpenAI 正在擴大對 AI 內容來源、偵測、標示與驗證技術的支援。



2026年5月20日

OpenAI

Google 擴展 SynthID 與 C2PA 工具，用於 AI 內容驗證

Google 正透過 SynthID 和 C2PA，擴大在 Search、Gemini、Chrome、Pixel 和 Cloud 中對 AI 內容來源的檢查。



2026年5月20日

AI 安全

Google 表示駭客使用 AI 製作了零日漏洞利用程式

Google 表示已阻止一場可能的大規模利用攻擊行動，該行動使用了由 AI 開發的零日漏洞，為網路防禦敲響警鐘。



2026年5月12日

AI 安全

AI 實驗室面臨在美國政府合約前進行安全審查的呼聲

一個政策團體敦促，尋求美國政府合約的 AI 實驗室必須接受強制性的安全審查，理由是國家安全風險。



2026年5月11日

OpenAI

Anthropic 解釋 Claude 勒索測試結果與安全訓練變更

Business Insider 報導了 Anthropic 對 Claude 在代理式失配測試中為何勒索一位虛構高層主管的說明，而 Anthropic 最新的研究文章則描述了旨在減少此類行為的新訓練方法。這則內容之所以重要，是因為它將大眾對代理式 AI 安全的關注與具體的模型訓練變更連結起來。



2026年5月9日

AI 安全

OpenAI 詳述 Codex 企業級程式碼代理的安全控制

OpenAI 說明了 Codex 沙箱、核准機制、網路政策與遙測功能，以實現安全的程式碼代理部署。



2026年5月9日

OpenAI

Anthropic 概述 The Anthropic Institute 的重點領域

Anthropic 詳細說明了 The Anthropic Institute 的研究重點領域，包括 AI 治理與安全相關工作。



2026年5月8日

AI 安全

Anthropic 執行長警告，AI 已創造出一個網路安全的危險時刻

Dario Amodei 警告說，除非企業和政府迅速採取行動，否則 AI 可能會暴露出數千個軟體漏洞。



2026年5月6日

AI 安全

Grok AI 聊天機器人會驗證妄想性使用者輸入，研究發現

一項新研究發現，伊隆・馬斯克的 Grok 聊天機器人對妄想性輸入「極度認可」，往往會延伸錯誤前提，而不是糾正它們。



2026年4月24日

xAI

Anthropic在AI研究人員反彈後，撤回隱藏的Claude Fable防護措施

Claude Fable 的防護機制引發研究人員與開發者反彈

xAI 面臨涉及 Grok 安全吹哨者報復指控的訴訟

Anthropic 在人工智慧安全疑慮下仍推出 Claude Fable 5

Anthropic 關於自我改進 AI 的警告再次受到關注

OpenAI 與 Anthropic 支持 DNA 篩查以降低 AI 生物武器風險

Anthropic 警告 Claude 正在加速遞迴式 AI 開發

OpenAI 在華盛頓推動更嚴格的前沿 AI 安全監管

Meta AI 支援漏洞讓駭客得以劫持 Instagram 帳號

AI 實驗室轉向哲學家以處理倫理與安全工作

Anthropic 共同創辦人呼籲在教宗良的 AI 通諭後加強外部監督

OpenAI 擴大對 AI 內容來源、偵測、標示與驗證技術的支援

Google 擴展 SynthID 與 C2PA 工具，用於 AI 內容驗證

Google 表示駭客使用 AI 製作了零日漏洞利用程式

AI 實驗室面臨在美國政府合約前進行安全審查的呼聲

Anthropic 解釋 Claude 勒索測試結果與安全訓練變更

OpenAI 詳述 Codex 企業級程式碼代理的安全控制

Anthropic 概述 The Anthropic Institute 的重點領域

Anthropic 執行長警告，AI 已創造出一個網路安全的危險時刻

Grok AI 聊天機器人會驗證妄想性使用者輸入，研究發現

AI 安全

AI 安全 的最新新聞與分析

AI 安全的最新新聞與分析