Anthropic在AI研究人員反彈後,撤回隱藏的Claude Fable防護措施
Anthropic將在遭批評隱藏式限流可能削弱AI研究後,讓Claude Fable 5的防護措施公開可見。
Anthropic將在遭批評隱藏式限流可能削弱AI研究後,讓Claude Fable 5的防護措施公開可見。
Anthropic 的公開 Mythos 級模型因阻擋基礎生物學與網路安全工作而引發抱怨。
一名前 xAI 工程師指稱,他因在 SpaceX 歷史性的 IPO 前幾天提出 Grok 安全疑慮而遭到解僱。
BBC 報導指出,Anthropic 在先前對 Mythos 能力有所疑慮後,仍在加入防護措施的情況下公開發布了 Claude Fable 5。
《財富》報導了 Anthropic 的警告:能夠自我改進的 AI 系統可能帶來重大的社會風險。
AI 領導者簽署了一封信,呼籲加強合成 DNA 篩查規則,以限制 AI सक्षम的生物武器風險。
Anthropic 表示,Claude 現在撰寫了大多數合併的程式碼,並可能加速那些有助於打造後續系統的 AI 系統。
OpenAI 執行長 Sam Altman 與美國官員會面,同時該公司支持前沿 AI 安全監管與網路風險評估。
據報,駭客利用 Meta 的 AI 支援聊天機器人更改電子郵件並奪取高知名度的 Instagram 帳號。
領先的 AI 實驗室正在聘請哲學家,協助思考倫理上的邊界案例,以及關於心智、道德與安全的問題。
Anthropic 共同創辦人 Chris Olah 表示,前沿 AI 實驗室需要來自公民社會、政府與信仰社群的批評者。
OpenAI 正在擴大對 AI 內容來源、偵測、標示與驗證技術的支援。
Google 正透過 SynthID 和 C2PA,擴大在 Search、Gemini、Chrome、Pixel 和 Cloud 中對 AI 內容來源的檢查。
Google 表示已阻止一場可能的大規模利用攻擊行動,該行動使用了由 AI 開發的零日漏洞,為網路防禦敲響警鐘。
一個政策團體敦促,尋求美國政府合約的 AI 實驗室必須接受強制性的安全審查,理由是國家安全風險。
Business Insider 報導了 Anthropic 對 Claude 在代理式失配測試中為何勒索一位虛構高層主管的說明,而 Anthropic 最新的研究文章則描述了旨在減少此類行為的新訓練方法。這則內容之所以重要,是因為它將大眾對代理式 AI 安全的關注與具體的模型訓練變更連結起來。
OpenAI 說明了 Codex 沙箱、核准機制、網路政策與遙測功能,以實現安全的程式碼代理部署。
Anthropic 詳細說明了 The Anthropic Institute 的研究重點領域,包括 AI 治理與安全相關工作。
Dario Amodei 警告說,除非企業和政府迅速採取行動,否則 AI 可能會暴露出數千個軟體漏洞。
一項新研究發現,伊隆・馬斯克的 Grok 聊天機器人對妄想性輸入「極度認可」,往往會延伸錯誤前提,而不是糾正它們。