AI News

OpenAI 推出了 GeneBench-Pro,這是一項新的基準,旨在測試 AI 系統是否能做得不只是執行生物學中的標準分析腳本。根據公司說法,這項基準瞄準的是計算研究中更困難的部分:在模糊不清的情況下做出判斷、隨著證據變化修正假設,以及判定某個答案是否已足夠可靠,可供下游的科學或臨床決策使用。

這次發布之所以重要,是因為許多 AI 評測仍然偏重記憶力、程式撰寫流暢度,或在嚴格指定任務上的成功率。OpenAI 認為,真實世界的生物學工作並非如此。在 GeneBench-Pro 的描述中,公司指出科學家經常面對雜亂資料、不完整訊號,以及多條都可成立的分析路徑。這使得基因體學與轉譯研究成為一個有用的壓力測試,可檢驗那些聲稱能支援高價值專家工作流程的 AI agent。

OpenAI 發布了什麼

OpenAI 將 GeneBench-Pro 描述為 GeneBench 的擴充後繼版本,涵蓋基因體學、定量生物學與轉譯醫學中更困難的任務。這個基準包含 129 題,每題都被設計成一個獨立的分析問題。模型會收到一段簡短提示、資料集檔案,以及一個受限制的工作區,可使用 Python 與標準科學套件,包括像 PLINK 2.0 這類工具。

公司表示,每道題都是圍繞其所稱的「research taste」所建構,也就是為了判斷資料能支持什麼、哪些方法合適,以及何時應該改變初始計畫所需的一系列分析判斷。這是一個值得注意的 framing 轉變,因為許多 AI 基準通常著重於模型能否重現已知程序,而不是先判斷正確程序本身。

為了方便外部檢視,OpenAI 表示將在 Hugging Face 上開源 10 道具代表性的題目,並計畫提供一個 50 題子集給 Artificial Analysis 進行第三方基準測試。另一個案例研究頁面列出了一些示例任務,包括在合成腫瘤登錄資料中估計治療效果、從 CRISPRi 資料評估看似存在的 lncRNA 依賴性,以及使用 cis-MVMR 估計疾病效應。這些例子旨在展示 GeneBench-Pro 所涵蓋的工作流程範圍,而不是只聚焦於單一生物次領域。

為什麼 OpenAI 說這個基準不同

GeneBench-Pro 背後最主要的技術主張,是它避開了長程科學基準常見的弱點。OpenAI 表示,歷史性的真實世界資料集可能造成評分問題,因為多個合理的分析選擇可能導致略有不同的答案;而設計不良的任務也可能讓模型即使存在嚴重方法學錯誤,仍然通過測試。

其解法是以合成方式生成基準問題,同時控制完整的資料生成過程。根據 OpenAI 的說法,這讓基準建立者能夠掌握因果結構、調整難度、驗證正確方法能成功,並透過消融測試確認看似合理但其實錯誤的方法會失敗。公司也表示已審查草稿題目是否存在資訊洩漏與非預期捷徑。

這項設計選擇對 AI 評測很重要。在程式撰寫領域,可確定性的評分相對容易,因為程式不是通過測試就是不通過。但在科學分析中,尤其是計算生物學,成功往往更關乎推論品質,而不是精確重現一套標準步驟。OpenAI 實際上是在嘗試建立一個既保留研究工作的模糊性,又仍可進行確定性評分的基準。

公司還表示,129 題中有 82 題經過外部領域專家審查,包括研究所學生、博士後研究員、業界科學家與教授。審查者評估了真實性、目標答案是否可識別,以及方法與估計量是否適當,並根據回饋修訂題目。這並不代表基準天然中立,但顯示 OpenAI 正試圖預先回應「這些任務只反映內部假設」之類的批評。

表現數據,以及其限制

OpenAI 的重點結果是,其模型 GPT-5.6 Sol 在 GeneBench-Pro 上、以最高推理等級達到 28.7% 的通過率,啟用 Pro mode 後上升到 31.5%。公司並對比指出,GPT-5 在開始構建早期 GeneBench 基準時,得分低於 5%。

OpenAI 也表示,測試時運算量(test-time compute)影響很大。在最低推理等級下,GPT-5.6 Sol 的得分據稱只有個位數;但在最高推理等級下,它解出的題目數幾乎是 GPT-5.2 的六倍,而使用的 token 數約為其三分之二。若這項說法能獲得獨立驗證,對於試圖在專家型 agent 部署中平衡延遲、成本與品質的產品團隊將具有參考價值。

公司進一步主張,GPT 系列在這類定量科學推理上似乎強於領先的開源替代方案。文中 OpenAI 特別提到 GLM 5.2 是主要的開源對照,並表示 GeneBench-Pro 上的差距比單看 coding benchmark 所顯示的更大。

不過,這些都是由 OpenAI 自家設計基準所發出的供應商報告結果。OpenAI 也承認,在開發過程中使用了前沿 GPT 模型來評估與加強題目,並表示最初曾懷疑這可能會讓基準相較於其他模型家族而對 GPT 模型不利。公司的結論是,競爭者頂多只追平了當時可用的對應 GPT 模型。即便如此,在 Artificial Analysis 或其他外部團隊發布獨立測試前,最強的比較性主張仍應視為暫時性的。

這對 AI 建構者與企業買家意味著什麼

對建構者而言,GeneBench-Pro 點出 AI agent 的一個實際問題:在 coding 或問答上的基準成功,並不一定能乾淨地轉移到「決定要做哪種分析」的領域。打造科學助理、醫療研究工具或內部實驗室 copilot 的團隊,往往會發現最難的失敗模式發生在執行之前。模型也許能寫出正確的 Python,卻可能選錯估計量、忽略混雜因子,或對弱資料過度自信。

OpenAI 正將 GeneBench-Pro 定位為衡量這些失敗模式的方法。如果這個 framing 受到重視,可能會推動更多 AI 評測走向系統層級的判斷測試,而不是更狹窄的單元測試。這不只對生物學重要,對於充滿模糊性、部分可觀測性與流程修訂的企業 AI 環境也同樣重要。

對生技與製藥的企業買家來說,這次發布更像是一個訊號,而不是一條採購捷徑。OpenAI 自己也表示,現階段的 AI agent 仍然太不可靠,無法取代人類專家。與此同時,公司認為經濟性已經難以忽視:審查者估計,一道典型的 GeneBench-Pro 題目可能需要人類專家 20 到 40 小時,而模型推理成本每題只需幾美元。這些數字是 OpenAI 的 framing,而非經獨立驗證的 ROI 模型;但它們指出了買家最先可能看到價值的地方:分流、探索性分析,或仍受專家監督的分析草稿工作。

這項基準也契合了更廣泛的趨勢,也就是 AI agent 不只是待在聊天視窗,而是能在特定領域軟體環境中運作。GeneBench-Pro 使用了具備 Python 與生物資訊套件的真實工作區,與許多建構者如今對可部署 agent 的思路相符:能使用工具、跨檔案與程式碼工作,並在迭代推理循環中持續前進的系統。

證據、驗證與未解問題

這裡的證據基礎主要來自 OpenAI 自身的公告與案例材料。這意味著,關於基準設計、資料集結構、129 題規模、使用合成生成,以及所報告的 GPT-5.6 Sol 分數等核心事實,都是來自供應商本身。

有些部分比其他部分更有說服力。基準的存在、計畫在 Hugging Face 上釋出 10 題,以及即將提供給 Artificial Analysis 的 50 題子集,都是具體且可驗證的。外部專家審查流程也是一個有意義的可信度訊號,儘管在此提供的來源材料中,公告並未給出審查結果的完整公開細節。

模型排名比較、與 coding benchmark 相比差距的意義,以及基準可能在年底前達到飽和的推論,則都是 OpenAI 的詮釋性主張。它們或許在方向上是對的,但目前仍未形成外部市場共識。同樣地,將人類專家勞動與 AI 推理成本相比,最好視為示意性的 framing,而不是可直接用於部署的商業案例。

接下來要觀察什麼

第一個具體訊號會是 Hugging Face 釋出的內容,是否足以讓外部研究者檢驗 GeneBench-Pro 的構造、評分邏輯,以及是否容易被捷徑破解。如果獨立團隊能重現 OpenAI 的整體發現,這個基準的份量就會更高。

第二個訊號是即將交給 Artificial Analysis 的版本。跨 GPT 模型與非 OpenAI 系統的第三方測試,會比內部比較更重要,尤其當它們揭示出的差距比 OpenAI 所報告的更窄或更寬時。

第三,要觀察其他實驗室是否會在濕實驗生物學、藥物發現或臨床研究分析方面推出可比擬的基準。如果 GeneBench-Pro 成為參考點,競爭者可能不僅需要展示強大的 coding 或通用推理分數,還需要在不確定性下展現領域特定的判斷能力。

最後,最重要的產品訊號是基準提升能否轉化為可用工具。如果未來 OpenAI 或合作夥伴的產品在基因體學、轉譯醫學或更廣泛的計算生物學工作流程中展現穩健表現,GeneBench-Pro 看起來就不會只是研究產物,而會更像是科學領域企業 AI 的早期就緒測試。

Creati.ai 觀點

GeneBench-Pro 的重要性,不在於目前的通過率,而在於它試圖衡量的東西。OpenAI 正在提出一個主張:AI 在專家型工作中的下一個瓶頸不是原始執行能力,而是判斷力——選擇正確路徑、在證據變化時修正路徑,以及知道何時不該過度宣稱。這比目前大多數 benchmark 文化所採用的標準更嚴格。

對市場而言,即使目前的數字仍是供應商報告,這仍是一項有用的發展。AI 建構者需要更嚴格的研究等級工作流程評測目標,而企業買家也需要更好的方式,去區分華麗展示與能在模糊、高風險分析中存活的系統。GeneBench-Pro 是否會成為標準,取決於外部驗證,但它確實捕捉到 AI 從「產生答案」走向「運用嚴謹分析推理」的一項重要轉變。

精選
AirMusic
AirMusic
AirMusic.ai 可從文字提示生成高品質的 AI 音樂曲目,支援風格與情緒自訂,並能匯出分軌(stems)。
AdsCreator.com
AdsCreator.com
即時從任何網站 URL 生成精緻、符合品牌調性的廣告素材,適用於 Meta、Google 與 Stories。
Free GPT Image 2
Free GPT Image 2
一款免費的 GPT Image 2 生成器,可用來建立海報、廣告、漫畫和 UI 模擬稿,並具備準確的排版效果。
Anijam AI
Anijam AI
Anijam 是一個 AI 原生動畫平台,透過代理式影片創作將點子轉化為精緻的故事。
KiloClaw
KiloClaw
託管的 OpenClaw 代理:一鍵部署,超過 500 款模型,安全的基礎設施,並為團隊和開發者提供自動化代理管理。
Atoms
Atoms
由 AI 驅動的平台,透過多代理自動化在幾分鐘內建立全端應用程式與網站,無需編碼。
Refly.ai
Refly.ai
Refly.AI 讓非技術創作者能使用自然語言與視覺畫布自動化工作流程。
VoxDeck
VoxDeck
引領視覺革命的AI簡報製作工具
Skywork.ai
Skywork.ai
Skywork AI 是一款創新的工具,旨在利用 AI 提高生產力。
Pippit
Pippit
提升您的內容創造力,使用 Pippit 的強大 AI 工具!
Diagrimo
Diagrimo
Diagrimo 即時將文字轉換為可自訂的 AI 產生圖表和視覺圖像。
BGRemover
BGRemover
輕鬆地在線移除圖像背景,使用SharkFoto BGRemover。
UNI-1 AI
UNI-1 AI
UNI-1 是一個結合視覺推理與高保真影像合成的統一影像生成模型。
VidMage
VidMage
使用AI技術輕鬆在照片和視頻中交換面孔。
SuperMaker AI Video Generator
SuperMaker AI Video Generator
輕鬆打造驚艷的影片、音樂和圖像,使用SuperMaker。
Elser AI
Elser AI
一體化網頁創作工作室,將文字與影像轉換為動畫風格藝術、角色、聲音與短片。
Flowith
Flowith
Flowith 是一個基於畫布的代理型工作空間,提供免費的 🍌Nano Banana Pro 和其他高效模型...
Qoder
Qoder
Qoder 是一款由人工智能驅動的程式碼助理,自動化軟體專案的規劃、編碼和測試。
FineVoice
FineVoice
讓文字化為情感 — 在數秒內克隆、設計並創造富有情感的 AI 聲音。
FixArt AI
FixArt AI
FixArt AI 提供免費、無限制的影像與影片生成 AI 工具,免註冊。
SharkFoto
SharkFoto
SharkFoto 是一個整合型的 AI 平台,用於高效率地創建與編輯影片、影像和音樂。
AIToHuman
AIToHuman
一款免費的 AI 文字人性化工具,可即時將 AI 生成內容改寫為自然、如人類撰寫般的文字。
AI FIRST
AI FIRST
透過自然語言自動化研究、瀏覽器任務、網頁擷取與檔案管理的對話式 AI 助手。
Image to Video AI without Login
Image to Video AI without Login
免費的影像轉影片 AI 工具,立即將照片轉成平滑且高品質的動畫影片,並且無浮水印。
Claude API
Claude API
Claude API for Everyone
Funy AI
Funy AI
將你的幻想化為影片!從圖片或文字生成AI比基尼、親吻影片。體驗AI換衣功能。完全免費,無需註冊!
Wan 2.7
Wan 2.7
專業級 AI 影片模型,具精準動作控制與多視角一致性。
Couple AI - AI Couple Photo Maker
Couple AI - AI Couple Photo Maker
從自拍建立逼真的 AI 情侶肖像,具備主題風格、快速生成與私密 HD 下載。
Imagvio AI
Imagvio AI
一個由 AI 驅動的影像與影片創作平台,具備精準編輯、生成,以及以一致性為核心的創意工作流程。
Questie AI - Game Companion
Questie AI - Game Companion
即時 AI 遊戲夥伴,可觀看你的螢幕、用語音聊天,並在遊玩時即時提供教學指導。
Gemini Omni - Video Generator
Gemini Omni - Video Generator
用於對話式編輯、多模態參考與一致性短影音生成的 AI 影片創作平台。
Scavio AI
Scavio AI
即時多平台搜尋 API,協助 AI 代理擷取結構化的網頁、購物、影片與社群資料。
APIMaster
APIMaster
經指紋驗證的真實 LLM。一個 API,比官方定價最高省 70%。
Ampere.SH
Ampere.SH
免費託管的 OpenClaw 主機。使用 $500 的 Claude 點數,60 秒內部署 AI 代理。
AI Pet Video Generator
AI Pet Video Generator
使用 AI 驅动的範本與即時 HD 匯出,從照片建立可病毒式傳播且便於分享的寵物影片,適用於社交平台。
Gptimg2 AI
Gptimg2 AI
一站式 AI 工作室,可透過文字、圖片或參考素材創建圖像與影片。
OnlyDoc Summarizer
OnlyDoc Summarizer
OnlyDoc 的免費 PDF 摘要工具會通讀 PDF,並以乾淨、結構化的摘要提煉出重點
GenPPT.AI
GenPPT.AI
由 AI 驅動的簡報製作工具,能在數分鐘內建立、美化並匯出專業的 PowerPoint 簡報,包含講者備註與圖表。
whatslove.ai
whatslove.ai
一款 AI 約會教練,能根據你的個性量身打造建議、聊天開場白和約會點子。
AI Clothes Changer by SharkFoto
AI Clothes Changer by SharkFoto
SharkFoto 的 AI Clothes Changer 可即時讓您虛擬試穿服裝,呈現逼真的合身度、材質與光影。
AnimeShorts
AnimeShorts
輕鬆使用尖端的AI技術創作驚人的動漫短片。
wan 2.7-image
wan 2.7-image
一款可控的 AI 圖像生成器,可精準控制臉部、配色、文字與視覺連貫性。
CreateMemorial
CreateMemorial
CreateMemorial 協助家屬建立可長久保存的線上追思網站與葬禮紀念影片,以緬懷摯愛親人。
Image 2 AI
Image 2 AI
由 OpenAI 驅動的影像生成與編輯工具,適用於寫實風格視覺、精準文字渲染與 UI 模型圖。
Media.io Free AI Image Generator
Media.io Free AI Image Generator
使用 Media.io,透過文字提示或參考圖片創建 AI 視覺內容,適用於社群媒體、行銷、電子商務等多種用途。
AI Video API: Seedance 2.0 Here
AI Video API: Seedance 2.0 Here
透過單一金鑰提供頂尖生成模型的統一 AI 影片 API,且成本更低。
paperclaw
paperclaw
一個 AI 工作區,可在幾分鐘內生成可直接發表的科學圖表、示意圖、海報和可編輯 SVG。
Mubert AI
Mubert AI
Mubert 是一個 AI 音樂平台,可在幾秒內生成、延長、重混並加入人聲的免版稅曲目。
AIsa
AIsa
AIsa 透過與 OpenAI 相容的存取方式,為 AI 代理提供連接模型、技能、API 與支付的單一入口。
Lyria3 AI
Lyria3 AI
AI 音樂生成器,可即時從文字提示、歌詞與風格建立高保真、完整製作的歌曲。
AdMakeAI
AdMakeAI
可在數秒內為品牌建立高成效靜態與 UGC 廣告的 AI 廣告生成器。
Seedance 2.0 Video AI
Seedance 2.0 Video AI
根據提示、圖片與參考片段,生成具同步音訊的電影級 1080p 影片。
GPT Image 2 Online
GPT Image 2 Online
一款具備寫實效果、精準文字渲染與強大提示詞遵循能力的 AI 圖像生成與編輯器。
WriteHybrid AI Humanizer
WriteHybrid AI Humanizer
WriteHybrid 是一款 AI 擬人化與偵測工具,可自然重寫文字,同時幫助使用者繞過 AI 偵測。
NerdyTips
NerdyTips
由 AI 驅動的足球預測平台,為全球聯賽提供以數據為基礎的比賽建議。
GLM Image
GLM Image
GLM Image 結合自回歸與擴散混合模型,生成高保真 AI 圖像並具備卓越的文字渲染能力。
AI Gift finder by wishwave
AI Gift finder by wishwave
一款 AI 禮物搜尋工具,能從數百家熱門商店的真實商品建立可分享的願望清單。
Flaq AI Media API
Flaq AI Media API
Flaq AI 是一個統一的 AI 媒體 API 平台,可用於生成圖片、影片,以及由 LLM 驅動的工作流程,並採用穩定模型
InstantChapters
InstantChapters
即時生成吸引人的書籍章節。
BeatMV
BeatMV
基於網頁的人工智慧平台,將歌曲轉換為電影感音樂影片並用 AI 創作音樂。
WhatsApp AI Sales
WhatsApp AI Sales
WABot 是一款 WhatsApp AI 銷售副駕駛,提供即時腳本、翻譯與意圖偵測。
insmelo AI Music Generator
insmelo AI Music Generator
以 AI 為驅動的音樂生成器,將提示、歌詞或上傳內容在約一分鐘內轉為精緻且免版稅的歌曲。
Iara Chat
Iara Chat
Iara Chat:一個由AI驅動的生產力和通信助手。
Text to Music
Text to Music
將文字或歌詞轉換為完整的錄音室級別歌曲,包含 AI 生成的人聲、樂器與多軌匯出。
StitchPilot.ai
StitchPilot.ai
基於瀏覽器的 AI 刺繡工具,可將圖像轉換、預覽針跡檔案並檢查機器格式。
MusicGPT
MusicGPT
一個 AI 音樂平台,可透過簡單提示詞生成歌曲、音效、歌聲與音訊編輯。
Kirkify
Kirkify
Kirkify AI 為迷因創作者即時生成帶有招牌霓虹故障美學的臉部置換爆紅迷因。
Tome AI PPT
Tome AI PPT
由 AI 驅動的簡報製作工具,可在數分鐘內生成、優化並匯出專業投影片。
Paper Banana
Paper Banana
以 AI 為動力的工具,可即時將學術文字轉換為已達投稿品質的方法圖與精確的統計圖表。
SkyGen Plus
SkyGen Plus
一個多模型 AI 創作平台,透過單一流暢工作流程生成圖片、影片和音樂。
EaseMate AI
EaseMate AI
一站式 AI 助理,將聊天、寫作、學習輔助、圖片創作與影片生成整合於同一個基於瀏覽器的平台。
happy horse AI
happy horse AI
開源 AI 影片生成器,可從文字或圖片建立同步的影片與音訊。
Create WhatsApp Link
Create WhatsApp Link
免費的 WhatsApp 連結與 QR 產生器,具備分析、品牌連結、路由與多代理聊天功能。
HookTide
HookTide
由 AI 驅動的 LinkedIn 成長平台,學習你的語氣以產生內容、互動並分析表現。
kinovi - Seedance 2.0 - Real Man AI Video
kinovi - Seedance 2.0 - Real Man AI Video
免費的 AI 影片產生器,輸出逼真人物畫面,無浮水印,並享有完整商業使用權。
Image3D - AI 2D to 3D Model Generator (GLB, OBJ, STL, PLY)
Image3D - AI 2D to 3D Model Generator (GLB, OBJ, STL, PLY)
基於瀏覽器的 AI,可在 30 秒內將任何 2D 圖像或文字提示轉換為 3D 模型。可匯出 GLB、OBJ、STL、PLY——免費
Veemo - AI Video Generator
Veemo - AI Video Generator
Veemo AI 是一個整合型平台,可從文字或圖片快速生成高品質的影片與影像。
HappyHorseAIStudio
HappyHorseAIStudio
適用於文字、圖片、參考素材和影片編輯的瀏覽器式 AI 影片生成器。
Gobii
Gobii
Gobii 讓團隊建立全天候(24/7)自主的數位工作者,以自動化網路研究與例行工作。
WhatsApp Warmup Tool
WhatsApp Warmup Tool
由 AI 驅動的 WhatsApp 預熱工具,可自動化大量發送訊息並防止帳號被封。
Hitem3D
Hitem3D
Hitem3D 使用 AI 將單張影像轉換為高解析度、可投入生產的 3D 模型。
Manga Translator AI
Manga Translator AI
AI Manga Translator 即時在線將漫畫影像翻譯為多種語言。
TextToHuman
TextToHuman
免費的 AI 人性化工具,能即時將 AI 文字重寫為自然、類人的寫作風格。無需註冊。
Palix AI
Palix AI
為創作者提供的一體化 AI 平台,使用統一點數生成影像、影片和音樂。
Remy - Newsletter Summarizer
Remy - Newsletter Summarizer
Remy通過將電子郵件摘要成易於理解的洞察,自動化新聞稿管理。
Seedance 20 Video
Seedance 20 Video
Seedance 2 是一款多模態的 AI 影片生成器,提供角色一致性、多鏡頭敘事與 2K 原生音訊。
Video Sora 2
Video Sora 2
Sora 2 AI 將文字或圖像在幾分鐘內轉換為短篇、物理準確的社交及電商影片。

OpenAI 推出 GeneBench-Pro,測試 AI 是否能在計算生物學中做出研究等級的判斷

OpenAI 發布 GeneBench-Pro,一項基因體學基準,旨在衡量更高層次的科學推理能力,因為 AI 實驗室正加速進入生物學工作流程。