
OpenAI 推出了 GeneBench-Pro,這是一項新的基準,旨在測試 AI 系統是否能做得不只是執行生物學中的標準分析腳本。根據公司說法,這項基準瞄準的是計算研究中更困難的部分:在模糊不清的情況下做出判斷、隨著證據變化修正假設,以及判定某個答案是否已足夠可靠,可供下游的科學或臨床決策使用。
這次發布之所以重要,是因為許多 AI 評測仍然偏重記憶力、程式撰寫流暢度,或在嚴格指定任務上的成功率。OpenAI 認為,真實世界的生物學工作並非如此。在 GeneBench-Pro 的描述中,公司指出科學家經常面對雜亂資料、不完整訊號,以及多條都可成立的分析路徑。這使得基因體學與轉譯研究成為一個有用的壓力測試,可檢驗那些聲稱能支援高價值專家工作流程的 AI agent。
OpenAI 將 GeneBench-Pro 描述為 GeneBench 的擴充後繼版本,涵蓋基因體學、定量生物學與轉譯醫學中更困難的任務。這個基準包含 129 題,每題都被設計成一個獨立的分析問題。模型會收到一段簡短提示、資料集檔案,以及一個受限制的工作區,可使用 Python 與標準科學套件,包括像 PLINK 2.0 這類工具。
公司表示,每道題都是圍繞其所稱的「research taste」所建構,也就是為了判斷資料能支持什麼、哪些方法合適,以及何時應該改變初始計畫所需的一系列分析判斷。這是一個值得注意的 framing 轉變,因為許多 AI 基準通常著重於模型能否重現已知程序,而不是先判斷正確程序本身。
為了方便外部檢視,OpenAI 表示將在 Hugging Face 上開源 10 道具代表性的題目,並計畫提供一個 50 題子集給 Artificial Analysis 進行第三方基準測試。另一個案例研究頁面列出了一些示例任務,包括在合成腫瘤登錄資料中估計治療效果、從 CRISPRi 資料評估看似存在的 lncRNA 依賴性,以及使用 cis-MVMR 估計疾病效應。這些例子旨在展示 GeneBench-Pro 所涵蓋的工作流程範圍,而不是只聚焦於單一生物次領域。
GeneBench-Pro 背後最主要的技術主張,是它避開了長程科學基準常見的弱點。OpenAI 表示,歷史性的真實世界資料集可能造成評分問題,因為多個合理的分析選擇可能導致略有不同的答案;而設計不良的任務也可能讓模型即使存在嚴重方法學錯誤,仍然通過測試。
其解法是以合成方式生成基準問題,同時控制完整的資料生成過程。根據 OpenAI 的說法,這讓基準建立者能夠掌握因果結構、調整難度、驗證正確方法能成功,並透過消融測試確認看似合理但其實錯誤的方法會失敗。公司也表示已審查草稿題目是否存在資訊洩漏與非預期捷徑。
這項設計選擇對 AI 評測很重要。在程式撰寫領域,可確定性的評分相對容易,因為程式不是通過測試就是不通過。但在科學分析中,尤其是計算生物學,成功往往更關乎推論品質,而不是精確重現一套標準步驟。OpenAI 實際上是在嘗試建立一個既保留研究工作的模糊性,又仍可進行確定性評分的基準。
公司還表示,129 題中有 82 題經過外部領域專家審查,包括研究所學生、博士後研究員、業界科學家與教授。審查者評估了真實性、目標答案是否可識別,以及方法與估計量是否適當,並根據回饋修訂題目。這並不代表基準天然中立,但顯示 OpenAI 正試圖預先回應「這些任務只反映內部假設」之類的批評。
OpenAI 的重點結果是,其模型 GPT-5.6 Sol 在 GeneBench-Pro 上、以最高推理等級達到 28.7% 的通過率,啟用 Pro mode 後上升到 31.5%。公司並對比指出,GPT-5 在開始構建早期 GeneBench 基準時,得分低於 5%。
OpenAI 也表示,測試時運算量(test-time compute)影響很大。在最低推理等級下,GPT-5.6 Sol 的得分據稱只有個位數;但在最高推理等級下,它解出的題目數幾乎是 GPT-5.2 的六倍,而使用的 token 數約為其三分之二。若這項說法能獲得獨立驗證,對於試圖在專家型 agent 部署中平衡延遲、成本與品質的產品團隊將具有參考價值。
公司進一步主張,GPT 系列在這類定量科學推理上似乎強於領先的開源替代方案。文中 OpenAI 特別提到 GLM 5.2 是主要的開源對照,並表示 GeneBench-Pro 上的差距比單看 coding benchmark 所顯示的更大。
不過,這些都是由 OpenAI 自家設計基準所發出的供應商報告結果。OpenAI 也承認,在開發過程中使用了前沿 GPT 模型來評估與加強題目,並表示最初曾懷疑這可能會讓基準相較於其他模型家族而對 GPT 模型不利。公司的結論是,競爭者頂多只追平了當時可用的對應 GPT 模型。即便如此,在 Artificial Analysis 或其他外部團隊發布獨立測試前,最強的比較性主張仍應視為暫時性的。
對建構者而言,GeneBench-Pro 點出 AI agent 的一個實際問題:在 coding 或問答上的基準成功,並不一定能乾淨地轉移到「決定要做哪種分析」的領域。打造科學助理、醫療研究工具或內部實驗室 copilot 的團隊,往往會發現最難的失敗模式發生在執行之前。模型也許能寫出正確的 Python,卻可能選錯估計量、忽略混雜因子,或對弱資料過度自信。
OpenAI 正將 GeneBench-Pro 定位為衡量這些失敗模式的方法。如果這個 framing 受到重視,可能會推動更多 AI 評測走向系統層級的判斷測試,而不是更狹窄的單元測試。這不只對生物學重要,對於充滿模糊性、部分可觀測性與流程修訂的企業 AI 環境也同樣重要。
對生技與製藥的企業買家來說,這次發布更像是一個訊號,而不是一條採購捷徑。OpenAI 自己也表示,現階段的 AI agent 仍然太不可靠,無法取代人類專家。與此同時,公司認為經濟性已經難以忽視:審查者估計,一道典型的 GeneBench-Pro 題目可能需要人類專家 20 到 40 小時,而模型推理成本每題只需幾美元。這些數字是 OpenAI 的 framing,而非經獨立驗證的 ROI 模型;但它們指出了買家最先可能看到價值的地方:分流、探索性分析,或仍受專家監督的分析草稿工作。
這項基準也契合了更廣泛的趨勢,也就是 AI agent 不只是待在聊天視窗,而是能在特定領域軟體環境中運作。GeneBench-Pro 使用了具備 Python 與生物資訊套件的真實工作區,與許多建構者如今對可部署 agent 的思路相符:能使用工具、跨檔案與程式碼工作,並在迭代推理循環中持續前進的系統。
這裡的證據基礎主要來自 OpenAI 自身的公告與案例材料。這意味著,關於基準設計、資料集結構、129 題規模、使用合成生成,以及所報告的 GPT-5.6 Sol 分數等核心事實,都是來自供應商本身。
有些部分比其他部分更有說服力。基準的存在、計畫在 Hugging Face 上釋出 10 題,以及即將提供給 Artificial Analysis 的 50 題子集,都是具體且可驗證的。外部專家審查流程也是一個有意義的可信度訊號,儘管在此提供的來源材料中,公告並未給出審查結果的完整公開細節。
模型排名比較、與 coding benchmark 相比差距的意義,以及基準可能在年底前達到飽和的推論,則都是 OpenAI 的詮釋性主張。它們或許在方向上是對的,但目前仍未形成外部市場共識。同樣地,將人類專家勞動與 AI 推理成本相比,最好視為示意性的 framing,而不是可直接用於部署的商業案例。
第一個具體訊號會是 Hugging Face 釋出的內容,是否足以讓外部研究者檢驗 GeneBench-Pro 的構造、評分邏輯,以及是否容易被捷徑破解。如果獨立團隊能重現 OpenAI 的整體發現,這個基準的份量就會更高。
第二個訊號是即將交給 Artificial Analysis 的版本。跨 GPT 模型與非 OpenAI 系統的第三方測試,會比內部比較更重要,尤其當它們揭示出的差距比 OpenAI 所報告的更窄或更寬時。
第三,要觀察其他實驗室是否會在濕實驗生物學、藥物發現或臨床研究分析方面推出可比擬的基準。如果 GeneBench-Pro 成為參考點,競爭者可能不僅需要展示強大的 coding 或通用推理分數,還需要在不確定性下展現領域特定的判斷能力。
最後,最重要的產品訊號是基準提升能否轉化為可用工具。如果未來 OpenAI 或合作夥伴的產品在基因體學、轉譯醫學或更廣泛的計算生物學工作流程中展現穩健表現,GeneBench-Pro 看起來就不會只是研究產物,而會更像是科學領域企業 AI 的早期就緒測試。
GeneBench-Pro 的重要性,不在於目前的通過率,而在於它試圖衡量的東西。OpenAI 正在提出一個主張:AI 在專家型工作中的下一個瓶頸不是原始執行能力,而是判斷力——選擇正確路徑、在證據變化時修正路徑,以及知道何時不該過度宣稱。這比目前大多數 benchmark 文化所採用的標準更嚴格。
對市場而言,即使目前的數字仍是供應商報告,這仍是一項有用的發展。AI 建構者需要更嚴格的研究等級工作流程評測目標,而企業買家也需要更好的方式,去區分華麗展示與能在模糊、高風險分析中存活的系統。GeneBench-Pro 是否會成為標準,取決於外部驗證,但它確實捕捉到 AI 從「產生答案」走向「運用嚴謹分析推理」的一項重要轉變。