OpenAI 推出 GeneBench-Pro，測試 AI 是否能在計算生物學中做出研究等級的判斷

OpenAI 推出了 GeneBench-Pro，這是一項新的基準，旨在測試 AI 系統是否能做得不只是執行生物學中的標準分析腳本。根據公司說法，這項基準瞄準的是計算研究中更困難的部分：在模糊不清的情況下做出判斷、隨著證據變化修正假設，以及判定某個答案是否已足夠可靠，可供下游的科學或臨床決策使用。

這次發布之所以重要，是因為許多 AI 評測仍然偏重記憶力、程式撰寫流暢度，或在嚴格指定任務上的成功率。OpenAI 認為，真實世界的生物學工作並非如此。在 GeneBench-Pro 的描述中，公司指出科學家經常面對雜亂資料、不完整訊號，以及多條都可成立的分析路徑。這使得基因體學與轉譯研究成為一個有用的壓力測試，可檢驗那些聲稱能支援高價值專家工作流程的 AI agent。

OpenAI 發布了什麼

OpenAI 將 GeneBench-Pro 描述為 GeneBench 的擴充後繼版本，涵蓋基因體學、定量生物學與轉譯醫學中更困難的任務。這個基準包含 129 題，每題都被設計成一個獨立的分析問題。模型會收到一段簡短提示、資料集檔案，以及一個受限制的工作區，可使用 Python 與標準科學套件，包括像 PLINK 2.0 這類工具。

公司表示，每道題都是圍繞其所稱的「research taste」所建構，也就是為了判斷資料能支持什麼、哪些方法合適，以及何時應該改變初始計畫所需的一系列分析判斷。這是一個值得注意的 framing 轉變，因為許多 AI 基準通常著重於模型能否重現已知程序，而不是先判斷正確程序本身。

為了方便外部檢視，OpenAI 表示將在 Hugging Face 上開源 10 道具代表性的題目，並計畫提供一個 50 題子集給 Artificial Analysis 進行第三方基準測試。另一個案例研究頁面列出了一些示例任務，包括在合成腫瘤登錄資料中估計治療效果、從 CRISPRi 資料評估看似存在的 lncRNA 依賴性，以及使用 cis-MVMR 估計疾病效應。這些例子旨在展示 GeneBench-Pro 所涵蓋的工作流程範圍，而不是只聚焦於單一生物次領域。

為什麼 OpenAI 說這個基準不同

GeneBench-Pro 背後最主要的技術主張，是它避開了長程科學基準常見的弱點。OpenAI 表示，歷史性的真實世界資料集可能造成評分問題，因為多個合理的分析選擇可能導致略有不同的答案；而設計不良的任務也可能讓模型即使存在嚴重方法學錯誤，仍然通過測試。

其解法是以合成方式生成基準問題，同時控制完整的資料生成過程。根據 OpenAI 的說法，這讓基準建立者能夠掌握因果結構、調整難度、驗證正確方法能成功，並透過消融測試確認看似合理但其實錯誤的方法會失敗。公司也表示已審查草稿題目是否存在資訊洩漏與非預期捷徑。

這項設計選擇對 AI 評測很重要。在程式撰寫領域，可確定性的評分相對容易，因為程式不是通過測試就是不通過。但在科學分析中，尤其是計算生物學，成功往往更關乎推論品質，而不是精確重現一套標準步驟。OpenAI 實際上是在嘗試建立一個既保留研究工作的模糊性，又仍可進行確定性評分的基準。

公司還表示，129 題中有 82 題經過外部領域專家審查，包括研究所學生、博士後研究員、業界科學家與教授。審查者評估了真實性、目標答案是否可識別，以及方法與估計量是否適當，並根據回饋修訂題目。這並不代表基準天然中立，但顯示 OpenAI 正試圖預先回應「這些任務只反映內部假設」之類的批評。

表現數據，以及其限制

OpenAI 的重點結果是，其模型 GPT-5.6 Sol 在 GeneBench-Pro 上、以最高推理等級達到 28.7% 的通過率，啟用 Pro mode 後上升到 31.5%。公司並對比指出，GPT-5 在開始構建早期 GeneBench 基準時，得分低於 5%。

OpenAI 也表示，測試時運算量（test-time compute）影響很大。在最低推理等級下，GPT-5.6 Sol 的得分據稱只有個位數；但在最高推理等級下，它解出的題目數幾乎是 GPT-5.2 的六倍，而使用的 token 數約為其三分之二。若這項說法能獲得獨立驗證，對於試圖在專家型 agent 部署中平衡延遲、成本與品質的產品團隊將具有參考價值。

公司進一步主張，GPT 系列在這類定量科學推理上似乎強於領先的開源替代方案。文中 OpenAI 特別提到 GLM 5.2 是主要的開源對照，並表示 GeneBench-Pro 上的差距比單看 coding benchmark 所顯示的更大。

不過，這些都是由 OpenAI 自家設計基準所發出的供應商報告結果。OpenAI 也承認，在開發過程中使用了前沿 GPT 模型來評估與加強題目，並表示最初曾懷疑這可能會讓基準相較於其他模型家族而對 GPT 模型不利。公司的結論是，競爭者頂多只追平了當時可用的對應 GPT 模型。即便如此，在 Artificial Analysis 或其他外部團隊發布獨立測試前，最強的比較性主張仍應視為暫時性的。

這對 AI 建構者與企業買家意味著什麼

對建構者而言，GeneBench-Pro 點出 AI agent 的一個實際問題：在 coding 或問答上的基準成功，並不一定能乾淨地轉移到「決定要做哪種分析」的領域。打造科學助理、醫療研究工具或內部實驗室 copilot 的團隊，往往會發現最難的失敗模式發生在執行之前。模型也許能寫出正確的 Python，卻可能選錯估計量、忽略混雜因子，或對弱資料過度自信。

OpenAI 正將 GeneBench-Pro 定位為衡量這些失敗模式的方法。如果這個 framing 受到重視，可能會推動更多 AI 評測走向系統層級的判斷測試，而不是更狹窄的單元測試。這不只對生物學重要，對於充滿模糊性、部分可觀測性與流程修訂的企業 AI 環境也同樣重要。

對生技與製藥的企業買家來說，這次發布更像是一個訊號，而不是一條採購捷徑。OpenAI 自己也表示，現階段的 AI agent 仍然太不可靠，無法取代人類專家。與此同時，公司認為經濟性已經難以忽視：審查者估計，一道典型的 GeneBench-Pro 題目可能需要人類專家 20 到 40 小時，而模型推理成本每題只需幾美元。這些數字是 OpenAI 的 framing，而非經獨立驗證的 ROI 模型；但它們指出了買家最先可能看到價值的地方：分流、探索性分析，或仍受專家監督的分析草稿工作。

這項基準也契合了更廣泛的趨勢，也就是 AI agent 不只是待在聊天視窗，而是能在特定領域軟體環境中運作。GeneBench-Pro 使用了具備 Python 與生物資訊套件的真實工作區，與許多建構者如今對可部署 agent 的思路相符：能使用工具、跨檔案與程式碼工作，並在迭代推理循環中持續前進的系統。

證據、驗證與未解問題

這裡的證據基礎主要來自 OpenAI 自身的公告與案例材料。這意味著，關於基準設計、資料集結構、129 題規模、使用合成生成，以及所報告的 GPT-5.6 Sol 分數等核心事實，都是來自供應商本身。

有些部分比其他部分更有說服力。基準的存在、計畫在 Hugging Face 上釋出 10 題，以及即將提供給 Artificial Analysis 的 50 題子集，都是具體且可驗證的。外部專家審查流程也是一個有意義的可信度訊號，儘管在此提供的來源材料中，公告並未給出審查結果的完整公開細節。

模型排名比較、與 coding benchmark 相比差距的意義，以及基準可能在年底前達到飽和的推論，則都是 OpenAI 的詮釋性主張。它們或許在方向上是對的，但目前仍未形成外部市場共識。同樣地，將人類專家勞動與 AI 推理成本相比，最好視為示意性的 framing，而不是可直接用於部署的商業案例。

接下來要觀察什麼

第一個具體訊號會是 Hugging Face 釋出的內容，是否足以讓外部研究者檢驗 GeneBench-Pro 的構造、評分邏輯，以及是否容易被捷徑破解。如果獨立團隊能重現 OpenAI 的整體發現，這個基準的份量就會更高。

第二個訊號是即將交給 Artificial Analysis 的版本。跨 GPT 模型與非 OpenAI 系統的第三方測試，會比內部比較更重要，尤其當它們揭示出的差距比 OpenAI 所報告的更窄或更寬時。

第三，要觀察其他實驗室是否會在濕實驗生物學、藥物發現或臨床研究分析方面推出可比擬的基準。如果 GeneBench-Pro 成為參考點，競爭者可能不僅需要展示強大的 coding 或通用推理分數，還需要在不確定性下展現領域特定的判斷能力。

最後，最重要的產品訊號是基準提升能否轉化為可用工具。如果未來 OpenAI 或合作夥伴的產品在基因體學、轉譯醫學或更廣泛的計算生物學工作流程中展現穩健表現，GeneBench-Pro 看起來就不會只是研究產物，而會更像是科學領域企業 AI 的早期就緒測試。

Creati.ai 觀點

GeneBench-Pro 的重要性，不在於目前的通過率，而在於它試圖衡量的東西。OpenAI 正在提出一個主張：AI 在專家型工作中的下一個瓶頸不是原始執行能力，而是判斷力——選擇正確路徑、在證據變化時修正路徑，以及知道何時不該過度宣稱。這比目前大多數 benchmark 文化所採用的標準更嚴格。

對市場而言，即使目前的數字仍是供應商報告，這仍是一項有用的發展。AI 建構者需要更嚴格的研究等級工作流程評測目標，而企業買家也需要更好的方式，去區分華麗展示與能在模糊、高風險分析中存活的系統。GeneBench-Pro 是否會成為標準，取決於外部驗證，但它確實捕捉到 AI 從「產生答案」走向「運用嚴謹分析推理」的一項重要轉變。