OpenAI lance GeneBench-Pro pour tester si l’IA peut prendre des décisions de jugement de niveau recherche en biologie computationnelle

OpenAI a introduit GeneBench-Pro, un nouveau benchmark conçu pour tester si les systèmes d’IA peuvent faire plus qu’exécuter des scripts d’analyse standard en biologie. Selon l’entreprise, le benchmark vise la partie la plus difficile de la recherche computationnelle : prendre des décisions de jugement dans l’ambiguïté, réviser les hypothèses à mesure que les preuves évoluent, et déterminer quand une réponse est suffisamment fiable pour une décision scientifique ou clinique en aval.

Cette publication est importante parce que de nombreuses évaluations d’IA récompensent encore la mémorisation, l’aisance en programmation ou la réussite à des tâches étroitement spécifiées. OpenAI soutient que le travail biologique réel est différent. Dans sa description de GeneBench-Pro, l’entreprise explique que les scientifiques sont souvent confrontés à des données brouillonnes, à des signaux incomplets et à plusieurs voies d’analyse défendables. Cela fait de la génomique et de la recherche translationnelle un test de résistance utile pour les agents d’IA qui prétendent soutenir des flux de travail experts à forte valeur ajoutée.

Ce qu’OpenAI a publié

OpenAI décrit GeneBench-Pro comme un successeur étendu de GeneBench, couvrant des tâches plus difficiles en génomique, biologie quantitative et médecine translationnelle. Le benchmark contient 129 questions, chacune formulée comme un problème d’analyse autonome. Les modèles reçoivent une courte consigne, des fichiers de données et un accès à un espace de travail restreint avec Python et une pile scientifique standard, comprenant des outils tels que PLINK 2.0.

L’entreprise indique que chaque problème est construit autour de ce qu’elle appelle le « goût de la recherche », c’est-à-dire la séquence de jugements analytiques nécessaires pour décider ce que les données peuvent soutenir, quelles méthodes sont appropriées et quand un plan initial doit être modifié. Il s’agit d’un changement d’angle notable par rapport à de nombreux benchmarks d’IA, qui tendent à se concentrer sur la capacité d’un modèle à reproduire une procédure connue plutôt qu’à déterminer la bonne procédure dès le départ.

Pour permettre un examen externe, OpenAI dit ouvrir en source 10 problèmes représentatifs sur Hugging Face et prévoit de fournir un sous-ensemble de 50 questions à Artificial Analysis pour un benchmarking tiers. Une page séparée de cas d’étude présente des exemples de tâches, notamment l’estimation d’un effet de traitement dans un registre oncologique synthétique, l’évaluation d’une dépendance apparente à un lncRNA à partir de données CRISPRi, et l’estimation d’un effet de maladie à l’aide de cis-MVMR. Ces exemples sont censés montrer l’éventail des workflows intégrés dans GeneBench-Pro plutôt qu’un focus étroit sur un seul sous-domaine de la biologie.

Pourquoi OpenAI dit que ce benchmark est différent

La principale affirmation technique derrière GeneBench-Pro est qu’il évite les faiblesses courantes des benchmarks scientifiques de longue portée. OpenAI explique que les ensembles de données historiques du monde réel peuvent poser des problèmes de notation parce que plusieurs choix analytiques raisonnables peuvent conduire à des réponses légèrement différentes, tandis que des tâches mal conçues peuvent aussi permettre à des modèles de réussir malgré de graves erreurs méthodologiques.

Sa solution a consisté à générer des problèmes de benchmark de manière synthétique tout en contrôlant l’intégralité du processus de génération des données. Selon OpenAI, cela permet aux créateurs du benchmark de connaître la structure causale, d’ajuster la difficulté, de vérifier que les bonnes approches réussissent et de tester, par des ablations, que les approches plausibles mais erronées échouent. L’entreprise indique également avoir audité les brouillons de problèmes pour détecter les fuites d’information et les raccourcis involontaires.

Ce choix de conception est important pour l’évaluation de l’IA. En programmation, la notation déterministe est relativement simple, car un code réussit les tests ou non. Dans l’analyse scientifique, en particulier en biologie computationnelle, le succès concerne souvent la qualité de l’inférence plutôt que la reproduction exacte d’une séquence canonique d’étapes. OpenAI essaie en pratique de construire un benchmark qui préserve l’ambiguïté du travail de recherche tout en permettant une notation déterministe.

L’entreprise précise également que 82 des 129 questions ont été examinées par des experts externes du domaine, notamment des étudiants en doctorat, des chercheurs postdoctoraux, des scientifiques de l’industrie et des professeurs. Les évaluateurs ont apprécié le réalisme, l’identifiabilité de la réponse cible et l’adéquation des méthodes et des estimateurs, et leurs retours ont servi à réviser les problèmes. Cela ne rend pas le benchmark neutre par défaut, mais suggère qu’OpenAI cherche à prévenir les critiques selon lesquelles les tâches reflèteraient uniquement des hypothèses internes.

Les chiffres de performance, et leurs limites

Le résultat phare d’OpenAI est que son modèle GPT-5.6 Sol a obtenu un taux de réussite de 28,7 % sur GeneBench-Pro au plus haut niveau de raisonnement, atteignant 31,5 % avec le mode Pro activé. L’entreprise compare cela à un score inférieur à 5 % de GPT-5 lorsqu’elle a commencé à construire le benchmark GeneBench précédent.

OpenAI affirme également que le calcul au moment du test compte fortement. Au niveau de raisonnement le plus bas, GPT-5.6 Sol obtiendrait seulement un score à un chiffre, tandis qu’au niveau le plus élevé il résout près de six fois plus de questions que GPT-5.2 tout en utilisant environ deux tiers de jetons en moins. Cette affirmation, si elle était confirmée indépendamment, serait pertinente pour les équipes produit qui cherchent à équilibrer latence et coût avec la qualité dans les déploiements d’agents experts.

L’entreprise soutient en outre que les systèmes GPT semblent plus solides que les principales alternatives open source dans ce type de raisonnement scientifique quantitatif. Dans son billet, OpenAI mentionne spécifiquement GLM 5.2 comme une comparaison open source de premier plan et indique que l’écart sur GeneBench-Pro est plus important que ce que laisseraient supposer les seuls benchmarks de codage.

Mais il s’agit de résultats rapportés par le fournisseur sur un benchmark conçu par OpenAI. OpenAI reconnaît que des modèles GPT de pointe ont été utilisés pendant le développement pour évaluer et durcir les problèmes, et indique avoir d’abord soupçonné que cela pourrait biaiser le benchmark en défaveur des modèles GPT par rapport à d’autres familles. La conclusion de l’entreprise est que les concurrents n’ont de toute façon fait, au mieux, qu’égaler le modèle GPT correspondant disponible à l’époque. Malgré cela, tant qu’Artificial Analysis ou d’autres groupes externes n’auront pas publié d’exécutions indépendantes, les affirmations comparatives les plus fortes doivent être considérées comme provisoires.

Ce que cela signifie pour les constructeurs d’IA et les acheteurs d’entreprise

Pour les constructeurs, GeneBench-Pro met en lumière un problème pratique des agents d’IA : la réussite dans le codage ou les questions-réponses ne se transfère pas proprement aux domaines où la tâche consiste à décider quelle analyse exécuter. Les équipes qui développent des assistants scientifiques, des outils de recherche en santé ou des copilotes de laboratoire internes constatent souvent que les échecs les plus difficiles se produisent en amont de l’exécution. Un modèle peut écrire du Python correct tout en choisissant le mauvais estimateur, en ignorant un facteur de confusion ou en exagérant la confiance tirée de données faibles.

OpenAI positionne GeneBench-Pro comme un moyen de mesurer précisément ces modes d’échec. Si ce cadrage gagne du terrain, il pourrait pousser davantage l’évaluation de l’IA vers des tests de jugement au niveau du système plutôt que vers des tests unitaires plus étroits. Cela compterait non seulement en biologie, mais aussi dans les contextes d’IA d’entreprise où l’ambiguïté, la visibilité partielle et les révisions de workflow sont fréquentes.

Pour les acheteurs d’entreprise dans la biotech et la pharma, cette publication est plus utile comme signal que comme raccourci d’achat. OpenAI dit elle-même que les agents d’IA actuels restent trop peu fiables pour remplacer des experts humains. En même temps, l’entreprise soutient que l’économie devient difficile à ignorer : des évaluateurs ont estimé qu’un problème type de GeneBench-Pro pourrait prendre 20 à 40 heures à un expert humain, tandis que les coûts d’inférence du modèle ne sont que de quelques dollars par problème. Ces chiffres relèvent du cadrage d’OpenAI, et non d’un modèle de ROI validé de manière indépendante, mais ils indiquent où les acheteurs pourraient voir de la valeur en premier : triage, analyse exploratoire ou travail analytique de brouillon, toujours sous supervision experte.

Le benchmark s’inscrit également dans une impulsion plus large en faveur d’agents d’IA capables d’opérer dans des environnements logiciels spécifiques à un domaine, et pas seulement dans des fenêtres de chat. En utilisant un espace de travail réaliste avec Python et des paquets de bioinformatique, GeneBench-Pro s’aligne sur la manière dont de nombreux constructeurs envisagent désormais les agents déployables : des systèmes qui utilisent des outils et travaillent sur des fichiers, du code et des boucles de raisonnement itératives.

Preuves, validation et questions ouvertes

La base de preuves ici provient principalement de l’annonce d’OpenAI et de ses documents de cas d’étude. Cela signifie que les faits essentiels concernant la conception du benchmark, la structure des données, la taille de 129 questions, l’utilisation d’une génération synthétique et les scores rapportés de GPT-5.6 Sol proviennent du fournisseur lui-même.

Certains éléments sont plus solides que d’autres. L’existence du benchmark, la publication prévue de 10 problèmes sur Hugging Face et le futur sous-ensemble de 50 questions pour Artificial Analysis sont concrets et vérifiables. Le processus de revue par des experts externes est également un signal crédible important, bien que l’annonce ne fournisse pas dans les sources ici un détail public complet des résultats des évaluateurs.

Les classements comparatifs des modèles, la portée de l’écart par rapport aux benchmarks de codage et l’implication selon laquelle le benchmark pourrait être saturé d’ici la fin de l’année sont des affirmations interprétatives d’OpenAI. Elles peuvent s’avérer globalement correctes, mais elles ne constituent pas encore un consensus indépendant du marché. De même, la comparaison de coût entre la main-d’œuvre d’un expert humain et l’inférence de l’IA est mieux comprise comme un cadrage illustratif que comme un cas d’affaires prêt à être déployé.

Ce qu’il faut surveiller ensuite

Le premier signal concret sera de voir si la publication sur Hugging Face donne aux chercheurs externes suffisamment de matière pour examiner la construction de GeneBench-Pro, sa logique de notation et sa susceptibilité aux raccourcis. Si des équipes indépendantes parviennent à reproduire les conclusions générales d’OpenAI, le benchmark aura davantage de poids.

Un deuxième signal sera le transfert prévu vers Artificial Analysis. Des exécutions tierces sur les modèles GPT et sur des systèmes non-OpenAI compteront davantage que les comparaisons internes, surtout si elles révèlent des écarts plus étroits ou plus larges que ceux rapportés par OpenAI.

Troisièmement, il faudra observer si d’autres laboratoires réagissent avec des benchmarks comparables en biologie en conditions réelles, en découverte de médicaments ou en analytique de recherche clinique. Si GeneBench-Pro devient une référence, les concurrents devront peut-être montrer non seulement de solides scores en codage ou en raisonnement général, mais aussi un jugement spécifique au domaine dans l’incertitude.

Enfin, le signal produit le plus important sera de savoir si les gains du benchmark se traduisent en outils réellement utilisables. Si de futurs produits d’OpenAI ou de partenaires commencent à montrer de solides performances en génomique, en médecine translationnelle ou dans des workflows de biologie computationnelle plus larges, GeneBench-Pro apparaîtra moins comme un artefact de recherche et davantage comme un test précoce de maturité pour l’IA d’entreprise en science.

Point de vue de Creati.ai

GeneBench-Pro est remarquable moins pour ses taux de réussite actuels que pour ce qu’il cherche à mesurer. OpenAI affirme que le prochain goulot d’étranglement pour l’IA dans le travail expert n’est pas l’exécution brute, mais le jugement : choisir le bon chemin, le réviser quand les preuves changent, et savoir quand ne pas suraffirmer. C’est une norme plus exigeante que celle employée jusqu’ici par la plupart des cultures de benchmark.

Pour le marché, il s’agit d’une évolution utile même si les chiffres restent pour l’instant rapportés par le fournisseur. Les constructeurs d’IA ont besoin de cibles d’évaluation plus difficiles pour les workflows de niveau recherche, et les acheteurs d’entreprise ont besoin de meilleurs moyens de distinguer les démonstrations léchées des systèmes capables de survivre à une analyse ambiguë et à forts enjeux. Le fait que GeneBench-Pro devienne une norme dépendra de validations externes, mais il capture un changement important de l’IA : passer de la production de réponses à l’exercice d’un raisonnement analytique discipliné.