
OpenAI는 AI 시스템이 생물학에서 표준 분석 스크립트를 실행하는 것 이상을 할 수 있는지 테스트하도록 설계된 새로운 벤치마크 GeneBench-Pro를 도입했다. 회사에 따르면 이 벤치마크는 모호한 상황에서 판단을 내리고, 증거가 변함에 따라 가정을 수정하며, 답이 하위 단계의 과학적 또는 임상적 의사결정에 충분히 신뢰할 만한지를 판단하는 등 계산 연구의 더 어려운 부분을 겨냥한다.
이번 공개가 중요한 이유는 많은 AI 평가는 여전히 기억력, 코딩 유창성, 혹은 엄격하게 명시된 과제에서의 성공을 보상하기 때문이다. OpenAI는 실제 생물학 업무는 다르다고 주장한다. GeneBench-Pro에 대한 설명에서 회사는 과학자들이 종종 지저분한 데이터, 불완전한 신호, 그리고 여러 개의 방어 가능한 분석 경로를 마주한다고 말한다. 이는 고가치 전문가 워크플로를 지원한다고 주장하는 AI 에이전트에게 유전체학과 중개 연구가 유용한 스트레스 테스트가 된다는 뜻이다.
OpenAI는 GeneBench-Pro를 GeneBench의 확장된 후속작으로 설명하며, 유전체학, 정량 생물학, 중개 의학 전반의 더 어려운 과제를 포함한다고 밝혔다. 이 벤치마크는 각각 독립적인 분석 문제로 구성된 129개의 질문을 담고 있다. 모델은 짧은 프롬프트, 데이터셋 파일, 그리고 PLINK 2.0 같은 도구를 포함한 Python 및 표준 과학 스택이 있는 제한된 작업 공간에 접근할 수 있다.
회사는 각 문제를 이른바 “research taste”를 중심으로 구성했다고 말한다. 이는 데이터가 무엇을 뒷받침할 수 있는지, 어떤 방법이 적절한지, 그리고 초기 계획을 언제 바꿔야 하는지를 결정하는 데 필요한 일련의 분석적 판단을 뜻한다. 이는 많은 AI 벤치마크가 모델이 올바른 절차를 처음부터 결정하는지보다, 알려진 절차를 재현할 수 있는지에 초점을 맞추는 것과 대비되는 중요한 관점 전환이다.
외부 검토를 지원하기 위해 OpenAI는 Hugging Face에서 대표 문제 10개를 오픈 소스로 공개하고, Artificial Analysis에 50문항 하위 세트를 제공해 제3자 벤치마킹을 진행할 계획이라고 밝혔다. 별도의 사례 연구 페이지에는 합성 종양 등록 데이터에서의 치료 효과 추정, CRISPRi 데이터에서 겉보기 lncRNA 의존성 평가, cis-MVMR을 이용한 질병 효과 추정 등의 예시 과제가 설명돼 있다. 이런 예시들은 GeneBench-Pro가 하나의 생물학 하위 분야에만 국한되지 않고 다양한 워크플로를 묶어 놓았다는 점을 보여주기 위한 것이다.
GeneBench-Pro의 핵심 기술적 주장 중 하나는 장기 과학 벤치마크에서 흔한 약점을 피한다는 점이다. OpenAI는 과거의 실제 데이터셋은 여러 합리적인 분석 선택이 미묘하게 다른 답으로 이어질 수 있어 채점에 문제를 일으킬 수 있으며, 반대로 잘못 설계된 과제는 모델이 심각한 방법론적 오류를 범하고도 통과하게 만들 수 있다고 말한다.
회사의 해결책은 전체 데이터 생성 과정을 통제한 채 합성 방식으로 벤치마크 문제를 생성하는 것이었다. OpenAI에 따르면 이를 통해 벤치마크 제작자는 인과 구조를 알고, 난이도를 조정하고, 올바른 접근법이 성공하는지 검증하며, 그럴듯하지만 잘못된 접근법이 실패하는지 절제 실험(ablation)으로 테스트할 수 있다. 회사는 또한 초안 문제를 정보 유출과 의도치 않은 지름길 가능성에 대해 감사했다고 밝혔다.
이런 설계 선택은 AI 평가에서 중요하다. 코딩에서는 코드가 테스트를 통과하는지 여부로 비교적 결정적으로 채점할 수 있다. 그러나 과학 분석, 특히 계산 생물학에서는 성공이 정해진 단계의 정확한 재현보다 추론의 질에 더 가깝다. OpenAI는 사실상 연구 작업의 모호성을 유지하면서도 결정적 점수를 허용하는 벤치마크를 만들려는 것이다.
회사는 또한 129개 문제 중 82개가 대학원생, 박사후연구원, 산업계 과학자, 교수 등 외부 도메인 전문가의 검토를 거쳤다고 밝혔다. 검토자들은 현실성, 목표 답의 식별 가능성, 방법과 추정량의 적절성을 평가했으며, 그 피드백을 바탕으로 문제를 수정했다. 이것이 자동으로 벤치마크를 중립적으로 만드는 것은 아니지만, 내부 가정만을 반영했다는 비판을 사전에 완화하려는 시도로 볼 수 있다.
OpenAI가 내세우는 대표 결과는 GPT-5.6 Sol이 최고 추론 수준에서 GeneBench-Pro 통과율 28.7%를 기록했고, Pro mode를 활성화하면 31.5%까지 올라간다는 것이다. 회사는 이를 이전의 GeneBench 벤치마크를 처음 만들 당시 GPT-5가 5% 미만 점수를 받았다고 언급한 것과 대비한다.
OpenAI는 테스트 시점 컴퓨팅의 영향도 매우 크다고 말한다. 가장 낮은 추론 수준에서 GPT-5.6 Sol은 한 자릿수 점수에 그치는 반면, 최고 추론 수준에서는 GPT-5.2보다 거의 6배 많은 문제를 해결하면서 토큰은 약 3분의 2만 사용한다고 한다. 만약 독립적으로 입증된다면, 이런 주장은 전문가 에이전트 배포에서 지연 시간과 비용, 품질의 균형을 맞추려는 제품 팀에 중요할 수 있다.
회사는 또 GPT 계열이 이런 종류의 정량 과학 추론에서 주요 오픈 소스 대안보다 더 강력해 보인다고 주장한다. 게시물에서 OpenAI는 특히 GLM 5.2를 주요 오픈 소스 비교 대상으로 언급하며, GeneBench-Pro에서의 격차가 코딩 벤치마크만으로 예상되는 수준보다 크다고 말한다.
하지만 이 수치들은 OpenAI가 설계한 벤치마크에서 나온 벤더 보고 결과다. OpenAI는 개발 과정에서 프런티어 GPT 모델을 사용해 문제를 평가하고 강화했다고 인정하며, 이것이 벤치마크를 다른 계열보다 GPT 모델에 불리하게 편향시킬 수 있다고 처음에는 우려했다고 밝혔다. 회사의 결론은 경쟁사들도 당시 사용 가능했던 해당 GPT 모델과 기껏해야 비슷한 수준에 머물렀다는 것이다. 그럼에도 불구하고 Artificial Analysis나 다른 외부 기관이 독립 실행 결과를 공개하기 전까지는 가장 강한 비교 주장은 잠정적으로 받아들이는 것이 옳다.
빌더에게 GeneBench-Pro는 AI 에이전트의 실용적 문제를 드러낸다. 코딩이나 질의응답에서의 벤치마크 성공이 분석할 작업을 결정해야 하는 영역으로 깔끔하게 이어지지 않을 수 있기 때문이다. 과학 비서, 의료 연구 도구, 내부 랩 코파일럿을 만드는 팀들은 어려운 실패 모드가 실행보다 앞단에서 발생한다는 사실을 자주 발견한다. 모델은 올바른 Python을 작성할 수 있지만 잘못된 추정량을 선택하거나, 교란 변수를 무시하거나, 약한 데이터에서 과도한 자신감을 드러낼 수 있다.
OpenAI는 GeneBench-Pro를 바로 이런 실패 모드를 측정하는 방법으로 포지셔닝하고 있다. 이 관점이 힘을 얻는다면, AI 평가는 더 좁은 단위 테스트보다 시스템 수준의 판단 테스트로 이동할 수 있다. 이는 생물학뿐 아니라 모호성, 부분적 관찰 가능성, 워크플로 수정이 흔한 엔터프라이즈 AI 전반에서 중요하다.
바이오테크와 제약 분야의 기업 구매자에게 이번 발표는 구매 지름길이라기보다 신호에 가깝다. OpenAI 자신도 현재의 AI 에이전트는 인간 전문가를 대체하기에는 아직 너무 신뢰성이 떨어진다고 말한다. 동시에 회사는 경제성이 무시하기 어려운 수준이 되고 있다고 주장한다. 리뷰어들은 일반적인 GeneBench-Pro 문제가 인간 전문가에게 20~40시간 걸릴 수 있다고 추정한 반면, 모델 추론 비용은 문제당 몇 달러에 불과하다고 본다. 이 수치는 OpenAI의 프레이밍이지 독립적으로 검증된 ROI 모델은 아니지만, 구매자들이 가장 먼저 가치를 볼 수 있는 지점, 즉 분류, 탐색적 분석, 또는 전문가 감독 아래 수행되는 초안 분석 작업을 가리킨다.
이 벤치마크는 채팅 창이 아니라 도메인별 소프트웨어 환경에서 작동하는 AI 에이전트로 향하는 더 큰 흐름에도 부합한다. Python과 생물정보학 패키지가 있는 현실적인 작업 공간을 사용함으로써, GeneBench-Pro는 많은 빌더들이 배포 가능한 에이전트를 생각하는 방식, 즉 파일, 코드, 반복적 추론 루프 전반에서 작동하는 도구 사용 시스템과 맞닿아 있다.
여기서의 근거는 주로 OpenAI의 자체 발표와 사례 연구 자료다. 즉 벤치마크 설계, 데이터셋 구조, 129문항 규모, 합성 생성 방식, 그리고 보고된 GPT-5.6 Sol 점수에 대한 핵심 사실은 모두 벤더로부터 나온 것이다.
몇몇 요소는 다른 것보다 더 강하다. 벤치마크의 존재, Hugging Face에 10개 문제를 공개할 계획, 그리고 Artificial Analysis에 제공될 50문항 하위 세트는 구체적이고 확인 가능하다. 외부 전문가 검토 과정 역시 중요한 신뢰 신호지만, 여기 제공된 원문 자료에는 검토 결과에 대한 전체 공개 세부 내역이 포함돼 있지 않다.
비교 모델 순위, 코딩 벤치마크 대비 격차의 의미, 그리고 연말까지 벤치마크가 포화될 수 있다는 시사점은 OpenAI의 해석적 주장이다. 방향성은 맞을 수 있지만 아직 독립적인 시장 합의는 아니다. 마찬가지로 인간 전문가 노동과 AI 추론 비용의 비교는 배포 가능한 비즈니스 케이스라기보다 설명용 프레이밍으로 읽는 것이 좋다.
첫 번째 구체적 신호는 Hugging Face 공개가 외부 연구자들에게 GeneBench-Pro의 구성, 채점 논리, 지름길 취약성을 충분히 검토할 자료를 제공하느냐는 것이다. 독립 팀이 OpenAI의 일반적 결과를 재현할 수 있다면 이 벤치마크는 더 큰 무게를 갖게 된다.
두 번째 신호는 예정된 Artificial Analysis 인계다. GPT 모델과 비 OpenAI 시스템 전반에서의 제3자 실행 결과는 내부 비교보다 훨씬 중요하며, OpenAI가 보고한 것보다 더 좁거나 더 넓은 격차를 드러낼 경우 특히 그렇다.
세 번째로, 다른 랩들이 습식 실험 생물학, 신약 개발, 임상 연구 분석에서 유사한 벤치마크로 대응할지 주목해야 한다. GeneBench-Pro가 기준점이 된다면 경쟁사들은 단순히 강한 코딩이나 일반 추론 점수뿐 아니라 불확실성 아래서의 도메인별 판단을 보여줘야 할 것이다.
마지막으로 가장 중요한 제품 신호는 벤치마크 성과가 실제 사용 가능한 도구로 이어지느냐다. 향후 OpenAI나 파트너 제품이 유전체학, 중개 의학, 또는 더 넓은 계산 생물학 워크플로에서 견고한 성능을 보이기 시작한다면, GeneBench-Pro는 연구 산출물이라기보다 과학 분야 엔터프라이즈 AI의 초기 준비성 테스트처럼 보일 것이다.
GeneBench-Pro가 주목할 만한 이유는 현재의 통과율보다도 무엇을 측정하려고 하는지에 있다. OpenAI는 전문가 업무에서 AI의 다음 병목은 원시 실행이 아니라 판단, 즉 올바른 경로를 고르고, 증거가 바뀌면 그것을 수정하며, 과도한 주장 시점을 아는 것이라고 주장한다. 이는 지금까지 대부분의 벤치마크 문화가 사용해 온 기준보다 훨씬 더 높은 수준이다.
시장 입장에서는 현재 수치가 벤더 보고 결과일지라도 유용한 발전이다. AI 빌더는 연구 수준 워크플로를 위한 더 어려운 평가 목표가 필요하고, 기업 구매자는 세련된 데모와 모호하고 고위험한 분석을 견딜 수 있는 시스템을 구분할 더 나은 방법이 필요하다. GeneBench-Pro가 표준이 될지는 외부 검증에 달려 있지만, 답을 만들어 내는 AI에서 규율 있는 분석적 추론을 수행하는 AI로의 중요한 전환을 포착하고 있다.