
Anthropic의 새로운 Claude Science 워크벤치는 주목할 만한 인프라 파트너와 함께 출시된다. 바로 NVIDIA다. NVIDIA에 따르면, Claude Science는 이제 NVIDIA BioNeMo Agent Toolkit과 통합되어, 생명과학 연구자들이 에이전트 기반 연구 환경 안에서 NVIDIA 기반 생물학 모델, 라이브러리, 추론 서비스를 호출할 수 있게 된다.
이 즉각적인 의미는 단순히 또 하나의 모델 통합이 아니라는 점이다. NVIDIA는 BioNeMo를 과학적 에이전트가 논문을 읽거나 가설을 제안하는 수준을 넘어, 실제로 실험실에 인접한 계산 작업을 수행할 수 있게 하는 도구 계층으로 포지셔닝하고 있다. 회사의 설명에 따르면, Claude Science는 자연어 인터페이스와 에이전트 오케스트레이션을 제공하고, BioNeMo는 유전체학, 구조 예측, 분자 설계, 케모인포매틱스 같은 작업을 위한 호출 가능한 과학 기능을 뒷단에서 제공한다. AI 개발자와 기업 연구팀에게 이 발표는 과학자를 위한 챗봇이라기보다, 도메인 특화 AI 워크플로를 운영 가능하게 만드는 스택에 더 가깝다.
NVIDIA는 이 툴킷이 현재 자사 개발자 리소스와 GitHub를 통해 제공되고 있으며, Anthropic의 Claude Science는 퍼블릭 베타에 들어간다고 밝혔다. 이 시점은 중요하다. 시장은 광범위한 “AI 코파일럿” 주장에서 벗어나, 도구를 안정적으로 선택하고, 유효한 입력을 전달하며, 출력을 해석하고, 전문 분야에서 반복적 워크플로를 실행할 수 있는 시스템으로 이동하고 있다. 생명과학은 그 에이전트 모델이 실제 제약 조건 아래에서 작동하는지를 시험하는 가장 분명한 테스트 중 하나다.
핵심 뉴스는 Claude Science와 NVIDIA BioNeMo Agent Toolkit의 연결이다. NVIDIA는 이 툴킷을 과학적 기능을 호출 가능한 서비스로 노출하는, 에이전트 준비형 “스킬” 패키지로 설명한다. 실제로는 에이전트가 올바른 도구를 찾아 필요한 입력과 출력을 이해하고, 이를 실행한 뒤 결과를 더 긴 연구 루프에 다시 반영할 수 있다는 뜻이다.
NVIDIA는 이 구성이 Claude Science가 Evo 2, Boltz-2, OpenFold3를 포함한 가속 워크플로와 모델을 호출할 수 있게 해준다고 말한다. 더 넓은 BioNeMo 스택에는 NVIDIA Parabricks, RAPIDS-singlecell, nvMolKit 같은 유전체학 및 케모인포매틱스 도구에 대한 접근 경로도 포함된다. NVIDIA의 설명에 따르면, 각 스킬에는 목적, 입력, 기대 산출물, 실패 모드에 대한 메타데이터가 들어 있어, 일반 목적 에이전트가 겪는 흔한 문제를 줄이려는 의도가 있다. 즉, 에이전트가 단백질 모델이나 도킹 모델이 관련 있다는 것은 알 수 있어도, 그것을 어떻게 올바르게 호출해야 하는지는 모를 수 있다는 점이다.
이 구분은 규제 대상이거나 고위험 환경을 위한 AI 에이전트를 만드는 사람들에게 중요하다. 과학적 워크플로는 모델이 없어서 실패하는 것이 아니라, 주변 오케스트레이션이 취약해서 무너지는 경우가 많다. 에이전트가 매개변수를 안정적으로 선택하거나, 올바른 형식의 요청을 제출하거나, FASTA, CIF, SDF, A3M, SMILES 같은 반환 파일을 해석할 수 없다면, 최첨단 모델이 루프에 들어와 있다는 사실만으로 워크플로가 프로덕션 준비 상태가 되지는 않는다.
NVIDIA의 설명에 따르면 Anthropic의 역할은 과학자들이 자연어로 작업을 설명하고 유전체학, 프로테오믹스, 단일세포 분석, 케모인포매틱스, 임상 연구 전반에 걸친 특화 에이전트와 상호작용할 수 있는 워크벤치를 제공하는 것이다. NVIDIA의 기여는 그 에이전트들이 과학자가 모델이나 소프트웨어 환경을 수동으로 설정하지 않아도 호출할 수 있는 가속 컴퓨트 계층과 도메인 도구다.
NVIDIA의 두 자료는 같은 주장을 하고 있다. 과학적 에이전트의 유용성은 그것이 작동할 수 있는 도구에 달려 있다는 것이다. 당연하게 들리지만, 이는 현재 많은 AI 에이전트 데모의 핵심 한계를 짚는다. 코딩 에이전트는 테스트가 통과되면 작업을 완료했다고 증명할 수 있는 경우가 많다. 그러나 생물학 에이전트는 정확성이 확률적이고, 워크플로가 여러 도구를 넘나들며, 결과는 과학적 해석이 필요한 더 복잡한 환경에서 작동한다.
NVIDIA는 에이전트가 원시 API 문서나 소스 코드에서 모든 것을 추론하는 대신 도구 인터페이스를 표준화함으로써 이 문제를 해결하려 하고 있다. 회사는 BioNeMo Skills와 관련 Model Context Protocol 래퍼가 모델의 목적, 입력 요구사항, 기대 산출물, 실패 모드를 문서화해 에이전트가 분자 모델을 더 신뢰성 있게 자율적으로 발견하고 사용할 수 있도록 한다고 설명한다.
빌더들에게 이는 단발성 모델 출시보다 더 중요한 제품 움직임이다. 툴킷이 설명대로 작동한다면, 팀은 같은 스킬 패턴을 서로 다른 에이전트 프레임워크와 배포 환경에서 재사용할 수 있다. NVIDIA는 NVIDIA BioNeMo Agent Toolkit이 개방형이며 하니스에 종속되지 않는다고 명시한다. 이는 대부분의 기업이 과학적 워크플로가 하나의 독점 오케스트레이션 스택 안에 갇히는 것을 원하지 않기 때문에 중요하다.
이 통합은 또한 기업 AI의 더 넓은 설계 패턴을 반영한다. 즉, 대화 계층은 유연하게 유지하되 도메인 도구는 안정적인 서비스로 취급하는 방식이다. 이 경우 BioNeMo NIM 마이크로서비스가 프로덕션 엔드포인트 계층이다. NVIDIA는 이러한 컨테이너화된 추론 서비스가 안정적인 API 뒤에 완전한 가속 소프트웨어 스택을 패키징하며, 이를 통해 팀이 호스팅 엔드포인트를 쓰든 로컬 인프라를 쓰든 배포를 쉽게 하려는 것이라고 말한다.
이 이야기에서 가장 강한 주장들은 NVIDIA의 자체 자료에서 나온 것이며, 독립적으로 검증되지 않았다면 벤더 보고로 읽어야 한다.
NVIDIA는 상위 20개 제약회사 중 18곳이 NVIDIA BioNeMo를 사용한다고 말한다. 이는 눈길을 끄는 도입 신호이지만, 회사는 소스 자료에서 고객 이름, 지출 수준, 사용 깊이를 제공하지 않는다. 이는 생태계 범위를 보여줄 뿐, BioNeMo Agent Toolkit 자체가 얼마나 널리 배포되었는지를 반드시 의미하지는 않는다.
회사는 또한 기본 도구와 연결된 몇 가지 속도 향상 수치를 강조한다. NVIDIA Parabricks가 유전체 분석을 몇 시간에서 몇 분으로 줄일 수 있다고 말한다. scverse가 개발한 RAPIDS-singlecell은 130만 개 세포의 전처리 및 클러스터링 워크플로를 52분에서 25초로 줄인다고 한다. nvMolKit은 일부 케모인포매틱스 작업을 최대 3,000배까지 가속할 수 있다고도 말한다. 이런 수치들은 에이전트 아키텍처가 실제로 사용 가능해질 이유를 보여주는 중요한 지표다. 빠른 도구는 반복 루프를 현실적으로 만든다. 그러나 여전히 이는 제품 측 성능 주장일 뿐, 종단 간 신약개발 프로그램에서의 독립 벤치마크는 아니다.
가장 직접적인 에이전트 벤치마크는 NVIDIA의 개발자 블로그에 있다. 그곳에서 회사는 “GPT-5.5 fast”를 사용한 Codex CLI의 실증 벤치마킹 결과, BioNeMo Skills가 토큰 효율을 두 배로 높이고 작업 완료율을 57.1%에서 100%로 끌어올렸다고 말한다. 이 결과가 흥미로운 이유는 가치가 단순한 가속뿐 아니라 더 명확한 도구 인터페이스에서도 나온다는 점을 시사하기 때문이다. 다만 이는 내부 또는 벤더 통제 테스트 설정이며, 제공된 증거에는 세부 방법론, 작업 분포, 외부 재현이 포함되어 있지 않다.
요약하면, 통합은 실제이고 툴킷은 제공 중이며, 아키텍처도 분명하다. 그러나 신뢰성 향상, 처리량, 생산성에 대한 더 어려운 주장들은 유망하긴 하지만 아직 독립적으로 확립되었다고 보기는 어렵다.
NVIDIA 개발자 자료에서 실용적인 세부 사항 하나는 호스팅 배포와 로컬 배포의 분리다. NVIDIA는 BioNeMo NIM이 접근성을 높이기 위한 호스팅 엔드포인트로 실행될 수도 있고, 더 낮은 웜 지연, 더 많은 런타임 제어, 더 엄격한 데이터 처리, 혹은 같은 모델에 대한 반복 호출이 필요할 때는 로컬에서 실행될 수도 있다고 말한다.
이는 제약과 바이오테크의 기업 AI 구매자에게 중요할 가능성이 높다. 연구팀은 평가 단계에서는 관리형 서비스의 편의성을 원하지만, 프로덕션 생물학 워크플로는 데이터 위치성, 처리량, 감사 가능성에 대한 우려를 불러올 수 있다. NVIDIA의 권고는 사실상 하이브리드 경로다. 광범위한 실험은 호스팅 접근으로 시작하고, 지연, 보안, 반복성이 정당화될 때 일부 서비스를 로컬로 옮기라는 것이다.
이 하이브리드 모델은 에이전트 배포가 일반적으로 성숙해 가는 방식과도 맞는다. 초기 파일럿은 보통 가끔씩의 호출에서 유용성을 입증한다. 그 파일럿이 일상적인 후보 생성이나 구조 예측 루프로 바뀌면, 인프라 경제성과 신뢰성이 데모 품질보다 중요해진다. NVIDIA는 동일한 BioNeMo 기능을 호스팅 또는 로컬 NIM 엔드포인트로 노출함으로써 마이그레이션 부담을 줄이려 하고 있다.
또 다른 경쟁적 측면도 있다. 이 통합은 고객을 순수한 NVIDIA 프런트엔드에 가두는 대신, NVIDIA를 Anthropic의 도메인 중심 인터페이스 내부에 위치시킨다. 이는 NVIDIA가 최고 수준의 경험이 Claude Science, 내부 플랫폼, 또는 다른 연구 워크벤치에서 제공되더라도 BioNeMo가 AI 에이전트를 위한 기본 과학 실행 계층이 되기를 원한다는 뜻으로 읽힌다.
이 이야기의 두 소스가 모두 NVIDIA에서 왔기 때문에, 보도 기록은 제품 의도에는 강하지만 제3자 검증에는 약하다. NVIDIA의 블로그에 따르면 Claude Science가 퍼블릭 베타에 들어가고, Anthropic이 연구자들에게 추가 전문가와 통합 요청을 받고 있다는 것은 알 수 있다. 또한 NVIDIA BioNeMo Agent Toolkit이 현재 제공 중이며, NVIDIA는 이를 이식 가능하고 에이전트가 호출할 수 있는 스킬 세트로 사용되길 원한다는 점도 알 수 있다.
더 불분명한 것은 외부 팀에게 광고된 워크플로의 얼마나 많은 부분이 오늘날 바로 사용 가능한지다. NVIDIA는 OpenFold3, Boltz-2, Evo 2, DiffDock, GenMol, ProteinMPNN, RFdiffusion, MMseqs2, BioNeMo NIM 같은 모델과 도구를 언급하지만, 소스 자료는 어떤 기능이 완전히 패키징되어 있는지, 어떤 기능이 MCP 래퍼를 필요로 하는지, 어떤 것이 최종 사용자 제품이라기보다 빌딩 블록으로 이해되어야 하는지를 나누어 설명하지 않는다.
계산 가속과 과학적 타당성 사이에도 간극이 있다. 더 빠른 반복은 연구자가 더 많은 아이디어를 선별하는 데 도움을 줄 수 있지만, 더 나은 wet-lab 결과를 증명하지는 않는다. 암 표적용 억제제를 설계하는 NVIDIA의 예시는 검증된 치료 결과가 아니라 워크플로의 야망을 보여준다.
첫째, Anthropic의 Claude Science 베타가 NVIDIA BioNeMo Agent Toolkit을 사용한 명시된 연구 사용자, 사례 연구, 또는 동료심사 논문을 만들어 내는지 지켜보자. 이것이 출시일의 아키텍처 다이어그램보다 제품-시장 적합성을 더 잘 보여줄 것이다.
둘째, 기업들이 Claude Science 안에서만이 아니라 여러 에이전트에 걸쳐 BioNeMo Skills나 Model Context Protocol 래퍼를 도구 계층으로 표준화하는지 살펴보자. 그렇게 된다면 NVIDIA는 GPU와 추론 서빙을 넘어 기업 AI에서의 역할을 강화할 수 있다.
셋째, 호스팅 대 로컬 BioNeMo NIM 배포가 제약 및 바이오테크 팀에게 실질적인 구매 선택이 되는지 모니터링하자. 도입은 기업이 나중에 통제를 포기하지 않고도 빠르게 시작할 수 있는지에 달려 있을 수 있다.
마지막으로, 독립적인 벤치마킹을 주시하자. 토큰 효율, 작업 완료율, Parabricks 속도 향상, RAPIDS-singlecell 압축, nvMolKit 가속에 대한 주장은 외부 사용자가 현실적인 워크플로에서 재현할 때 훨씬 더 큰 의미를 갖게 될 것이다.
이번 발표가 주목할 만한 이유는 과학적 AI가 어디로 향하고 있는지를 보여주기 때문이다. 즉, 일반적인 채팅 인터페이스에서 벗어나 명시적인 도구 계약에 기반한 도메인 에이전트로 이동하고 있다. 진짜 제품은 Claude Science나 BioNeMo 하나만이 아니다. 과학자들이 프로젝트마다 인프라 조립 없이 실제로 사용할 수 있는 형태로 추론, 오케스트레이션, 가속 실행이 결합된 조합이다.
빌더들에게 주는 시사점은 생명과학에서의 에이전트 신뢰성이 더 큰 베이스 모델보다 잘 문서화된 도구 인터페이스와 NVIDIA BioNeMo Agent Toolkit, BioNeMo NIM 같은 배포 가능한 서비스에 더 많이 달려 있을 수 있다는 점이다. 기업 팀에게는 이 스택이 설득력 있는 데모에서 검증된 연구 운영으로 넘어갈 수 있는지가 핵심 질문이다. 만약 가능하다면, 채팅 계층뿐 아니라 도구 계층을 소유한 벤더가 과학적 AI에서 지속적인 지위를 차지할 수 있다.