AI 붐을 어떻게 측정할까? METR 차트가 업계의 집착이 되다
비영리 AI 조직인 METR의 차트는 대형 AI 시스템의 빠른 발전을 추적하면서 업계 전반의 집착 대상이 되었다.
비영리 AI 조직인 METR의 차트는 대형 AI 시스템의 빠른 발전을 추적하면서 업계 전반의 집착 대상이 되었다.
알리바바는 세계적 벤치마크에서 1위로 데뷔한 AI 비디오 모델 HappyHorse-1.0을 비밀리에 개발했음을 확인했다. 이 모델은 오디오-비주얼 동기화 기능으로 경쟁사들을 앞질렀다.
APEX-Agents라는 새로운 벤치마크는 GPT-5.2와 Gemini 3 Flash와 같은 최첨단 AI 모델조차 법률·금융 등 전문 분야에서 수집된 복잡하고 다중 도메인 과제의 대부분에서 실패한다는 것을 보여주며, 이들이 당장 직장에서 사용할 수 있는지에 대한 의문을 제기한다.