DeepSeek V4 Pro, 정부 벤치마크에서 미국 AI 모델에 뒤처져
CAISI의 평가는 DeepSeek V4 Pro가 중국에서 가장 강력한 모델이지만, 여전히 미국의 선도적인 프론티어 AI 시스템에는 뒤처진다고 밝혔다.
CAISI의 평가는 DeepSeek V4 Pro가 중국에서 가장 강력한 모델이지만, 여전히 미국의 선도적인 프론티어 AI 시스템에는 뒤처진다고 밝혔다.
엄격한 새로운 벤치마크에서 투자은행 업무에 대한 주요 AI 모델들을 테스트한 결과, 단 하나의 출력도 고객에게 바로 제공할 수 있는 수준으로 간주되지 않았다. 다만 절반의 은행가들은 이를 출발점으로서 가치 있다고 보았다.
새로운 벤치마크는 최고 수준의 AI 모델조차 복잡한 차트를 분석할 때 정확도가 약 50% 떨어지며, 시각적 추론의 핵심 한계를 드러낸다고 밝혔다.
업그레이드된 Google Gemini 3 Deep Think 모델이 최신 벤치마크 테스트에서 OpenAI의 GPT-5.2와 Anthropic의 Claude Opus 4.6보다 우수한 성능을 보였습니다.
Claude Opus 4.6은 Terminal-Bench에서 65.4%, OSWorld에서 72.7%라는 획기적인 성과를 달성하여 실제 업무 응용에서 Gemini 3 Flash를 능가합니다.