DeepSeek V4 Pro отстает от моделей ИИ США в правительственном бенчмарке
Оценка CAISI показывает, что DeepSeek V4 Pro — самая сильная модель Китая, но она все еще уступает ведущим американским передовым системам ИИ.
Оценка CAISI показывает, что DeepSeek V4 Pro — самая сильная модель Китая, но она все еще уступает ведущим американским передовым системам ИИ.
Новый строгий бенчмарк протестировал ведущие модели ИИ на задачах инвестиционного банкинга; ни один результат не был признан готовым для клиента, хотя половина банкиров сочла их полезной отправной точкой.
Новый бенчмарк показывает, что даже лучшие модели ИИ теряют около 50 % точности при анализе сложных графиков, выявляя ключевое ограничение визуального мышления.
Усовершенствованная модель Google Gemini 3 Deep Think демонстрирует более высокую производительность по сравнению с GPT-5.2 от OpenAI и Claude Opus 4.6 от Anthropic в последних бенчмарках.
Claude Opus 4.6 демонстрирует прорывные результаты: 65.4% в Terminal-Bench и 72.7% в OSWorld, превосходя Gemini 3 Flash в реальных рабочих приложениях.