Бенчмарки ИИ

DeepSeek V4 Pro отстает от моделей ИИ США в правительственном бенчмарке

Оценка CAISI показывает, что DeepSeek V4 Pro — самая сильная модель Китая, но она все еще уступает ведущим американским передовым системам ИИ.



3 мая 2026 г.

Китай

500 инвестиционных банкиров не нашли ни одного результата ИИ, готового для передачи клиенту, в новом бенчмарке

Новый строгий бенчмарк протестировал ведущие модели ИИ на задачах инвестиционного банкинга; ни один результат не был признан готовым для клиента, хотя половина банкиров сочла их полезной отправной точкой.



27 апреля 2026 г.

Клод

Модели ИИ теряют половину своей эффективности при анализе сложных графиков, показал новый бенчмарк

Новый бенчмарк показывает, что даже лучшие модели ИИ теряют около 50 % точности при анализе сложных графиков, выявляя ключевое ограничение визуального мышления.



19 апреля 2026 г.

Исследования ИИ

Усовершенствованная версия Google Gemini 3 Deep Think превосходит GPT-5.2 и Claude Opus 4.6 в бенчмарках

Усовершенствованная модель Google Gemini 3 Deep Think демонстрирует более высокую производительность по сравнению с GPT-5.2 от OpenAI и Claude Opus 4.6 от Anthropic в последних бенчмарках.



14 февраля 2026 г.

Гемини

Claude Opus 4.6 от Anthropic превосходит Google Gemini в профессиональных задачах ИИ

Claude Opus 4.6 демонстрирует прорывные результаты: 65.4% в Terminal-Bench и 72.7% в OSWorld, превосходя Gemini 3 Flash в реальных рабочих приложениях.



11 февраля 2026 г.

Google Gemini