DeepSeek V4 Pro は政府ベンチマークで米国のAIモデルに後れを取る
CAISI の評価によると、DeepSeek V4 Pro は中国で最も強力なモデルだが、それでも米国の最先端AIシステムには及ばない。
CAISI の評価によると、DeepSeek V4 Pro は中国で最も強力なモデルだが、それでも米国の最先端AIシステムには及ばない。
厳格な新しいベンチマークで、投資銀行業務における主要なAIモデルがテストされたが、顧客対応可能と判断された出力は一つもなかった。一方で、銀行家の半数は出発点として価値があると感じた。
新しいベンチマークにより、最先端のAIモデルでさえ複雑なグラフを分析すると精度が約50%低下し、視覚的推論の重要な限界が明らかになった。
強化された Google Gemini 3 Deep Think モデルは、最新のベンチマークテストで OpenAI の GPT-5.2 と Anthropic の Claude Opus 4.6 よりも優れた性能を示しました。
Claude Opus 4.6はTerminal-Benchで65.4%、OSWorldで72.7%の画期的な性能を達成し、実際の業務アプリケーションでGemini 3 Flashを上回っています。