DeepSeek V4 Pro fica atrás dos modelos de IA dos EUA em benchmark governamental
Uma avaliação da CAISI diz que o DeepSeek V4 Pro é o modelo mais forte da China, mas ainda fica atrás dos principais sistemas de IA de fronteira dos EUA.
Uma avaliação da CAISI diz que o DeepSeek V4 Pro é o modelo mais forte da China, mas ainda fica atrás dos principais sistemas de IA de fronteira dos EUA.
Um novo benchmark rigoroso testou os principais modelos de IA em tarefas de banco de investimento; nenhuma das saídas foi considerada pronta para o cliente, embora metade dos banqueiros tenha encontrado valor como ponto de partida.
Um novo benchmark revela que até os principais modelos de IA caem cerca de 50% em precisão ao analisar gráficos complicados, expondo uma limitação importante no raciocínio visual.
O modelo aprimorado Google Gemini 3 Deep Think demonstra desempenho superior ao GPT-5.2 da OpenAI e ao Claude Opus 4.6 da Anthropic nos mais recentes testes de benchmark.
O Claude Opus 4.6 alcança desempenho inovador com 65.4% no Terminal-Bench e 72.7% no OSWorld, superando o Gemini 3 Flash em aplicações profissionais no mundo real.