
Um novo benchmark da Tencent Hunyuan e da Universidade Tsinghua argumenta que os agentes de busca com IA de hoje não são limitados principalmente pela qualidade da recuperação ou pelo uso de ferramentas. O maior ponto de falha, de acordo com os resultados relatados pelos pesquisadores, é que os modelos muitas vezes não param para fazer uma pergunta de esclarecimento quando o pedido do usuário é vago, subespecificado ou incorreto.
Isso importa porque o setor está avançando rapidamente para empacotar grandes modelos como assistentes de pesquisa, agentes de navegador e mecanismos de resposta. Se o benchmark se confirmar, ele sugere um problema prático de design para equipes que constroem produtos de busca com IA: mais buscas e cadeias de raciocínio mais longas não necessariamente melhoram os resultados quando o sistema nunca confirma o que o usuário realmente quis dizer. Em alguns casos, dizem os pesquisadores, a busca repetida tem desempenho pior do que simplesmente chutar.
O novo benchmark, chamado DiscoBench, foi projetado para testar se um modelo consegue detectar ambiguidade durante a busca de informações em várias etapas, fazer ao usuário uma pergunta de acompanhamento útil e então recuperar o caminho de pesquisa correto. Conforme descrito pelo The Decoder, o conjunto de dados inclui 211 tarefas com 463 pontos ambíguos distribuídos por onze domínios, incluindo esportes, cinema, música, ciência, política e videogames.
Os pesquisadores enquadram isso como uma lacuna na avaliação de agentes existente. Benchmarks como GAIA e BrowseComp geralmente pressupõem que a consulta do usuário já está completa e precisa. O DiscoBench, por outro lado, foca em um cenário comum de produção: um usuário pede algo que pode se referir a múltiplas entidades, diferentes períodos de tempo, critérios de classificação pouco claros ou até uma premissa factual falsa. Nesse contexto, um modelo pode executar um fluxo de busca limpo e ainda assim seguir na direção errada desde a primeira decisão.
De acordo com a metodologia relatada, cada tarefa é dividida em pontos de verificação nos quais o agente pode continuar pesquisando, pedir esclarecimento ou responder. O benchmark usa Tavily para busca e um simulador de usuário baseado em Gemini 3 Flash que retorna pistas predefinidas quando o agente faz uma pergunta de acompanhamento útil. O conjunto de dados é majoritariamente em chinês, o que os pesquisadores dizem refletir padrões comuns na web em língua chinesa.
Esse contexto de idioma e ferramentas é importante para a interpretação. O DiscoBench não é uma medida universal de todas as tarefas de busca em todos os ecossistemas da web, e o uso de um simulador baseado em LLM significa que o loop de interação é estruturado em vez de totalmente aberto. Ainda assim, o benchmark é notável porque isola um comportamento de produto com o qual muitos sistemas de IA voltados ao usuário têm dificuldade: saber quando não prosseguir.
O principal resultado é um desempenho absoluto modesto. O Decoder relata que, entre onze modelos lançados recentemente, a melhor pontuação ponta a ponta sem uma dica explícita de ambiguidade foi 43,1 por cento, do Doubao Seed 2.0 Pro. O Gemini 3.1 Pro Preview veio em seguida com 40,8 por cento, e o Claude Opus 4.7 com 39,8 por cento.
Esses números são baixos o suficiente para tornar difícil ignorar o ponto mais amplo. Mesmo modelos fortes de fronteira parecem ter dificuldade assim que a ambiguidade é introduzida em uma tarefa de busca encadeada. Os autores do benchmark argumentam que o problema principal não é que os modelos não consigam pesquisar, mas que assumem demais e perguntam de menos.
A análise de comportamento citada pelo The Decoder é especialmente reveladora. Sistemas que pesquisaram e depois fizeram uma pergunta de acompanhamento teriam alcançado uma taxa de sucesso de 93,4 por cento. Modelos que chutaram diretamente chegaram a 56,5 por cento. Modelos que pesquisaram repetidamente, mas ainda assim não perguntaram, rotulados como “SearchHeavyGuess”, caíram para 51,9 por cento. Na interpretação dos pesquisadores, esse padrão sugere que alguns modelos estão, na prática, percebendo a incerteza, mas não a convertendo em uma interação com o usuário.
Isso ajuda a explicar por que o uso adicional de ferramentas não se traduz automaticamente em melhores resultados. Um modelo pode realizar muitas buscas, inspecionar muitas páginas e ainda assim permanecer preso à interpretação errada do prompt original. Em termos práticos, quem constrói esses sistemas não pode tratar a profundidade da busca como substituto do comportamento de esclarecimento.
O momento é relevante porque a busca com IA está saindo das demonstrações e entrando em fluxos de trabalho comerciais. As equipes estão lançando copilotos de pesquisa, assistentes de suporte ao cliente e produtos de automação de navegador que dependem cada vez mais de recuperação em várias etapas. Para esses sistemas, o DiscoBench aponta para um modo de falha fácil de passar despercebido na avaliação convencional: o modelo parece ativo e competente enquanto persegue o objetivo errado.
Isso tem implicações diretas para implantações corporativas de IA. Em sistemas internos de conhecimento, a ambiguidade aparece constantemente em nomes de projetos, versões de documentos, nomes de clientes, referências a políticas e intervalos de datas. Em produtos de busca externos, o problema surge em comparações, rankings e desambiguação de marcas ou entidades. Se um sistema trata todo prompt como se estivesse completo, ele pode produzir trabalho confiante, mas irrelevante, ainda que pareça altamente responsivo.
Para quem desenvolve agentes de IA, o benchmark sugere uma mudança de design. O esclarecimento não deve ser tratado como um plano B para confusão óbvia. Talvez ele precise se tornar uma capacidade de primeira classe, com limites explícitos, rastreamento de estado e uma UX de produto que torne natural, e não obstrutivo, fazer perguntas de acompanhamento. Os dados citados pelo The Decoder também indicam que lembretes no nível do prompt podem ajudar na detecção de ambiguidade, mas não o suficiente para corrigir sozinhos a conclusão das tarefas de ponta a ponta.
Essa distinção importa para o planejamento de roadmap. Melhores prompts de sistema podem aumentar a frequência das perguntas, mas um agente realmente útil também precisa fazer a pergunta certa no momento certo e depois incorporar a resposta ao restante do fluxo de trabalho. Detecção, formulação e continuidade parecem ser capacidades separadas.
As alegações mais fortes aqui vêm de um estudo de benchmark descrito pelo The Decoder, e não de uma publicação revisada por pares incluída no conjunto de fontes. Isso não invalida os achados, mas significa que os leitores devem tratar os rankings de desempenho e as conclusões comportamentais como relatados pelos pesquisadores até que o artigo, os dados e os detalhes de avaliação subjacentes sejam examinados de forma mais ampla.
Várias limitações se destacam a partir das evidências disponíveis. Primeiro, o DiscoBench é escrito majoritariamente em chinês, então os resultados podem não se transferir de forma limpa para o comportamento de busca em inglês ou para fluxos de trabalho corporativos de documentos. Segundo, o benchmark depende do Tavily e de um usuário simulado construído com Gemini 3 Flash. Essa configuração é razoável para testes controlados, mas não é o mesmo que medir sistemas de produção completos com usuários reais, diferentes pilhas de busca ou orquestração personalizada.
Terceiro, a lista de modelos e versões é a relatada pelo The Decoder, incluindo Claude Opus 4.7, GPT 5.4, Gemini 3.1 Pro Preview, DeepSeek V4 Pro, GLM 5.1, Qwen3.6 Max, Kimi K2.6, MiniMax M2.7, MiMo v2.5 Pro, Hunyuan 3.0 Preview e Doubao Seed 2.0 Pro. Algumas dessas convenções de nomenclatura podem refletir rotulagens internas ou regionais dos autores do benchmark, e o material de origem não fornece uma contabilidade completa no estilo de ficha técnica de modelo sobre as escolhas de configuração.
Ainda assim, alguns padrões parecem robustos mesmo com essas ressalvas. Os autores relatam que, sem acesso à busca, o desempenho despenca, o que apoia a ideia de que as tarefas exigem recuperação ao vivo e não conhecimento memorizado. Eles também relatam que, quando a ambiguidade é removida das consultas, a precisão sobe em cerca de 26,8 a 40,2 pontos, dependendo do modelo. Se isso for replicado, é um forte sinal de que o manejo da ambiguidade em si é o gargalo.
O artigo também situa o DiscoBench dentro de uma linha mais ampla de críticas à confiabilidade da busca com IA. O Decoder cita o LiveBrowseComp como evidência de que os modelos podem depender demais do conhecimento prévio e cita o Halluhard para problemas de alucinação na verificação de fontes. Esses são estudos adjacentes, não validações diretas do DiscoBench, mas reforçam a visão de que a competência de navegação ainda é frágil.
Os resultados chegam enquanto fornecedores adotam abordagens diferentes para pesquisa assistida por IA. A Anthropic afirmou que o Claude Opus 4.8 foi ajustado para sinalizar incerteza com mais frequência, de acordo com o resumo da atualização feito pelo The Decoder. Se essa alegação se mantiver em testes independentes, ela se alinhará de perto com a fraqueza que o DiscoBench tenta expor.
A Perplexity, por sua vez, vem explorando o Search as Code, uma abordagem que permite aos modelos expressar fluxos de trabalho de busca como programas em Python, em vez de depender apenas de padrões de API de busca pré-construídos. Isso pode ajudar no planejamento e na verificação, mas o DiscoBench sugere que permanece sem resposta uma questão separada: o sistema consegue reconhecer quando a informação ausente não está na web, mas ainda na cabeça do usuário?
Para equipes que avaliam agentes de IA, isso cria uma lista de verificação de compras mais nuançada. Comparar pontuações em benchmarks de tarefas intensivas em busca já não basta. Os compradores talvez precisem testar se um produto consegue pausar, identificar o tipo de ambiguidade, fazer uma pergunta de esclarecimento concisa e retomar a tarefa sem reinicializar o contexto. Em domínios regulados ou de alto risco, essa capacidade pode ser mais importante do que a velocidade bruta de recuperação.
O próximo sinal a observar é se a Tencent Hunyuan e a Universidade Tsinghua publicarão documentação mais ampla, código ou exemplos públicos do DiscoBench. A replicação independente será importante, especialmente em tarefas em inglês e com estudos com usuários reais.
Também valerá acompanhar se os provedores de modelos começam a relatar métricas de esclarecimento ao lado dos benchmarks de recuperação e raciocínio. Um padrão útil poderia incluir detecção de ambiguidade, qualidade da pergunta, taxa de recuperação após o esclarecimento e modos de falha por domínio.
No lado do produto, fique atento a mudanças nas interfaces de agentes de IA. Se os fornecedores começarem a tornar o esclarecimento uma parte visível e intencional da experiência do usuário, em vez de uma interrupção ocasional, isso sugerirá que o mercado está levando essa categoria de falha a sério.
Por fim, acompanhe se sistemas como Claude Opus 4.8, Gemini 3.1 Pro ou GPT 5.4 mostram ganhos mensuráveis em tarefas com muita ambiguidade em testes independentes. A vantagem competitiva na busca com IA pode vir cada vez mais de contenção e diálogo, e não apenas de mais ferramentas.
O DiscoBench é um lembrete útil de que muitos fracassos de produtos de IA começam antes da recuperação, e não depois dela. As equipes frequentemente otimizam conectores de busca melhores, janelas de contexto maiores e loops de agentes mais elaborados. Mas se o modelo aceita um briefing ambíguo e segue em frente, toda a pilha pode produzir irrelevância polida.
Para quem constrói esses sistemas, a conclusão prática é simples: trate o esclarecimento como infraestrutura central. Os sistemas vencedores em busca com IA podem ser aqueles que sabem quando parar, fazer uma pergunta precisa e só então continuar. Isso é menos chamativo do que a navegação autônoma, mas, para IA corporativa e confiança do usuário, provavelmente é a capacidade mais importante.