Google lança Gemma 4 12B para IA multimodal local em laptops
O Google apresentou o Gemma 4 12B, um modelo aberto multimodal sem codificador, projetado para rodar localmente em laptops com 16 GB de memória.
O Google apresentou o Gemma 4 12B, um modelo aberto multimodal sem codificador, projetado para rodar localmente em laptops com 16 GB de memória.
O Thinking Machines Lab de Mira Murati apresentou modelos de interação projetados para colaboração contínua em tempo real com IA.
O Uni-1 da Luma AI usa uma arquitetura autorregressiva para superar o Google Nano Banana 2 e o OpenAI GPT Image 1.5 em benchmarks de raciocínio, ao mesmo tempo que reduz o preço para resolução 2K em até 30%.
A Xiaomi revelou MiMo-V2-Pro, MiMo-V2-Omni e MiMo-V2-TTS — um trio de modelos de IA com mais de 1 trilhão de parâmetros, percepção multimodal e síntese de voz emocional, rivalizando com o Claude Opus 4.6 em benchmarks de agentes.
O Google lançou o Gemini Embedding 2, o primeiro modelo de embeddings nativamente multimodal capaz de mapear conjuntamente texto, imagens e vídeo em um espaço vetorial unificado para tarefas de busca e recuperação.
A chinesa DeepSeek está prestes a lançar seu modelo multimodal V4 —capaz de gerar texto, imagens e vídeo— e, segundo relatos, está negando o acesso antecipado para otimização à Nvidia e AMD, concedendo-o exclusivamente a fabricantes de chips nacionais Huawei e Cambricon antes das sessões parlamentares anuais da China.
Vagas de emprego da DeepSeek revelam planos para um mecanismo de busca multimodal com IA que suporta texto, imagens e áudio, visando diretamente a participação de mercado do Google na busca.
A Moonshot AI, sediada em Pequim, lança o Kimi K2.5, um modelo multimodal de código aberto que rivaliza com OpenAI e Anthropic ao mesmo tempo que custa quatro vezes menos para operar, levantando questões sobre a eficácia dos controles de exportação de semicondutores dos EUA em limitar o desenvolvimento de IA da China.