Google lanza Gemma 4 12B para IA multimodal local en portátiles
Google presentó Gemma 4 12B, un modelo abierto multimodal sin codificador diseñado para ejecutarse localmente en portátiles con 16 GB de memoria.
Google presentó Gemma 4 12B, un modelo abierto multimodal sin codificador diseñado para ejecutarse localmente en portátiles con 16 GB de memoria.
Thinking Machines Lab de Mira Murati presentó modelos de interacción diseñados para una colaboración continua en tiempo real con IA.
Uni-1 de Luma AI utiliza una arquitectura autorregresiva para superar a Google Nano Banana 2 y OpenAI GPT Image 1.5 en benchmarks de razonamiento, mientras reduce el precio para resolución 2K hasta en un 30%.
Xiaomi presentó MiMo-V2-Pro, MiMo-V2-Omni y MiMo-V2-TTS — un trío de modelos de IA con más de 1 billón de parámetros, percepción multimodal y síntesis de voz emocional, que rivalizan con Claude Opus 4.6 en benchmarks de agentes.
Google ha lanzado Gemini Embedding 2, el primer modelo de embeddings nativamente multimodal capaz de mapear conjuntamente texto, imágenes y vídeo en un espacio vectorial unificado para tareas de búsqueda y recuperación.
La china DeepSeek está a punto de lanzar su modelo multimodal V4 —capaz de generar texto, imágenes y vídeo— y, según se informa, está denegando el acceso anticipado de optimización a Nvidia y AMD, otorgándolo en exclusiva a los fabricantes de chips nacionales Huawei y Cambricon antes de las sesiones anuales del parlamento chino.
Las ofertas de empleo de DeepSeek revelan planes para un motor de búsqueda multimodal con IA que admite texto, imágenes y audio, apuntando directamente a la cuota de mercado de búsquedas de Google.
Moonshot AI, con sede en Pekín, lanza Kimi K2.5, un modelo multimodal de IA de código abierto que rivaliza con OpenAI y Anthropic y, además, cuesta cuatro veces menos operarlo, lo que plantea dudas sobre la eficacia de los controles de exportación de semiconductores de EE. UU. para frenar el desarrollo de IA en China.