AI News

Interfaze выпустила diffusion-gemma-asr-small — open-source модель автоматического распознавания речи, построенную вокруг менее привычного для speech AI решения: декодера на основе diffusion вместо традиционного автогрессивного стека транскрибации. Судя по ограниченным доступным исходным данным, модель описывается как транскрибирующая шесть языков и использующая параллельный denoising decoder от DiffusionGemma.

Это делает запуск заметным, хотя многие операционные детали по-прежнему неясны. Открытое распознавание речи — переполненная категория, но большинство production-команд все еще выбирают между несколькими знакомыми подходами: крупными end-to-end transformer ASR-системами, оптимизированными вариантами encoder-decoder-моделей или готовыми API от более крупных вендоров. Похоже, Interfaze утверждает, что diffusion-style генерация, уже оказавшая влияние на image- и все более multimodal-системы, может также предложить полезный путь для транскрибации речи, генерируя текст через параллельные шаги denoising.

Что Interfaze заявляет о релизе

Самые четко подтвержденные факты из исходных материалов немногочисленны, но важны. Согласно освещению MarkTechPost, Interfaze выпустила модель под названием diffusion-gemma-asr-small. В отчете она описывается как open source, способная транскрибировать шесть языков и построенная на DiffusionGemma и его параллельном denoising decoder.

Помимо этого, текущий набор доказательств весьма скуден. Доступный источник не сообщает условия лицензии модели, поддерживаемые целевые среды развертывания, детали тренировочного датасета, результаты бенчмарков, число параметров, профиль latency или точный список шести языков. Также не уточняется, включает ли релиз веса, код обучения, код инференса или скрипты оценки. Эти упущения важны, потому что внедрение open-source ASR зависит не столько от громкого названия модели, сколько от упаковки, воспроизводимости, соответствия аппаратным ограничениям и качества мультиязычной оценки.

Даже с этими пробелами позиционирование продукта само по себе значимо. Название diffusion-gemma-asr-small предполагает, что Interfaze пытается объединить ASR-решение с небольшим footprint и архитектурный нарратив, заимствованный из diffusion-методов и экосистемы Gemma. Если это верно, компания выпускает не просто очередную speech-модель; она проверяет, будут ли разработчики всерьез относиться к diffusion-based text decoding для практических задач транскрибации.

Почему diffusion decoding важен для ASR

В большинстве привычных speech-to-text систем транскрипция разворачивается token за token, где каждый новый токен зависит от предыдущего вывода. Такой автогрессивный паттерн хорошо изучен и часто дает высокую точность, но он может создавать компромиссы в скорости инференса, сложности beam search и распространении ошибок. Parallel denoising decoder подразумевает другой процесс генерации — такой, который может уточнять результаты по шагам, а не расширять их строго слева направо.

В исходном материале этот механизм приписывается DiffusionGemma. Если Interfaze действительно адаптировала такой дизайн для распознавания речи, ключевая техническая идея состоит не просто в том, что модель мультиязычна. Речь о том, что diffusion-style decoder может быть применимым для ASR, потенциально меняя представления команд о компромиссах между задержкой и качеством, а также об эффективности decoding.

Это не означает автоматически, что подход лучше уже существующих систем. Покупатели ASR обычно сначала смотрят на word error rate, мультиязычную устойчивость, обработку акцентов, качество на шумной аудиозаписи и стоимость выполнения, и только потом — на новизну декодера. Но архитектура модели имеет значение, если она дает больше параллельных вычислений, более стабильное поведение decoding или более простое масштабирование на разные языки.

Для исследователей и разработчиков open models этот релиз интересен тем, что speech-сегмент был заметно меньше затронут diffusion-методами, чем image generation. Публичная модель, связанная с DiffusionGemma, может стимулировать больше экспериментов с non-autoregressive или semi-parallel пайплайнами транскрибации, особенно в небольших мультиязычных сценариях.

Конкурентный контекст open-source ASR

Interfaze выходит на рынок, где уже существуют сильные ожидания от open и коммерческих предложений. Whisper остается ориентиром во многих обсуждениях среди разработчиков, даже если команды в итоге переходят на специализированные системы ради адаптации под домен, низкой задержки или лучшей поддержки streaming и enterprise-контролей. Корпоративные клиенты также сравнивают любую новую ASR-модель с managed speech API от таких провайдеров, как Google Cloud и OpenAI, в зависимости от рабочего процесса и требований к compliance.

Именно поэтому слово “small” в diffusion-gemma-asr-small может быть почти так же важно, как и заявление о diffusion. Меньшие ASR-модели могут быть привлекательны для on-device inference, edge-развертывания, меньших затрат на GPU или приватной транскрибации в контролируемых средах. Если Interfaze нацеливается на этот сегмент рынка, ей нужно показать не только новизну DiffusionGemma, но и способность модели конкурировать по практическим параметрам, которые команды уже активно измеряют: memory footprint, мультиязычная согласованность, throughput и поведение на реальном аудио.

Позиционирование на шести языках также важно с коммерческой точки зрения. Мультиязычная поддержка расширяет привлекательность, но покупатели обычно спрашивают, являются ли все поддерживаемые языки равноценными или же один-два доминируют по качеству. Без оценки по каждому языку формулировка “шесть языков” остается признаком функциональности, а не метрикой для enterprise-решения.

Для open-source-экосистемы, впрочем, даже более узкий успех может иметь значение. Если diffusion-gemma-asr-small покажет достойное качество при выгодном уровне compute, это может разнообразить поле, где слишком многие проекты наследуют одни и те же архитектурные решения.

Доказательства, заявления и что остается неподтвержденным

Этот материал опирается на скудный медиаресурсный след, а не на первичные материалы релиза. Два элемента в источниковом кластере фактически представляют собой один и тот же отчет MarkTechPost, а извлеченный для просмотра текст ограничен заголовком и коротким summary. Это означает, что ряд аспектов запуска нельзя независимо подтвердить по предоставленным доказательствам.

Подтверждено по данным источника: Interfaze выпустила diffusion-gemma-asr-small; модель описывается как open source; говорится, что она транскрибирует шесть языков; а ее decoder описан как использующий parallel denoising decoder от DiffusionGemma.

Не подтверждено по доступным данным: результаты бенчмарков, сравнительные победы над Whisper или любым другим ASR-benchmark, состав тренировочных данных, лицензирование, разрешения на коммерческое использование, поддержка streaming, требования к развертыванию и наличие полного набора материалов для воспроизводимости. Если в оригинальной истории MarkTechPost были более сильные заявления о качестве, их все равно следует считать сведениями от вендора, если они не подкреплены опубликованными оценками или воспроизведением третьей стороной.

Это различие важно, потому что speech-модели особенно чувствительны к setup оценки. Точность может резко меняться в зависимости от нормализации пунктуации, несовпадения домена, качества аудио, смеси языков и того, отражает ли тестовый набор разговорную речь, телефонию, вещание или дальнее поле. Без этих деталей разработчикам следует осторожно относиться к любому подразумеваемому сигналу о качестве.

Что это значит для разработчиков и enterprise-команд

Для AI-разработчиков немедленная ценность diffusion-gemma-asr-small заключается не столько в том, чтобы мгновенно заменить production speech stack, сколько в расширении пространства архитектурных решений. Команды, создающие продукты для транскрибации, помощники для встреч, голосовые workflow или multimodal pipelines, могут захотеть проверить, меняет ли decoder в стиле DiffusionGemma поведение инференса полезным образом.

Если модель действительно легкая и permissively open, она может быть интересна enterprise-AI-командам, которым нужен больший контроль, чем предлагают managed API. В секторах, где важны data residency, offline inference или предсказуемая unit economics, даже умеренно способная open-source ASR-модель может привлечь внимание. Это особенно верно, если она хорошо интегрируется с retrieval pipelines, call-center analytics, генерацией заметок или agentic-системами, которые начинают работу с speech-input.

Тем не менее, enterprise-клиентам не следует читать слишком много в один лишь заголовок релиза. Прежде чем запускать Interfaze в production, покупателям понадобятся доказательства по domain adaptation, совместимости с diarization, поведению streaming, стабильности пунктуации, мультиязычным edge cases и операционной поддержке. Разница между сильным research-релизом и deployable ASR-компонентом очень велика.

Для founders этот запуск — еще одно напоминание, что ниже уровня frontier foundation models остается пространство для дифференциации. Распознавание речи — это высокочастотный рабочий процесс с множеством недообслуженных ниш. Если Interfaze сможет доказать, что diffusion-gemma-asr-small дает лучший cost-performance profile или более простое масштабирование на разные языки, она может найти traction даже на рынке, переполненном incumbents.

Что отслеживать дальше

Следующие сигналы, на которые стоит смотреть, — конкретные и легко проверяемые. Во-первых, Interfaze нужно опубликовать первичные материалы: model card, репозиторий, лицензию, доступ к checkpoint и воспроизводимые бенчмарки. Без этого diffusion-gemma-asr-small будет трудно оценить серьезным командам.

Во-вторых, рынку понадобятся сравнительные данные против Whisper и других open-source ASR-базовых моделей по всем шести языкам, которые, по словам Interfaze, поддерживаются. Ошибки по каждому языку, тесты на шумном аудио и latency-метрики для конкретного hardware дали бы куда больше оснований доверять продукту, чем одно лишь архитектурное позиционирование.

В-третьих, разработчикам следует искать доказательства того, что parallel denoising decoder от DiffusionGemma дает operational advantages именно в ASR, а не просто концептуальную новизну. Более быстрый inference, лучшее масштабирование на определенных accelerator-ах или более стабильный вывод в мультиязычных условиях были бы действительно значимыми.

Наконец, стоит смотреть, расширит ли Interfaze одну небольшую модель до более широкой семьи. Линейка релизов с более крупными checkpoint, streaming-версиями или интеграциями speech-plus-language будет сигнализировать о платформенной стратегии, а не о разовом эксперименте.

Взгляд Creati.ai

Самая важная часть этой истории не в том, что появилась еще одна open-source speech-модель. Важнее то, что Interfaze тестирует другое допущение о decoding в категории, где product-команды привыкли оценивать в основном одни и те же архитектурные шаблоны. Если diffusion-gemma-asr-small хорошо упакована и воспроизводима, она может стать полезной отправной точкой для исследователей и разработчиков, изучающих альтернативы автогрессивному ASR.

Но с точки зрения доказательств релиз все еще находится на ранней стадии. Пока Interfaze не опубликует прямые бенчмарки, детали языкового покрытия и guidance по развертыванию, enterprise-AI-командам стоит воспринимать diffusion-gemma-asr-small как перспективную, но не подтвержденную модель. В speech-инфраструктуре архитектурная новизна имеет значение только тогда, когда она выдерживает столкновение с шумным аудио, мультиязычными edge cases и реальными ограничениями по затратам. Именно эту планку Interfaze теперь и нужно взять.

Рекомендуемые
AirMusic
AirMusic
AirMusic.ai генерирует качественные музыкальные треки с помощью ИИ по текстовым подсказкам с настройкой стиля и настроения и экспортом стемов.
AdsCreator.com
AdsCreator.com
Мгновенно создавайте отполированные рекламные креативы в фирменном стиле из любого URL сайта для Meta, Google и Stories.
KiloClaw
KiloClaw
Хостинг OpenClaw-агента: развертывание в один клик, более 500 моделей, защищённая инфраструктура и автоматизированное управление агентами для команд и разработчиков.
Atoms
Atoms
Платформа на базе ИИ, которая с помощью многоагентной автоматизации за минуты создает полнофункциональные приложения и сайты без программирования.
VoxDeck
VoxDeck
Создатель презентаций с ИИ, ведущий визуальную революцию
Refly.ai
Refly.ai
Refly.AI даёт нетехническим создателям возможность автоматизировать рабочие процессы с помощью естественного языка и визуального полотна.
Skywork.ai
Skywork.ai
Skywork AI - это инновационный инструмент для повышения производительности с использованием ИИ.
Pippit
Pippit
Поднимите создание контента с помощью мощных инструментов искусственного интеллекта Pippit!
Diagrimo
Diagrimo
Diagrimo мгновенно преобразует текст в настраиваемые диаграммы и визуализации, созданные искусственным интеллектом.
BGRemover
BGRemover
Легко удаляйте фоны изображений онлайн с помощью SharkFoto BGRemover.
SuperMaker AI Video Generator
SuperMaker AI Video Generator
Создавайте потрясающие видео, музыку и изображения без усилий с SuperMaker.
Elser AI
Elser AI
Универсальная веб‑студия, превращающая текст и изображения в аниме‑арт, персонажей, голоса и короткометражные фильмы.
FineVoice
FineVoice
Преобразуйте текст в эмоции — Клонируйте, создавайте и настраивайте выразительные AI-голоса за считанные секунды.
Flowith
Flowith
это агентное рабочее пространство на основе холста, которое предлагает бесплатно 🍌Nano Banana Pro и другие эффективные м
Qoder
Qoder
Qoder — это помощник по кодированию с искусственным интеллектом, автоматизирующий планирование, кодирование и тестирование программных проектов.
FixArt AI
FixArt AI
FixArt AI предлагает бесплатные, безограниченные AI-инструменты для генерации изображений и видео без регистрации.
Image3D - AI 2D to 3D Model Generator (GLB, OBJ, STL, PLY)
Image3D - AI 2D to 3D Model Generator (GLB, OBJ, STL, PLY)
Браузерный ИИ, который превращает любое 2D-изображение или текстовый запрос в 3D-модель за 30 секунд. Экспорт GLB, OBJ, STL, PLY — бесплатно
AI Clothes Changer by SharkFoto
AI Clothes Changer by SharkFoto
AI Clothes Changer от SharkFoto позволяет мгновенно виртуально примерять наряды с реалистичной посадкой, текстурой и освещением.
Palix AI
Palix AI
Универсальная AI‑платформа для создателей, позволяющая генерировать изображения, видео и музыку с использованием единой системы кредитов.
Funy AI
Funy AI
Оживите свои фантазии! Создавайте ИИ-видео с поцелуями и бикини из изображений или текста. Попробуйте смену одежды. Бесп
SkyGen Plus
SkyGen Plus
Многомодельная AI-платформа для создания изображений, видео и музыки в одном удобном рабочем процессе.
Image 2 AI
Image 2 AI
Инструмент для генерации и редактирования изображений на базе OpenAI для фотореалистичных визуалов, точного рендеринга текста и UI-макетов.
SharkFoto
SharkFoto
SharkFoto — это универсальная платформа с поддержкой ИИ для эффективного создания и редактирования видео, изображений и музыки.
kinovi - Seedance 2.0 - Real Man AI Video
kinovi - Seedance 2.0 - Real Man AI Video
Бесплатный AI-генератор видео с реалистичными людьми на выходе, без водяных знаков и с полными правами для коммерческого использования.
Imagvio AI
Imagvio AI
Платформа для создания изображений и видео на базе ИИ с точным редактированием, генерацией и творческими рабочими процессами, ориентированными на согласованность.
Gemini Omni - Video Generator
Gemini Omni - Video Generator
Платформа для создания видео на базе ИИ с conversational-редактированием, мультимодальными референсами и согласованной генерацией коротких роликов.
APIMaster
APIMaster
Настоящие LLM, верифицированные по отпечатку. Один API, до 70% дешевле официальных цен.
Questie AI - Game Companion
Questie AI - Game Companion
AI-компаньон для игр в реальном времени, который смотрит на ваш экран, общается голосом и подсказывает во время игры.
OnlyDoc Summarizer
OnlyDoc Summarizer
Бесплатный PDF-суммаризатор OnlyDoc читает PDF и выделяет ключевые моменты в чистом, структурированном резюме
Scavio AI
Scavio AI
API поиска в реальном времени для нескольких платформ, которая помогает ИИ-агентам получать структурированные данные из веба, e-commerce, видео и соцсетей.
Iara Chat
Iara Chat
Iara Chat: Ассистент по производительности и коммуникации на основе ИИ.
paperclaw
paperclaw
ИИ-пространство для работы, которое за минуты создаёт готовые к публикации научные иллюстрации, схемы, постеры и редактируемые SVG.
Media.io Free AI Image Generator
Media.io Free AI Image Generator
Создавайте AI-визуалы с помощью Media.io на основе текстовых запросов или референсных изображений для соцсетей, маркетинга, e-commerce и других задач.
Seedance 2.0 Video AI
Seedance 2.0 Video AI
Создавайте кинематографичные видео 1080p из промптов, изображений и референсных клипов с синхронизированным аудио.
whatslove.ai
whatslove.ai
ИИ-коуч по знакомствам, который подбирает советы, темы для начала разговора и идеи для свиданий с учетом вашей личности.
CreateMemorial
CreateMemorial
CreateMemorial помогает семьям создавать долговечные онлайн-страницы памяти и видео-слайдшоу для похорон, чтобы почтить память близких.
StitchPilot.ai
StitchPilot.ai
Работающий в браузере AI-инструмент для вышивки, позволяющий конвертировать изображения, просматривать стежковые файлы и проверять форматы для машин.
Couple AI - AI Couple Photo Maker
Couple AI - AI Couple Photo Maker
Создавайте реалистичные AI-портреты пары из селфи с тематическими стилями, быстрой генерацией и приватными HD-загрузками.
Mubert AI
Mubert AI
Mubert — это AI-платформа для музыки, которая за секунды создаёт, расширяет, ремикширует и озвучивает треки без роялти.
AIsa
AIsa
AIsa предоставляет AI-агентам единый шлюз к моделям, навыкам, API и платежам с OpenAI-совместимым доступом.
AnimeShorts
AnimeShorts
Создавайте потрясающие аниме-ролики без усилий с помощью передовых технологий ИИ.
HappyHorseAIStudio
HappyHorseAIStudio
Браузерный генератор видео на базе ИИ для текста, изображений, референсов и видеомонтажа.
WriteHybrid AI Humanizer
WriteHybrid AI Humanizer
WriteHybrid — это AI-гуманизатор и детектор, который естественно переписывает текст и помогает пользователям обходить обнаружение ИИ.
AI Pet Video Generator
AI Pet Video Generator
Создавайте вирусные, легко распространяемые видео о питомцах из фотографий с помощью шаблонов на базе ИИ и мгновенного экспорта в HD для социальных платформ.
AI Video API: Seedance 2.0 Here
AI Video API: Seedance 2.0 Here
Унифицированный AI API для видео, предлагающий топовые модели генерации через один ключ по более низкой цене.
Ampere.SH
Ampere.SH
Бесплатный управляемый хостинг OpenClaw. Разверните AI‑агентов за 60 секунд с кредитами Claude на $500.
AdMakeAI
AdMakeAI
AI-генератор рекламы, который за секунды создает высокоэффективные статичные и UGC-объявления для брендов.
NerdyTips
NerdyTips
Платформа прогнозов на футбол на базе ИИ, предоставляющая основанные на данных советы по матчам в лигах по всему миру.
Flaq AI Media API
Flaq AI Media API
Flaq AI — это единая AI-медийная API-платформа для генерации изображений, видео и LLM-ориентированных рабочих процессов со стабильными моделями
AI Gift finder by wishwave
AI Gift finder by wishwave
AI-помощник в поиске подарков, который создает общими списками желаний из реальных товаров из сотен популярных магазинов.
InstantChapters
InstantChapters
Создавайте захватывающие главы книг мгновенно с Instant Chapters.
VidMage
VidMage
Легко меняйте лица на фотографиях и видео с помощью технологий ИИ.
Claude API
Claude API
Claude API for Everyone
Gptimg2 AI
Gptimg2 AI
Универсальная AI-студия для создания изображений и видео из текста, изображений или референсов.
insmelo AI Music Generator
insmelo AI Music Generator
Генератор музыки на базе ИИ, который превращает подсказки, тексты или загруженные файлы в отточенные, не требующие выплат авторских отчислений песни примерно за минуту.
WhatsApp AI Sales
WhatsApp AI Sales
WABot — это AI-«копилот» продаж для WhatsApp, который предоставляет скрипты в реальном времени, переводы и определение намерений.
GPT Image 2 Online
GPT Image 2 Online
AI-генератор и редактор изображений с фотореалистичными результатами, точной отрисовкой текста и сильным следованием промптам.
Kirkify
Kirkify
Kirkify AI мгновенно создает вирусные мемы с заменой лиц и фирменной неон-«глитч» эстетикой для создателей мемов.
MusicGPT
MusicGPT
AI-музыкальная платформа для создания песен, звуковых эффектов, вокала и аудиоредактирования с помощью простых запросов.
Lyria3 AI
Lyria3 AI
Генератор музыки на базе ИИ, который мгновенно создает высококачественные полностью продюсированные песни по текстовым подсказкам, стихам и стилям.
Text to Music
Text to Music
Преобразуйте текст или слова в полноценные песни студийного качества с вокалом, сгенерированным ИИ, инструментами и многодорожечным экспортом.
AIToHuman
AIToHuman
Бесплатный инструмент очеловечивания AI-текста, который мгновенно переписывает сгенерированный ИИ контент в естественный, похожий на человеческий стиль.
wan 2.7-image
wan 2.7-image
Управляемый генератор изображений на базе ИИ для точных лиц, палитр, текста и визуальной непрерывности.
HookTide
HookTide
Платформа роста в LinkedIn на базе ИИ, которая изучает ваш голос, чтобы создавать контент, взаимодействовать и анализировать эффективность.
EaseMate AI
EaseMate AI
Универсальный AI-ассистент для чата, письма, помощи в учёбе, создания изображений и генерации видео в одной браузерной платформе.
BeatMV
BeatMV
Веб-ориентированная платформа ИИ, которая превращает песни в кинематографические музыкальные видеоклипы и создаёт музыку с помощью ИИ.
Anijam AI
Anijam AI
Anijam — это нативная для ИИ анимационная платформа, которая превращает идеи в отточенные истории с помощью агентного создания видео.
Paper Banana
Paper Banana
Инструмент на базе ИИ для мгновенного преобразования академического текста в готовые к публикации методологические схемы и точные статистические графики.
Create WhatsApp Link
Create WhatsApp Link
Бесплатный генератор ссылок и QR для WhatsApp с аналитикой, брендированными ссылками, маршрутизацией и функциями многопользовательского чата.
Tome AI PPT
Tome AI PPT
Генератор презентаций на базе ИИ, который создает, улучшает и экспортирует профессиональные слайды за считанные минуты.
GLM Image
GLM Image
GLM Image сочетает гибридные авторегрессионные и диффузионные модели для генерации высококачественных AI-изображений с выдающейся отрисовкой текста.
UNI-1 AI
UNI-1 AI
UNI-1 — это унифицированная модель генерации изображений, сочетающая визуальное рассуждение с высококачественным синтезом изображений.
Gobii
Gobii
Gobii позволяет командам создавать автономных цифровых работников 24/7 для автоматизации веб-исследований и рутинных задач.
WhatsApp Warmup Tool
WhatsApp Warmup Tool
Инструмент прогрева WhatsApp на базе ИИ автоматизирует массовую рассылку и предотвращает блокировку аккаунтов.
GenPPT.AI
GenPPT.AI
Генератор PPT на базе ИИ, который за считанные минуты создаёт, улучшает и экспортирует профессиональные презентации PowerPoint с заметками докладчика и диаграммами.
Wan 2.7
Wan 2.7
Профессиональная модель AI для видео с точным управлением движением и согласованностью между видами.
Hitem3D
Hitem3D
Hitem3D преобразует одно изображение в высокоразрешённые, готовые к производству 3D-модели с помощью ИИ.
happy horse AI
happy horse AI
Open-source AI-генератор видео, создающий синхронизированные видео и аудио из текста или изображений.
Seedance 20 Video
Seedance 20 Video
Seedance 2 — это мультимодальный генератор видео с ИИ, обеспечивающий согласованных персонажей, многокадровое повествование и нативный звук в 2K.
AI FIRST
AI FIRST
Разговорный ИИ‑ассистент, автоматизирующий исследовательские задачи, работу в браузере, веб‑скрейпинг и управление файлами с помощью естественного языка.
Veemo - AI Video Generator
Veemo - AI Video Generator
Veemo AI — это универсальная платформа, которая быстро создаёт видеоролики и изображения высокого качества на основе текста или изображений.
Manga Translator AI
Manga Translator AI
AI Manga Translator мгновенно переводит изображения манги на несколько языков онлайн.
TextToHuman
TextToHuman
Бесплатный AI-очеловечиватель, который мгновенно переписывает AI-текст в естественный, похожий на человеческий стиль. Регистрация не требуется.
Video Sora 2
Video Sora 2
Sora 2 AI превращает текст или изображения в короткие социальные и eCommerce-видео с физически корректным движением за считанные минуты.
Remy - Newsletter Summarizer
Remy - Newsletter Summarizer
Remy автоматизирует управление новостными рассылками, резюмируя письма в удобные для восприятия сводки.

Interfaze выпускает diffusion-gemma-asr-small, делая ставку на то, что diffusion decoding может изменить открытое распознавание речи

Interfaze выпустила diffusion-gemma-asr-small — open-source ASR-модель для шести языков, которая тестирует diffusion decoding как новый путь для speech AI.