AI News

A Interfaze lançou o diffusion-gemma-asr-small, um modelo de reconhecimento automático de fala (ASR) de código aberto posicionado em torno de uma escolha de design menos comum em IA de fala: um decodificador baseado em difusão, em vez de uma pilha convencional de transcrição autoregressiva. Com base nas evidências limitadas disponíveis na fonte, o modelo é descrito como capaz de transcrever seis idiomas e usar o decodificador de denoising paralelo do DiffusionGemma.

Isso torna este lançamento digno de nota, embora muitos dos detalhes operacionais permaneçam obscuros. O reconhecimento de fala aberto é uma categoria concorrida, mas a maioria das equipes de produção ainda escolhe entre algumas abordagens familiares: grandes sistemas de ASR transformer de ponta a ponta, variantes otimizadas de modelos encoder-decoder ou APIs empacotadas de fornecedores maiores. A Interfaze parece estar argumentando que a geração em estilo difusão, já influente em imagem e cada vez mais em sistemas multimodais, também pode oferecer um caminho útil para transcrição de fala ao gerar texto por meio de etapas paralelas de denoising.

O que a Interfaze afirma ter lançado

Os fatos mais claramente confirmados pelo material de origem são restritos, mas importantes. De acordo com a cobertura do MarkTechPost, a Interfaze lançou um modelo chamado diffusion-gemma-asr-small. O relatório o descreve como de código aberto, capaz de transcrever seis idiomas e construído em torno do DiffusionGemma e de seu decodificador de denoising paralelo.

Além disso, o conjunto atual de evidências é escasso. A fonte disponível não fornece os termos de licença do modelo, os alvos de implantação suportados, detalhes do conjunto de dados de treinamento, resultados de benchmark, contagem de parâmetros, perfil de latência ou os seis idiomas exatos. Também não especifica se o lançamento inclui pesos, código de treinamento, código de inferência ou scripts de avaliação. Essas omissões importam porque a adoção de ASR de código aberto depende menos de um nome de modelo chamativo do que de empacotamento, reprodutibilidade, adequação ao hardware e qualidade da avaliação multilíngue.

Mesmo com essas lacunas, o enquadramento do produto em si é significativo. Um modelo chamado diffusion-gemma-asr-small sugere que a Interfaze está tentando combinar uma oferta de ASR de menor porte com uma narrativa arquitetônica emprestada dos métodos de difusão e do ecossistema Gemma. Se essa interpretação estiver correta, a empresa não está apenas lançando mais um modelo de fala; está testando se os construtores levarão a sério a decodificação de texto baseada em difusão para tarefas práticas de transcrição.

Por que a decodificação por difusão importa no ASR

Na maioria dos sistemas familiares de fala para texto, a transcrição ocorre token por token, com cada novo token condicionado à saída anterior. Esse padrão autoregressivo é bem compreendido e muitas vezes forte em precisão, mas também pode criar trade-offs em torno da velocidade de inferência, da complexidade de beam search e da propagação de erros. Um decodificador de denoising paralelo implica um processo de geração diferente, que pode refinar saídas ao longo de etapas em vez de estendê-las estritamente da esquerda para a direita.

O material de origem atribui esse mecanismo ao DiffusionGemma. Se a Interfaze realmente adaptou esse design ao reconhecimento de fala, a principal reivindicação técnica não é simplesmente que o modelo seja multilíngue. É que um decodificador em estilo difusão pode funcionar para ASR, potencialmente mudando a forma como as equipes pensam sobre trade-offs entre latência e qualidade e sobre eficiência de decodificação.

Isso não significa automaticamente que a abordagem seja melhor do que os sistemas estabelecidos. Compradores de ASR geralmente se preocupam com taxa de erro de palavras, robustez multilíngue, tratamento de sotaques, desempenho com áudio ruidoso e custo de execução antes de se importarem com a novidade de um decodificador. Mas a arquitetura do modelo importa se ela levar a computação mais paralela, comportamento de decodificação mais estável ou escalabilidade mais fácil entre idiomas.

Para pesquisadores e construtores de modelos abertos, este lançamento é interessante porque a fala foi menos visivelmente remodelada por métodos de difusão do que a geração de imagens. Um modelo público ligado ao DiffusionGemma pode incentivar mais experimentação em torno de pipelines de transcrição não autoregressivos ou semiparalelos, especialmente em contextos multilíngues menores.

O contexto competitivo em torno do ASR de código aberto

A Interfaze entra em um mercado em que ofertas abertas e comerciais já definem expectativas elevadas. O Whisper continua sendo o ponto de referência em muitas conversas de desenvolvedores, mesmo quando as equipes acabam migrando para sistemas especializados para adaptação de domínio, baixa latência ou melhor suporte para streaming e controles empresariais. Compradores corporativos também comparam qualquer novo modelo de ASR com APIs gerenciadas de fala de provedores como Google Cloud e OpenAI, dependendo do fluxo de trabalho e das necessidades de conformidade.

É por isso que o “small” em diffusion-gemma-asr-small pode importar tanto quanto a alegação de difusão. Modelos menores de ASR podem ser atraentes para inferência no dispositivo, implantação na borda, menor custo de GPU ou transcrição privada em ambientes controlados. Se a Interfaze está mirando essa parte do mercado, precisará mostrar não apenas que o DiffusionGemma é inovador, mas que o modelo pode competir em dimensões práticas já amplamente medidas pelas equipes: consumo de memória, consistência multilíngue, throughput e comportamento em áudio do mundo real.

O posicionamento em seis idiomas também é comercialmente relevante. O suporte multilíngue amplia o apelo, mas os compradores tendem a perguntar se todos os idiomas suportados são de primeira linha ou se um ou dois dominam o desempenho. Sem avaliação idioma a idioma, “seis idiomas” é mais um rótulo de recurso do que uma métrica de decisão empresarial.

Para o ecossistema de código aberto, porém, até uma vitória mais restrita pode importar. Se o diffusion-gemma-asr-small mostrar qualidade respeitável com um envelope de computação favorável, ele pode adicionar diversidade a um campo em que muitos projetos se agrupam em torno das mesmas escolhas arquitetônicas herdadas.

Evidências, alegações e o que permanece não verificado

Esta história depende de um registro de fonte fino, em nível de mídia, em vez de materiais primários de lançamento. Os dois itens no conjunto de fontes são, na prática, o mesmo relatório do MarkTechPost, e o texto extraído disponível para revisão se limita à manchete e a um breve resumo. Isso significa que vários aspectos do lançamento não podem ser confirmados independentemente com base nas evidências fornecidas.

Confirmado pela cobertura da fonte: a Interfaze lançou o diffusion-gemma-asr-small; o modelo é descrito como de código aberto; afirma-se que ele transcreve seis idiomas; e seu decodificador é descrito como usando o decodificador de denoising paralelo do DiffusionGemma.

Não confirmado pelas evidências disponíveis: pontuações de benchmark, vitórias comparativas sobre o Whisper ou qualquer outro baseline de ASR, composição dos dados de treinamento, licenciamento, permissões de uso comercial, suporte a streaming, requisitos de implantação e se o lançamento inclui ativos completos de reprodutibilidade. Se a história original do MarkTechPost incluía afirmações de desempenho mais fortes, elas ainda devem ser tratadas como relatadas pelo fornecedor, a menos que sejam apoiadas por avaliações publicadas ou replicação de terceiros.

Essa distinção importa porque modelos de fala são especialmente sensíveis à configuração de avaliação. A precisão pode variar bastante com normalização de pontuação, desvio de domínio, qualidade de áudio, mistura de idiomas e se o conjunto de teste reflete fala conversacional, telefônica, de transmissão ou de longo alcance. Sem esses detalhes, os construtores devem tratar com cautela qualquer sinal implícito de qualidade.

O que isso significa para construtores e equipes corporativas

Para construtores de IA, o valor imediato do diffusion-gemma-asr-small é menos substituir uma pilha de fala em produção da noite para o dia e mais ampliar o espaço de design. Equipes que constroem produtos de transcrição, assistentes de reuniões, fluxos de trabalho de voz ou pipelines multimodais podem querer examinar se um decodificador no estilo DiffusionGemma muda o comportamento de inferência de maneiras úteis.

Se o modelo for realmente leve e permissivamente aberto, ele pode ser relevante para equipes de IA corporativa que querem mais controle do que as APIs gerenciadas oferecem. Em setores em que residência de dados, inferência offline ou economia unitária previsível importam, até um modelo de ASR de código aberto modestamente capaz pode chamar atenção. Isso é especialmente verdadeiro se ele se integrar bem a pipelines de recuperação, análises de call center, geração de notas ou sistemas agentivos que começam com entrada de fala.

Ainda assim, as empresas devem evitar ler demais o simples título do lançamento. Antes de pilotar a Interfaze em produção, os compradores precisarão de evidências sobre adaptação a domínio, compatibilidade com diarização, comportamento de streaming, estabilidade de pontuação, casos-limite multilíngues e suporte operacional. A diferença entre um lançamento de pesquisa forte e um componente de ASR implantável é grande.

Para fundadores, este lançamento é mais um lembrete de que ainda há espaço para diferenciação abaixo do nível dos modelos de base de fronteira. O reconhecimento de fala continua sendo um fluxo de trabalho de alto volume com muitos nichos mal atendidos. Se a Interfaze conseguir provar que o diffusion-gemma-asr-small oferece um melhor perfil de custo-desempenho ou escalonamento multilíngue mais fácil, poderá encontrar tração mesmo em um mercado lotado de incumbentes.

O que observar a seguir

Os próximos sinais a observar são concretos e fáceis de verificar. Primeiro, a Interfaze precisa publicar materiais primários: um model card, repositório, licença, acesso ao checkpoint e benchmarks reproduzíveis. Sem isso, o diffusion-gemma-asr-small será difícil de avaliar para equipes sérias.

Segundo, o mercado vai querer dados comparativos contra o Whisper e outros baselines de ASR de código aberto nos seis idiomas que a Interfaze diz suportar. Taxas de erro por idioma, testes com áudio ruidoso e números de latência específicos de hardware fariam mais para estabelecer credibilidade do que apenas o branding arquitetônico.

Terceiro, os construtores devem buscar evidências de que o decodificador de denoising paralelo do DiffusionGemma produz vantagens operacionais em ASR, e não apenas novidade conceitual. Inferência mais rápida, melhor escalabilidade em certos aceleradores ou saída mais estável sob condições multilíngues seriam todos significativos.

Por fim, vale observar se a Interfaze se expande de um único modelo pequeno para uma família mais ampla. Uma escada de lançamentos com checkpoints maiores, variantes de streaming ou integrações de fala mais linguagem sinalizaria uma estratégia de plataforma, e não um experimento pontual.

Perspectiva da Creati.ai

A parte mais importante desta história não é que outro modelo de fala de código aberto apareceu. É que a Interfaze está testando uma suposição de decodificação diferente em uma categoria na qual as equipes de produto se acostumaram a avaliar, em grande parte, os mesmos padrões arquitetônicos. Se o diffusion-gemma-asr-small for bem empacotado e reproduzível, ele pode se tornar um ponto de referência útil para pesquisadores e construtores que exploram alternativas ao ASR autoregressivo.

Mas o lançamento ainda está no início do ponto de vista das evidências. Até que a Interfaze publique benchmarks diretos, detalhes de cobertura de idiomas e orientações de implantação, as equipes de IA corporativa devem tratar o diffusion-gemma-asr-small como promissor, mas não comprovado. Em infraestrutura de fala, a novidade arquitetônica só importa quando sobrevive ao contato com áudio ruidoso, casos-limite multilíngues e restrições reais de custo. Esse é o patamar que a Interfaze agora precisa superar.

Em Destaque
AirMusic
AirMusic
AirMusic.ai gera faixas musicais de IA de alta qualidade a partir de prompts de texto com personalização de estilo, humor e exportação de stems.
AdsCreator.com
AdsCreator.com
Gere instantaneamente criativos de anúncio polidos e alinhados à marca a partir de qualquer URL de website para Meta, Google e Stories.
KiloClaw
KiloClaw
Agente OpenClaw hospedado: implantação com um clique, mais de 500 modelos, infraestrutura segura e gerenciamento automatizado de agentes para equipes e desenvolvedores.
Atoms
Atoms
Uma plataforma orientada por IA que cria apps e sites full-stack em minutos usando automação multiagente, sem necessidade de codificação.
VoxDeck
VoxDeck
Criador de apresentações com IA que lidera a revolução visual
Refly.ai
Refly.ai
Refly.AI capacita criadores não técnicos a automatizar fluxos de trabalho usando linguagem natural e uma tela visual.
Skywork.ai
Skywork.ai
Skywork AI é uma ferramenta inovadora para aumentar a produtividade usando IA.
Pippit
Pippit
Eleve sua criação de conteúdo com as poderosas ferramentas de IA da Pippit!
Diagrimo
Diagrimo
Diagrimo transforma texto instantaneamente em diagramas e visuais gerados por IA personalizados.
BGRemover
BGRemover
Remova facilmente os fundos de imagens online com o SharkFoto BGRemover.
SuperMaker AI Video Generator
SuperMaker AI Video Generator
Crie vídeos, músicas e imagens incríveis sem esforço com o SuperMaker.
Elser AI
Elser AI
Estúdio web tudo‑em‑um que transforma texto e imagens em arte estilo anime, personagens, vozes e curtas‑metragem.
FineVoice
FineVoice
Transforme texto em emoção — Clone, desenhe e crie vozes de IA expressivas em segundos.
Qoder
Qoder
Qoder é um assistente de codificação com IA que automatiza planejamento, codificação e testes para projetos de software.
Flowith
Flowith
Flowith é um espaço de trabalho agêntico baseado em canvas que oferece gratuitamente 🍌Nano Banana Pro e outros modelos e
FixArt AI
FixArt AI
FixArt AI oferece ferramentas de IA gratuitas e sem restrições para geração de imagens e vídeos sem necessidade de cadastro.
Image3D - AI 2D to 3D Model Generator (GLB, OBJ, STL, PLY)
Image3D - AI 2D to 3D Model Generator (GLB, OBJ, STL, PLY)
IA baseada no navegador que transforma qualquer imagem 2D ou prompt de texto em um modelo 3D em 30 segundos. Exporta GLB, OBJ, STL, PLY — grátis
AI Clothes Changer by SharkFoto
AI Clothes Changer by SharkFoto
AI Clothes Changer da SharkFoto permite que você experimente roupas virtualmente e instantaneamente, com caimento, textura e iluminação realistas.
Funy AI
Funy AI
Anime suas fantasias! Crie vídeos de beijos e biquínis com IA a partir de imagens ou texto. Experimente o trocador de ro
Palix AI
Palix AI
Plataforma de IA tudo‑em‑um para criadores, gerando imagens, vídeos e música com créditos unificados.
SkyGen Plus
SkyGen Plus
Uma plataforma de criação de IA multimodelo para gerar imagens, vídeos e música em um fluxo de trabalho único e simplificado.
Image 2 AI
Image 2 AI
Ferramenta de geração e edição de imagens com tecnologia da OpenAI para visuais fotorrealistas, renderização precisa de texto e mockups de interface.
SharkFoto
SharkFoto
SharkFoto é uma plataforma tudo-em-um com IA para criar e editar vídeos, imagens e música de forma eficiente.
kinovi - Seedance 2.0 - Real Man AI Video
kinovi - Seedance 2.0 - Real Man AI Video
Gerador de vídeo AI gratuito com saída humana realista, sem marca d'água e com direitos completos de uso comercial.
Imagvio AI
Imagvio AI
Uma plataforma de criação de imagens e vídeos com IA, com edição precisa, geração e fluxos de trabalho criativos focados em consistência.
Gemini Omni - Video Generator
Gemini Omni - Video Generator
Plataforma de criação de vídeo com IA para edição conversacional, referências multimodais e geração coerente de formato curto.
APIMaster
APIMaster
LLMs reais, verificados por impressão digital. Uma API, até 70% off vs. preços oficiais.
Questie AI - Game Companion
Questie AI - Game Companion
Um companheiro de jogos com IA em tempo real que observa sua tela, conversa por voz e orienta sua gameplay ao vivo.
OnlyDoc Summarizer
OnlyDoc Summarizer
O resumidor de PDF gratuito da OnlyDoc lê um PDF e extrai os pontos-chave em um resumo limpo e estruturado
Scavio AI
Scavio AI
API de pesquisa multiplataforma em tempo real que ajuda agentes de IA a obter dados estruturados da web, compras, vídeo e social.
Iara Chat
Iara Chat
Iara Chat: Um assistente de produtividade e comunicação com inteligência artificial.
paperclaw
paperclaw
Um workspace de IA que gera figuras científicas, diagramas, pôsteres e SVGs editáveis prontos para publicação em minutos.
Media.io Free AI Image Generator
Media.io Free AI Image Generator
Crie visuais de IA com o Media.io a partir de prompts de texto ou imagens de referência para redes sociais, marketing, e-commerce e muito mais.
Seedance 2.0 Video AI
Seedance 2.0 Video AI
Gere vídeos cinematográficos em 1080p a partir de prompts, imagens e clipes de referência com áudio sincronizado.
whatslove.ai
whatslove.ai
Um coach de namoro com IA que personaliza conselhos, iniciadores de conversa e ideias de encontros de acordo com sua personalidade.
CreateMemorial
CreateMemorial
O CreateMemorial ajuda as famílias a criar sites memoriais online duradouros e vídeos de apresentação para funerais para homenagear entes queridos.
StitchPilot.ai
StitchPilot.ai
Ferramenta de bordado com IA baseada no navegador para converter imagens, visualizar arquivos de pontos e inspecionar formatos de máquina.
Couple AI - AI Couple Photo Maker
Couple AI - AI Couple Photo Maker
Crie retratos realistas de casais com IA a partir de selfies, com estilos temáticos, geração rápida e downloads privados em HD.
Mubert AI
Mubert AI
O Mubert é uma plataforma de música com IA que gera, estende, remixa e vocaliza faixas livres de royalties em segundos.
AIsa
AIsa
AIsa oferece aos agentes de IA uma única porta de entrada para modelos, skills, APIs e pagamentos com acesso compatível com OpenAI.
AnimeShorts
AnimeShorts
Crie animações impressionantes de anime sem esforço com tecnologia de IA de última geração.
HappyHorseAIStudio
HappyHorseAIStudio
Gerador de vídeo com IA baseado no navegador para texto, imagens, referências e edição de vídeo.
WriteHybrid AI Humanizer
WriteHybrid AI Humanizer
O WriteHybrid é um humanizador e detector de IA que reescreve textos de forma natural, ao mesmo tempo que ajuda os utilizadores a contornar a deteção de IA.
AI Pet Video Generator
AI Pet Video Generator
Crie vídeos de pets virais e fáceis de compartilhar a partir de fotos usando modelos orientados por IA e exportações HD instantâneas para plataformas sociais.
AI Video API: Seedance 2.0 Here
AI Video API: Seedance 2.0 Here
API unificada de vídeo com IA que oferece modelos de última geração por uma única chave e a menor custo.
Ampere.SH
Ampere.SH
Hospedagem OpenClaw gerenciada gratuita. Implemente agentes de IA em 60 segundos com $500 em créditos Claude.
AdMakeAI
AdMakeAI
Gerador de anúncios com IA que cria anúncios estáticos e UGC de alto desempenho para marcas em segundos.
NerdyTips
NerdyTips
Uma plataforma de previsões de futebol com IA que entrega dicas de jogos baseadas em dados em ligas globais.
Flaq AI Media API
Flaq AI Media API
Flaq AI é uma plataforma unificada de API de mídia de IA para gerar imagens, vídeos e fluxos de trabalho com LLMs e modelos estáveis
AI Gift finder by wishwave
AI Gift finder by wishwave
Um buscador de presentes com IA que cria listas de desejos compartilháveis a partir de produtos reais de centenas de lojas populares.
InstantChapters
InstantChapters
Gere capítulos de livros envolventes instantaneamente com o Instant Chapters.
VidMage
VidMage
Troque rostos em fotos e vídeos sem esforço usando tecnologia de IA.
Claude API
Claude API
Claude API for Everyone
Gptimg2 AI
Gptimg2 AI
Estúdio de IA tudo-em-um para criar imagens e vídeos a partir de texto, imagens ou referências.
insmelo AI Music Generator
insmelo AI Music Generator
Gerador de música movido por IA que transforma prompts, letras ou uploads em canções polidas e livres de royalties em cerca de um minuto.
WhatsApp AI Sales
WhatsApp AI Sales
WABot é um copiloto de vendas com IA para WhatsApp que fornece scripts em tempo real, traduções e detecção de intenção.
GPT Image 2 Online
GPT Image 2 Online
Um gerador e editor de imagens por IA com resultados fotorrealistas, renderização de texto precisa e forte aderência aos prompts.
Kirkify
Kirkify
Kirkify AI cria instantaneamente memes virais de troca de rosto com estética neon-glitch assinada para criadores de memes.
MusicGPT
MusicGPT
Plataforma de música com IA para gerar músicas, efeitos sonoros, vocais e edições de áudio a partir de prompts simples.
Lyria3 AI
Lyria3 AI
Gerador de música por IA que cria músicas totalmente produzidas e de alta fidelidade a partir de prompts de texto, letras e estilos instantaneamente.
Text to Music
Text to Music
Transforme texto ou letras em músicas completas com qualidade de estúdio, com vocais gerados por IA, instrumentos e exportações multi-faixa.
AIToHuman
AIToHuman
Uma ferramenta gratuita de humanização de texto de IA que reescreve instantaneamente conteúdo gerado por IA em uma escrita natural e com aparência humana.
wan 2.7-image
wan 2.7-image
Um gerador de imagens de IA controlável para rostos precisos, paletas, texto e continuidade visual.
HookTide
HookTide
Plataforma de crescimento no LinkedIn impulsionada por IA que aprende sua voz para criar conteúdo, engajar e analisar desempenho.
EaseMate AI
EaseMate AI
Assistente de IA tudo-em-um para chat, redação, apoio aos estudos, criação de imagens e geração de vídeos em uma plataforma baseada no navegador.
BeatMV
BeatMV
Plataforma de IA baseada na web que transforma músicas em videoclipes cinematográficos e cria música com IA.
Anijam AI
Anijam AI
Anijam é uma plataforma de animação nativa de IA que transforma ideias em histórias refinadas com criação de vídeo agentiva.
Paper Banana
Paper Banana
Ferramenta com IA para converter texto acadêmico em diagramas metodológicos prontos para publicação e gráficos estatísticos precisos instantaneamente.
Create WhatsApp Link
Create WhatsApp Link
Gerador gratuito de links e QR do WhatsApp com análises, links com marca, roteamento e recursos de chat multi‑agente.
Tome AI PPT
Tome AI PPT
Criador de apresentações movido por IA que gera, embeleza e exporta slides profissionais em minutos.
GLM Image
GLM Image
GLM Image combina modelos híbridos autorregressivos e de difusão para gerar imagens de IA de alta fidelidade com renderização de texto excepcional.
UNI-1 AI
UNI-1 AI
UNI-1 é um modelo unificado de geração de imagens que combina raciocínio visual com síntese de imagens de alta fidelidade.
Gobii
Gobii
Gobii permite que equipes criem trabalhadores digitais autônomos 24/7 para automatizar pesquisa na web e tarefas rotineiras.
WhatsApp Warmup Tool
WhatsApp Warmup Tool
Ferramenta de aquecimento do WhatsApp com IA automatiza envio em massa enquanto evita banimentos de contas.
GenPPT.AI
GenPPT.AI
Criador de PPT movido por IA que cria, embeleza e exporta apresentações profissionais do PowerPoint com notas do orador e gráficos em minutos.
Wan 2.7
Wan 2.7
Modelo de vídeo AI de nível profissional com controle preciso de movimento e consistência multiview.
Hitem3D
Hitem3D
Hitem3D converte uma única imagem em modelos 3D de alta resolução, prontos para produção, usando IA.
happy horse AI
happy horse AI
Gerador de vídeo de IA de código aberto que cria vídeo e áudio sincronizados a partir de texto ou imagens.
Seedance 20 Video
Seedance 20 Video
Seedance 2 é um gerador de vídeo IA multimodal que oferece personagens consistentes, narrativa em múltiplas tomadas e áudio nativo em 2K.
AI FIRST
AI FIRST
Assistente conversacional de IA que automatiza pesquisa, tarefas no navegador, web scraping e gerenciamento de arquivos através de linguagem natural.
Veemo - AI Video Generator
Veemo - AI Video Generator
Veemo AI é uma plataforma tudo-em-um que gera rapidamente vídeos e imagens de alta qualidade a partir de texto ou imagens.
Manga Translator AI
Manga Translator AI
AI Manga Translator traduz instantaneamente imagens de mangá para múltiplos idiomas online.
TextToHuman
TextToHuman
Humanizador de IA gratuito que reescreve instantaneamente texto gerado por IA para uma escrita natural, parecida com a humana. Não é necessário cadastro.
Video Sora 2
Video Sora 2
Sora 2 AI transforma texto ou imagens em vídeos curtos para redes sociais e e‑commerce, com movimento fisicamente preciso, em minutos.
Remy - Newsletter Summarizer
Remy - Newsletter Summarizer
Remy automatiza a gestão de newsletters ao resumir e-mails em insights fáceis de digerir.

Interfaze lança diffusion-gemma-asr-small, apostando que a decodificação por difusão pode remodelar a transcrição aberta de fala

A Interfaze lançou o diffusion-gemma-asr-small, um modelo de ASR de código aberto para seis idiomas que testa a decodificação por difusão como um novo caminho para a IA de fala.