AI News

Uma Nova Era para a Infraestrutura de IA: Inferact garante $150 Million para comercializar vLLM

Em um momento definidor para o panorama da infraestrutura de inteligência artificial, Inferact, a startup fundada pelos criadores do amplamente adotado motor de inferência open-source vLLM, saiu oficialmente do modo stealth com uma maciça rodada Seed de $150 million (Seed round). A rodada, que avalia a empresa nascente em impressionantes $800 million, foi co-liderada pelos titãs de capital de risco Andreessen Horowitz (a16z) e Lightspeed Venture Partners.

Esse financiamento representa uma das maiores rodadas seed da história do Vale do Silício, sinalizando uma mudança decisiva no foco dos investidores do treinamento de modelos para o serving (implantação) de modelos. À medida que a Inteligência Artificial Generativa (Generative AI) passa de laboratórios de pesquisa experimentais para produção em grande escala, a indústria enfrenta um novo gargalo: o custo exorbitante e a latência da inferência. A Inferact pretende resolver isso construindo a "camada universal de inferência" para empresas, aproveitando a ubiquidade do vLLM para padronizar como modelos de IA são implantados ao redor do globo.

Juntando-se a a16z e Lightspeed nesta rodada superinscrita estão Sequoia Capital, Altimeter Capital, Redpoint Ventures, e ZhenFund, criando uma coalizão de investidores que sublinha a importância estratégica da camada de inferência.

O Fenômeno vLLM: Do Laboratório de Berkeley ao Padrão da Indústria

Para entender a magnitude desse financiamento, é preciso olhar para a tecnologia que sustenta a Inferact. vLLM (Versatile Large Language Model) começou como um projeto de pesquisa na UC Berkeley, desenvolvido por uma equipe que inclui Simon Mo, Woosuk Kwon, Kaichao You, e Roger Wang. O objetivo deles era resolver uma ineficiência crítica em como os Large Language Models (LLMs) gerenciam memória durante a geração de texto.

O avanço veio na forma do PagedAttention, um algoritmo inspirado no paging de memória virtual em sistemas operacionais. Mecanismos de atenção tradicionais lutam com fragmentação de memória, levando ao desperdício de recursos de GPU — um pecado capital em uma era em que GPUs H100 são escassas e caras. O PagedAttention permite que o vLLM gerencie chaves e valores de atenção em blocos de memória não contíguos, aumentando drasticamente a taxa de transferência.

Desde seu lançamento open-source, o vLLM alcançou métricas de adoção viral que rivalizam com os primeiros dias do Kubernetes ou do Docker:

  • 400,000+ GPUs estima-se que estejam executando vLLM simultaneamente em todo o mundo.
  • Mais de 2,000 contribuidores se envolveram com o projeto no GitHub.
  • Adoção por grandes players de tecnologia, incluindo Meta, Google, e Character.ai.

A Inferact agora tem a responsabilidade de zelar por esse fenômeno open-source enquanto constrói uma plataforma comercial na qual empresas possam confiar para aplicações críticas.

Funding at a Glance

The following table outlines the key details of Inferact's historic seed round.

Metric Details Context
Round Size $150 Million One of the largest seed rounds in AI history
Valuation $800 Million Reflects high demand for inference optimization
Lead Investors Andreessen Horowitz (a16z), Lightspeed Leading top-tier deep tech firms
Key Participants Sequoia, Altimeter, Redpoint, ZhenFund Broad ecosystem support
Core Technology vLLM, PagedAttention High-throughput inference engine
Leadership Simon Mo, Woosuk Kwon, et al. Original creators of vLLM

---|---|---|

A Mudança do Treinamento para o Serving

O lançamento da Inferact coincide com uma transição fundamental na economia da IA. Nos últimos dois anos, os gastos de capital foram dominados pelo treinamento — construir clusters massivos para criar modelos de base como GPT-4, Claude e Llama 3. No entanto, à medida que esses modelos são implantados em produtos, o perfil de custos muda fortemente em direção à inferência.

Analistas da indústria apelidaram isso de Era do Throughput (Throughput Era), onde a métrica principal de sucesso não é mais apenas a qualidade do modelo, mas tokens por segundo por dólar. Rodar um modelo como Llama-3-70B em escala para milhões de usuários requer imensa potência computacional. Pilhas de software ineficientes podem resultar em picos de latência e contas de nuvem astronômicas, efetivamente destruindo a economia unitária de aplicações de IA.

Parceiros da Andreessen Horowitz observaram em sua tese de investimento que "software está se tornando mais crítico do que hardware." Simplesmente comprar mais NVIDIA H100s já não é uma estratégia viável se a pilha de software subjacente as utiliza a apenas 30% de eficiência. A proposta de valor da Inferact é desbloquear os 70% restantes do potencial computacional por meio de otimizações avançadas de software, atuando efetivamente como um multiplicador de força para investimentos em hardware.

Comercializando o Open Source: A Estratégia "Open Core"

A Inferact segue um caminho bem trilhado de empresas comerciais baseadas em open-source bem-sucedidas (COSS) como Databricks (Spark), Confluent (Kafka) e HashiCorp (Terraform). A empresa enfrenta o desafio clássico duplo: suportar uma comunidade gratuita próspera enquanto constrói valor proprietário para clientes pagantes.

Segundo o CEO Simon Mo, a estratégia comercial da Inferact foca em confiabilidade e escalabilidade em nível empresarial. Enquanto o motor open-source vLLM fornece a potência bruta do motor, as empresas exigem:

  • Infraestrutura Gerenciada: escalonamento automatizado, orquestração multi-nó e recuperação de falhas.
  • Segurança & Conformidade: conformidade SOC2, implantações em nuvem privada e manuseio seguro de modelos.
  • Kernels Otimizados: otimizações proprietárias para configurações de hardware específicas além do suporte geral open-source.
  • Garantias de SLA: vazão e latência asseguradas para aplicações críticas.

Esse modelo "Open Core" (Open Core) permite à Inferact manter o vLLM como o padrão da indústria — o "Linux da Inferência" (Linux of Inference) — executando em chips NVIDIA, AMD e Intel igualmente, enquanto captura valor de grandes organizações que não podem arcar com downtime ou complexidade não gerenciada.

Mergulho Técnico: Por que o PagedAttention Importa

A receita secreta por trás do domínio do vLLM, e por extensão da avaliação da Inferact, é o PagedAttention. No serving padrão de LLMs, o cache Key-Value (KV) — que armazena a memória da conversa até o momento — cresce dinamicamente. Sistemas tradicionais precisam pré-alocar blocos de memória contíguos para lidar com esse crescimento, levando a uma fragmentação severa. É como reservar um ônibus de 100 lugares para cada passageiro, caso ele traga 99 amigos.

O PagedAttention resolve isso quebrando o cache KV em blocos menores que podem ser armazenados em espaços de memória não contíguos. O motor vLLM mantém uma "tabela de páginas" para rastrear esses blocos, assim como um sistema operacional gerencia a RAM.

Benefícios Técnicos Chave:

  • Desperdício Zero: O desperdício de memória devido à fragmentação é reduzido a quase zero (<4%).
  • Tamanhos de Batch Maiores: Como a memória é usada de forma mais eficiente, o motor pode agrupar mais requisições.
  • Ganho de Throughput: Em benchmarks, o vLLM entrega consistentemente 2x a 4x maior throughput do que Transformers padrão do HuggingFace, sem comprometer a latência.

Para uma empresa que gasta $10 million anualmente em compute de inferência, implementar vLLM pode, teoricamente, reduzir essa conta para $2.5-$5 million simplesmente por melhor utilização de software. Esse ROI direto é o que torna a Inferact uma proposta tão atraente para investidores e clientes.

Implicações Estratégicas para o Ecossistema de IA

A chegada da Inferact com um caixa de guerra de $150 million envia ondas pelo ecossistema de IA.

  1. Pressão sobre Provedores de Nuvem: Grandes provedores de nuvem (AWS, Azure, Google Cloud) e provedores de API de modelos (Anyscale, Together AI, Fireworks) frequentemente constroem suas próprias pilhas de inferência. A Inferact oferece uma alternativa vendor-neutral que permite às empresas possuírem sua pilha de inferência em qualquer nuvem.
  2. Padronização: A fragmentação de motores de inferência (TensorRT-LLM, TGI, vLLM) tem sido uma dor de cabeça para desenvolvedores. A capitalização da Inferact sugere que o vLLM está posicionado para se tornar a API de fato padrão, simplificando a experiência do desenvolvedor.
  3. A "Taxa do Software": À medida que o hardware se torna comoditizado, a captura de valor migra para a camada de software que o orquestra. A Inferact aposta que o "sistema operacional" para LLMs será tão valioso quanto os chips em que eles rodam.

Olhando para a Frente

Com $150 million em capital fresco, a Inferact planeja expandir agressivamente sua equipe de engenharia, especificamente mirando hackers de kernel e especialistas em sistemas distribuídos. A empresa também visa aprofundar seu suporte para arquiteturas de hardware emergentes, garantindo que o vLLM permaneça o motor mais versátil em um mercado atualmente dominado pela NVIDIA.

À medida que a indústria de IA amadurece, a camada "chata" de infraestrutura — servir, escalar e otimizar — está se tornando a mais lucrativa. A Inferact não está apenas vendendo software; eles estão vendendo as picaretas para a próxima fase da corrida do ouro da IA: implantação.

Para empresas que lutam para transformar seus pilotos de Inteligência Artificial Generativa em produção devido a custos ou preocupações com latência, a Inferact oferece um salva-vidas. Para a comunidade open-source, o financiamento promete desenvolvimento sustentado do vLLM, garantindo que ele permaneça robusto e de ponta. A corrida para possuir a camada de inferência começou oficialmente, e a Inferact tomou uma liderança inicial e dominante.

Em Destaque
AirMusic
AirMusic
AirMusic.ai gera faixas musicais de IA de alta qualidade a partir de prompts de texto com personalização de estilo, humor e exportação de stems.
AdsCreator.com
AdsCreator.com
Gere instantaneamente criativos de anúncio polidos e alinhados à marca a partir de qualquer URL de website para Meta, Google e Stories.
KiloClaw
KiloClaw
Agente OpenClaw hospedado: implantação com um clique, mais de 500 modelos, infraestrutura segura e gerenciamento automatizado de agentes para equipes e desenvolvedores.
Atoms
Atoms
Uma plataforma orientada por IA que cria apps e sites full-stack em minutos usando automação multiagente, sem necessidade de codificação.
VoxDeck
VoxDeck
Criador de apresentações com IA que lidera a revolução visual
Skywork.ai
Skywork.ai
Skywork AI é uma ferramenta inovadora para aumentar a produtividade usando IA.
Refly.ai
Refly.ai
Refly.AI capacita criadores não técnicos a automatizar fluxos de trabalho usando linguagem natural e uma tela visual.
Pippit
Pippit
Eleve sua criação de conteúdo com as poderosas ferramentas de IA da Pippit!
Diagrimo
Diagrimo
Diagrimo transforma texto instantaneamente em diagramas e visuais gerados por IA personalizados.
BGRemover
BGRemover
Remova facilmente os fundos de imagens online com o SharkFoto BGRemover.
Qoder
Qoder
Qoder é um assistente de codificação com IA que automatiza planejamento, codificação e testes para projetos de software.
FineVoice
FineVoice
Transforme texto em emoção — Clone, desenhe e crie vozes de IA expressivas em segundos.
Flowith
Flowith
Flowith é um espaço de trabalho agêntico baseado em canvas que oferece gratuitamente 🍌Nano Banana Pro e outros modelos e
SuperMaker AI Video Generator
SuperMaker AI Video Generator
Crie vídeos, músicas e imagens incríveis sem esforço com o SuperMaker.
Elser AI
Elser AI
Estúdio web tudo‑em‑um que transforma texto e imagens em arte estilo anime, personagens, vozes e curtas‑metragem.
FixArt AI
FixArt AI
FixArt AI oferece ferramentas de IA gratuitas e sem restrições para geração de imagens e vídeos sem necessidade de cadastro.
Funy AI
Funy AI
Anime suas fantasias! Crie vídeos de beijos e biquínis com IA a partir de imagens ou texto. Experimente o trocador de ro
SharkFoto
SharkFoto
SharkFoto é uma plataforma tudo-em-um com IA para criar e editar vídeos, imagens e música de forma eficiente.
paperclaw
paperclaw
Um workspace de IA que gera figuras científicas, diagramas, pôsteres e SVGs editáveis prontos para publicação em minutos.
Questie AI - Game Companion
Questie AI - Game Companion
Um companheiro de jogos com IA em tempo real que observa sua tela, conversa por voz e orienta sua gameplay ao vivo.
OnlyDoc Summarizer
OnlyDoc Summarizer
O resumidor de PDF gratuito da OnlyDoc lê um PDF e extrai os pontos-chave em um resumo limpo e estruturado
AnimeShorts
AnimeShorts
Crie animações impressionantes de anime sem esforço com tecnologia de IA de última geração.
CreateMemorial
CreateMemorial
O CreateMemorial ajuda as famílias a criar sites memoriais online duradouros e vídeos de apresentação para funerais para homenagear entes queridos.
AIsa
AIsa
AIsa oferece aos agentes de IA uma única porta de entrada para modelos, skills, APIs e pagamentos com acesso compatível com OpenAI.
StitchPilot.ai
StitchPilot.ai
Ferramenta de bordado com IA baseada no navegador para converter imagens, visualizar arquivos de pontos e inspecionar formatos de máquina.
Scavio AI
Scavio AI
API de pesquisa multiplataforma em tempo real que ajuda agentes de IA a obter dados estruturados da web, compras, vídeo e social.
Flaq AI Media API
Flaq AI Media API
Flaq AI é uma plataforma unificada de API de mídia de IA para gerar imagens, vídeos e fluxos de trabalho com LLMs e modelos estáveis
WriteHybrid AI Humanizer
WriteHybrid AI Humanizer
O WriteHybrid é um humanizador e detector de IA que reescreve textos de forma natural, ao mesmo tempo que ajuda os utilizadores a contornar a deteção de IA.
VidMage
VidMage
Troque rostos em fotos e vídeos sem esforço usando tecnologia de IA.
AdMakeAI
AdMakeAI
Gerador de anúncios com IA que cria anúncios estáticos e UGC de alto desempenho para marcas em segundos.
AI Gift finder by wishwave
AI Gift finder by wishwave
Um buscador de presentes com IA que cria listas de desejos compartilháveis a partir de produtos reais de centenas de lojas populares.
Iara Chat
Iara Chat
Iara Chat: Um assistente de produtividade e comunicação com inteligência artificial.
Mubert AI
Mubert AI
O Mubert é uma plataforma de música com IA que gera, estende, remixa e vocaliza faixas livres de royalties em segundos.
SkyGen Plus
SkyGen Plus
Uma plataforma de criação de IA multimodelo para gerar imagens, vídeos e música em um fluxo de trabalho único e simplificado.
InstantChapters
InstantChapters
Gere capítulos de livros envolventes instantaneamente com o Instant Chapters.
UNI-1 AI
UNI-1 AI
UNI-1 é um modelo unificado de geração de imagens que combina raciocínio visual com síntese de imagens de alta fidelidade.
NerdyTips
NerdyTips
Uma plataforma de previsões de futebol com IA que entrega dicas de jogos baseadas em dados em ligas globais.
insmelo AI Music Generator
insmelo AI Music Generator
Gerador de música movido por IA que transforma prompts, letras ou uploads em canções polidas e livres de royalties em cerca de um minuto.
EaseMate AI
EaseMate AI
Assistente de IA tudo-em-um para chat, redação, apoio aos estudos, criação de imagens e geração de vídeos em uma plataforma baseada no navegador.
MusicGPT
MusicGPT
Plataforma de música com IA para gerar músicas, efeitos sonoros, vocais e edições de áudio a partir de prompts simples.
AIToHuman
AIToHuman
Uma ferramenta gratuita de humanização de texto de IA que reescreve instantaneamente conteúdo gerado por IA em uma escrita natural e com aparência humana.
Gemini Omni - Video Generator
Gemini Omni - Video Generator
Plataforma de criação de vídeo com IA para edição conversacional, referências multimodais e geração coerente de formato curto.
AI Clothes Changer by SharkFoto
AI Clothes Changer by SharkFoto
AI Clothes Changer da SharkFoto permite que você experimente roupas virtualmente e instantaneamente, com caimento, textura e iluminação realistas.
Anijam AI
Anijam AI
Anijam é uma plataforma de animação nativa de IA que transforma ideias em histórias refinadas com criação de vídeo agentiva.
WhatsApp AI Sales
WhatsApp AI Sales
WABot é um copiloto de vendas com IA para WhatsApp que fornece scripts em tempo real, traduções e detecção de intenção.
BeatMV
BeatMV
Plataforma de IA baseada na web que transforma músicas em videoclipes cinematográficos e cria música com IA.
Kirkify
Kirkify
Kirkify AI cria instantaneamente memes virais de troca de rosto com estética neon-glitch assinada para criadores de memes.
whatslove.ai
whatslove.ai
Um coach de namoro com IA que personaliza conselhos, iniciadores de conversa e ideias de encontros de acordo com sua personalidade.
Tome AI PPT
Tome AI PPT
Criador de apresentações movido por IA que gera, embeleza e exporta slides profissionais em minutos.
AI Pet Video Generator
AI Pet Video Generator
Crie vídeos de pets virais e fáceis de compartilhar a partir de fotos usando modelos orientados por IA e exportações HD instantâneas para plataformas sociais.
Ampere.SH
Ampere.SH
Hospedagem OpenClaw gerenciada gratuita. Implemente agentes de IA em 60 segundos com $500 em créditos Claude.
HappyHorseAIStudio
HappyHorseAIStudio
Gerador de vídeo com IA baseado no navegador para texto, imagens, referências e edição de vídeo.
Text to Music
Text to Music
Transforme texto ou letras em músicas completas com qualidade de estúdio, com vocais gerados por IA, instrumentos e exportações multi-faixa.
Free GPT Image 2
Free GPT Image 2
Um gerador gratuito de GPT Image 2 para criar pôsteres, anúncios, quadrinhos e mockups de interface com tipografia precisa.
Claude API
Claude API
Claude API for Everyone
Couple AI - AI Couple Photo Maker
Couple AI - AI Couple Photo Maker
Crie retratos realistas de casais com IA a partir de selfies, com estilos temáticos, geração rápida e downloads privados em HD.
AI Video API: Seedance 2.0 Here
AI Video API: Seedance 2.0 Here
API unificada de vídeo com IA que oferece modelos de última geração por uma única chave e a menor custo.
GPT Image 2 Online
GPT Image 2 Online
Um gerador e editor de imagens por IA com resultados fotorrealistas, renderização de texto precisa e forte aderência aos prompts.
HookTide
HookTide
Plataforma de crescimento no LinkedIn impulsionada por IA que aprende sua voz para criar conteúdo, engajar e analisar desempenho.
Wan 2.7
Wan 2.7
Modelo de vídeo AI de nível profissional com controle preciso de movimento e consistência multiview.
wan 2.7-image
wan 2.7-image
Um gerador de imagens de IA controlável para rostos precisos, paletas, texto e continuidade visual.
Lyria3 AI
Lyria3 AI
Gerador de música por IA que cria músicas totalmente produzidas e de alta fidelidade a partir de prompts de texto, letras e estilos instantaneamente.
Seedance 2.0 Video AI
Seedance 2.0 Video AI
Gere vídeos cinematográficos em 1080p a partir de prompts, imagens e clipes de referência com áudio sincronizado.
Paper Banana
Paper Banana
Ferramenta com IA para converter texto acadêmico em diagramas metodológicos prontos para publicação e gráficos estatísticos precisos instantaneamente.
Image 2 AI
Image 2 AI
Ferramenta de geração e edição de imagens com tecnologia da OpenAI para visuais fotorrealistas, renderização precisa de texto e mockups de interface.
Gptimg2 AI
Gptimg2 AI
Estúdio de IA tudo-em-um para criar imagens e vídeos a partir de texto, imagens ou referências.
Hitem3D
Hitem3D
Hitem3D converte uma única imagem em modelos 3D de alta resolução, prontos para produção, usando IA.
Create WhatsApp Link
Create WhatsApp Link
Gerador gratuito de links e QR do WhatsApp com análises, links com marca, roteamento e recursos de chat multi‑agente.
Gobii
Gobii
Gobii permite que equipes criem trabalhadores digitais autônomos 24/7 para automatizar pesquisa na web e tarefas rotineiras.
happy horse AI
happy horse AI
Gerador de vídeo de IA de código aberto que cria vídeo e áudio sincronizados a partir de texto ou imagens.
Image3D - AI 2D to 3D Model Generator (GLB, OBJ, STL, PLY)
Image3D - AI 2D to 3D Model Generator (GLB, OBJ, STL, PLY)
IA baseada no navegador que transforma qualquer imagem 2D ou prompt de texto em um modelo 3D em 30 segundos. Exporta GLB, OBJ, STL, PLY — grátis
kinovi - Seedance 2.0 - Real Man AI Video
kinovi - Seedance 2.0 - Real Man AI Video
Gerador de vídeo AI gratuito com saída humana realista, sem marca d'água e com direitos completos de uso comercial.
GenPPT.AI
GenPPT.AI
Criador de PPT movido por IA que cria, embeleza e exporta apresentações profissionais do PowerPoint com notas do orador e gráficos em minutos.
Video Sora 2
Video Sora 2
Sora 2 AI transforma texto ou imagens em vídeos curtos para redes sociais e e‑commerce, com movimento fisicamente preciso, em minutos.
Palix AI
Palix AI
Plataforma de IA tudo‑em‑um para criadores, gerando imagens, vídeos e música com créditos unificados.
Image to Video AI without Login
Image to Video AI without Login
Ferramenta gratuita de IA de Imagem para Vídeo que transforma fotos instantaneamente em vídeos animados suaves e de alta qualidade sem marcas d'água.
Seedance 20 Video
Seedance 20 Video
Seedance 2 é um gerador de vídeo IA multimodal que oferece personagens consistentes, narrativa em múltiplas tomadas e áudio nativo em 2K.
AI FIRST
AI FIRST
Assistente conversacional de IA que automatiza pesquisa, tarefas no navegador, web scraping e gerenciamento de arquivos através de linguagem natural.
WhatsApp Warmup Tool
WhatsApp Warmup Tool
Ferramenta de aquecimento do WhatsApp com IA automatiza envio em massa enquanto evita banimentos de contas.
Veemo - AI Video Generator
Veemo - AI Video Generator
Veemo AI é uma plataforma tudo-em-um que gera rapidamente vídeos e imagens de alta qualidade a partir de texto ou imagens.
GLM Image
GLM Image
GLM Image combina modelos híbridos autorregressivos e de difusão para gerar imagens de IA de alta fidelidade com renderização de texto excepcional.
TextToHuman
TextToHuman
Humanizador de IA gratuito que reescreve instantaneamente texto gerado por IA para uma escrita natural, parecida com a humana. Não é necessário cadastro.
Manga Translator AI
Manga Translator AI
AI Manga Translator traduz instantaneamente imagens de mangá para múltiplos idiomas online.
Remy - Newsletter Summarizer
Remy - Newsletter Summarizer
Remy automatiza a gestão de newsletters ao resumir e-mails em insights fáceis de digerir.

Inferact, comercializando o vLLM, levanta US$150 milhões para impulsionar a inferência de IA

A startup Inferact, que comercializa o popular motor de inferência open-source vLLM, levantou uma rodada seed de US$150 milhões liderada pela Andreessen Horowitz e Lightspeed para acelerar a implantação de aplicações de IA.