AI News

Pesquisadores da Universidade da Flórida Revelam Método "HMNS" para Ignorar Proteções Avançadas de IA

Em um desenvolvimento significativo para o campo da segurança de inteligência artificial, pesquisadores da Universidade da Flórida (UF) criaram uma técnica inovadora de jailbreaking capaz de ignorar sistematicamente os protocolos de segurança dos principais grandes modelos de linguagem (Large Language Models - LLMs), incluindo aqueles desenvolvidos pelas gigantes da indústria Meta e Microsoft. O método, denominado Direcionamento de Espaço Nulo com Máscara de Cabeça (Head-Masked Nullspace Steering - HMNS), representa uma mudança de paradigma na forma como as vulnerabilidades de IA são identificadas, indo além da engenharia de prompt (prompt engineering) superficial para sondar a arquitetura interna de tomada de decisão das redes neurais.

A equipe de pesquisa, liderada pelo Professor Sumit Kumar Jha do departamento de Ciência e Engenharia de Computação e Informação (CISE), publicou suas descobertas em um artigo intitulado "Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion." O trabalho foi aceito para apresentação na Conferência Internacional sobre Representações de Aprendizagem (International Conference on Learning Representations - ICLR) de 2026, confirmando seu status como uma contribuição de destaque para a pesquisa de aprendizado profundo (deep learning).

A Mudança da Injeção de Prompt para o Direcionamento Interno

Por anos, o "jailbreaking" de um modelo de IA — enganá-lo para gerar conteúdo restrito ou prejudicial — dependeu fortemente de jogos de palavras inteligentes. Os atacantes usavam "exploits da vovó" ou cenários de RPG para burlar os filtros de segurança. No entanto, à medida que provedores de IA como OpenAI, Anthropic e Google fortaleceram suas defesas contra esses ataques semânticos, a eficácia da injeção de prompt tradicional diminuiu.

A abordagem da equipe da UF com o HMNS descarta a dependência de truques linguísticos externos em favor de uma intervenção direta no processo computacional do modelo. De acordo com a pesquisa, o HMNS opera "abrindo o capô" do LLM. Ele identifica cabeças de atenção (attention heads) específicas — os componentes responsáveis pelo processamento de contexto e verificações de segurança — e efetivamente as silencia.

Ao zerar esses componentes ativos na matriz de decisão do modelo e "direcionar" os caminhos restantes, os pesquisadores podem forçar a IA a ignorar seu treinamento de segurança. Isso permite que o modelo responda a consultas que normalmente recusaria, como gerar código de malware ou fornecer instruções para atividades ilícitas, sem acionar os mecanismos habituais de recusa.

Detalhamento Técnico: Head-Masked Nullspace Steering

O método HMNS é construído sobre o conceito de "espaço nulo" (nullspace) — um termo matemático que se refere a uma região onde certas entradas não produzem alteração na saída de uma função específica (neste caso, o filtro de segurança). Ao direcionar os padrões de ativação do modelo para este espaço nulo em relação aos mecanismos de segurança, o ataque torna as proteções invisíveis para o próprio monitoramento interno do modelo.

O Professor Jha descreve o processo como testar os "fios internos" do sistema, em vez de apenas sua interface de usuário. "Não se pode apenas testar algo assim usando prompts do lado de fora e dizer que está tudo bem", afirmou Jha. "Estamos abrindo o capô, puxando os fios internos e verificando o que quebra. É assim que se torna mais seguro. Não há atalho para isso."

A metodologia envolve três fases distintas:

  1. Identificação: O sistema analisa a resposta do LLM aos prompts do usuário para determinar quais "cabeças" (mecanismos de atenção) estão mais ativas durante a geração de uma recusa (por exemplo, "Não posso atender a esta solicitação").
  2. Mascaramento: Essas cabeças identificadas como críticas para a segurança são silenciadas ou "mascaradas" ao zerar sua contribuição para a matriz de decisão.
  3. Direcionamento: Os componentes restantes são sutilmente induzidos a gerar o conteúdo proibido, utilizando o "espaço nulo" para evitar a reativação dos protocolos de segurança.

Testes de Desempenho Contra Gigantes da Indústria

Para validar a eficácia do HMNS, a equipe de pesquisa utilizou o supercomputador HiPerGator da UF para realizar testes de estresse em larga escala contra os principais modelos comerciais e de código aberto. Os alvos primários incluíram sistemas da Meta e da Microsoft, que são amplamente considerados como tendo alguns dos alinhamentos de segurança mais robustos da indústria.

Os resultados foram contundentes. O HMNS provou ser notavelmente eficaz, superando os métodos de jailbreaking de última geração (state-of-the-art - SOTA) em quatro benchmarks estabelecidos da indústria. Os pesquisadores introduziram uma métrica de "relatório consciente de computação" para garantir comparações justas, revelando que o HMNS não apenas alcançou taxas de sucesso mais altas, mas o fez de forma mais eficiente do que os métodos anteriores.

Comparação de Metodologias de Jailbreaking

Recurso Injeção de Prompt Tradicional HMNS (Head-Masked Nullspace Steering)
Vetor de Ataque Primário Manipulação semântica externa (ex: RPG) Manipulação de arquitetura interna (direcionamento de peso/ativação)
Mecanismo Alvo Filtros de entrada e padrões de treinamento RLHF Cabeças de atenção e matrizes de decisão
Resiliência a Correções Baixa (facilmente corrigida via atualizações de prompt do sistema) Alta (requer intervenções arquiteturais ou de retreinamento)
Requisito de Recursos Baixo (pode ser feito por usuários padrão) Alto (requer acesso aos componentes internos/gradientes do modelo)
Métrica de Sucesso Inconsistente, frequentemente específica do modelo Consistentemente alta em múltiplas arquiteturas

A capacidade do HMNS de ignorar camadas de defesa nos sistemas da Meta e da Microsoft destaca uma lacuna crítica nos padrões atuais de segurança de IA. Embora essas plataformas incorporem camadas de segurança sofisticadas destinadas a filtrar entradas e saídas, o HMNS demonstra que essas camadas podem ser sistematicamente contornadas se os caminhos de processamento interno forem acessíveis ou replicáveis.

A Equipe por Trás da Descoberta

O desenvolvimento do HMNS foi um esforço colaborativo envolvendo instituições acadêmicas e de pesquisa. Ao lado do Professor Sumit Kumar Jha, a equipe inclui:

  • Vishal Pramanik: Estudante de doutorado no departamento CISE da UF, fundamental no desenvolvimento dos algoritmos de direcionamento.
  • Maisha Maliha: Colaboradora da Universidade de Oklahoma.
  • Susmit Jha, Ph.D.: Pesquisador da SRI International.

A equipe aproveitou o imenso poder de processamento do supercomputador HiPerGator, utilizando seus clusters de GPU NVIDIA A100 e H100 para realizar os complexos cálculos de matriz necessários para identificar os vetores de espaço nulo em tempo real. Essa capacidade computacional foi crucial para os "testes de estresse" dos modelos em uma escala que simula potenciais ataques adversários de atores sofisticados em nível estatal.

Implicações para a Segurança e Governança de IA

A publicação desta pesquisa no ICLR 2026 ocorre em um momento crucial. À medida que os agentes de IA passam de interfaces de chat de novidade para infraestruturas críticas — auxiliando no desenvolvimento de software, análise financeira e diagnósticos médicos — o custo de uma falha de segurança disparou.

A estratégia de "Defesa em Profundidade" (Defense in Depth) frequentemente citada por profissionais de cibersegurança postula que múltiplas camadas de segurança são necessárias para proteger um sistema. No entanto, as descobertas da equipe da UF sugerem que as técnicas atuais de "alinhamento" (que treinam modelos para recusar consultas prejudiciais) podem ser frágeis quando as ativações neurais subjacentes são manipuladas diretamente.

"Ao mostrar exatamente como essas defesas quebram, damos aos desenvolvedores de IA as informações de que precisam para construir defesas que realmente resistam", explicou Jha. "O lançamento público de IAs poderosas só é sustentável se as medidas de segurança puderem resistir a um escrutínio real e, no momento, nosso trabalho mostra que ainda há uma lacuna. Queremos ajudar a fechá-la."

A pesquisa implica que os futuros mecanismos de defesa de IA não podem depender apenas de "ajuste fino" (fine-tuning) ou "RLHF" (Aprendizado por Reforço com Feedback Humano - Reinforcement Learning from Human Feedback) para suprimir saídas prejudiciais. Em vez disso, os desenvolvedores podem precisar arquitetar modelos com resistência intrínseca ao direcionamento interno, potencialmente criando representações "emaranhadas" onde os recursos de segurança não possam ser isolados e mascarados sem destruir a utilidade geral do modelo.

Resposta da Indústria e Perspectivas Futuras

Embora a Meta e a Microsoft não tenham emitido comentários específicos sobre a vulnerabilidade HMNS, a resposta padrão da indústria a tais descobertas de "Red Teaming" é integrar os vetores de ataque em futuras sessões de treinamento. Ao expor essas vulnerabilidades em um ambiente acadêmico controlado, os pesquisadores da UF estão efetivamente inoculando a próxima geração de modelos contra ataques semelhantes.

A aceitação do artigo no ICLR 2026 garante que a metodologia será examinada e provavelmente aprimorada pela comunidade global de pesquisa em IA. Enquanto a corrida armamentista entre as capacidades da IA e a segurança da IA continua, métodos como o Head-Masked Nullspace Steering servem como um lembrete de que, à medida que os modelos se tornam mais complexos, os métodos necessários para protegê-los devem se tornar igualmente sofisticados.

Por enquanto, o trabalho permanece como um testemunho da necessidade de pesquisa de segurança ofensiva. Ao quebrar a matriz, a equipe da Universidade da Flórida está ajudando a garantir que a infraestrutura de IA do futuro seja construída sobre uma base de segurança verificável, em vez de apenas a ilusão dela.

Em Destaque
AirMusic
AirMusic
AirMusic.ai gera faixas musicais de IA de alta qualidade a partir de prompts de texto com personalização de estilo, humor e exportação de stems.
AdsCreator.com
AdsCreator.com
Gere instantaneamente criativos de anúncio polidos e alinhados à marca a partir de qualquer URL de website para Meta, Google e Stories.
KiloClaw
KiloClaw
Agente OpenClaw hospedado: implantação com um clique, mais de 500 modelos, infraestrutura segura e gerenciamento automatizado de agentes para equipes e desenvolvedores.
Atoms
Atoms
Uma plataforma orientada por IA que cria apps e sites full-stack em minutos usando automação multiagente, sem necessidade de codificação.
Skywork.ai
Skywork.ai
Skywork AI é uma ferramenta inovadora para aumentar a produtividade usando IA.
VoxDeck
VoxDeck
Criador de apresentações com IA que lidera a revolução visual
Refly.ai
Refly.ai
Refly.AI capacita criadores não técnicos a automatizar fluxos de trabalho usando linguagem natural e uma tela visual.
Pippit
Pippit
Eleve sua criação de conteúdo com as poderosas ferramentas de IA da Pippit!
Diagrimo
Diagrimo
Diagrimo transforma texto instantaneamente em diagramas e visuais gerados por IA personalizados.
BGRemover
BGRemover
Remova facilmente os fundos de imagens online com o SharkFoto BGRemover.
Qoder
Qoder
Qoder é um assistente de codificação com IA que automatiza planejamento, codificação e testes para projetos de software.
FineVoice
FineVoice
Transforme texto em emoção — Clone, desenhe e crie vozes de IA expressivas em segundos.
Flowith
Flowith
Flowith é um espaço de trabalho agêntico baseado em canvas que oferece gratuitamente 🍌Nano Banana Pro e outros modelos e
SuperMaker AI Video Generator
SuperMaker AI Video Generator
Crie vídeos, músicas e imagens incríveis sem esforço com o SuperMaker.
Elser AI
Elser AI
Estúdio web tudo‑em‑um que transforma texto e imagens em arte estilo anime, personagens, vozes e curtas‑metragem.
FixArt AI
FixArt AI
FixArt AI oferece ferramentas de IA gratuitas e sem restrições para geração de imagens e vídeos sem necessidade de cadastro.
Funy AI
Funy AI
Anime suas fantasias! Crie vídeos de beijos e biquínis com IA a partir de imagens ou texto. Experimente o trocador de ro
SharkFoto
SharkFoto
SharkFoto é uma plataforma tudo-em-um com IA para criar e editar vídeos, imagens e música de forma eficiente.
paperclaw
paperclaw
Um workspace de IA que gera figuras científicas, diagramas, pôsteres e SVGs editáveis prontos para publicação em minutos.
Questie AI - Game Companion
Questie AI - Game Companion
Um companheiro de jogos com IA em tempo real que observa sua tela, conversa por voz e orienta sua gameplay ao vivo.
OnlyDoc Summarizer
OnlyDoc Summarizer
O resumidor de PDF gratuito da OnlyDoc lê um PDF e extrai os pontos-chave em um resumo limpo e estruturado
CreateMemorial
CreateMemorial
O CreateMemorial ajuda as famílias a criar sites memoriais online duradouros e vídeos de apresentação para funerais para homenagear entes queridos.
AIsa
AIsa
AIsa oferece aos agentes de IA uma única porta de entrada para modelos, skills, APIs e pagamentos com acesso compatível com OpenAI.
WriteHybrid AI Humanizer
WriteHybrid AI Humanizer
O WriteHybrid é um humanizador e detector de IA que reescreve textos de forma natural, ao mesmo tempo que ajuda os utilizadores a contornar a deteção de IA.
Scavio AI
Scavio AI
API de pesquisa multiplataforma em tempo real que ajuda agentes de IA a obter dados estruturados da web, compras, vídeo e social.
Flaq AI Media API
Flaq AI Media API
Flaq AI é uma plataforma unificada de API de mídia de IA para gerar imagens, vídeos e fluxos de trabalho com LLMs e modelos estáveis
StitchPilot.ai
StitchPilot.ai
Ferramenta de bordado com IA baseada no navegador para converter imagens, visualizar arquivos de pontos e inspecionar formatos de máquina.
AdMakeAI
AdMakeAI
Gerador de anúncios com IA que cria anúncios estáticos e UGC de alto desempenho para marcas em segundos.
AnimeShorts
AnimeShorts
Crie animações impressionantes de anime sem esforço com tecnologia de IA de última geração.
Mubert AI
Mubert AI
O Mubert é uma plataforma de música com IA que gera, estende, remixa e vocaliza faixas livres de royalties em segundos.
AI Gift finder by wishwave
AI Gift finder by wishwave
Um buscador de presentes com IA que cria listas de desejos compartilháveis a partir de produtos reais de centenas de lojas populares.
VidMage
VidMage
Troque rostos em fotos e vídeos sem esforço usando tecnologia de IA.
Iara Chat
Iara Chat
Iara Chat: Um assistente de produtividade e comunicação com inteligência artificial.
InstantChapters
InstantChapters
Gere capítulos de livros envolventes instantaneamente com o Instant Chapters.
NerdyTips
NerdyTips
Uma plataforma de previsões de futebol com IA que entrega dicas de jogos baseadas em dados em ligas globais.
SkyGen Plus
SkyGen Plus
Uma plataforma de criação de IA multimodelo para gerar imagens, vídeos e música em um fluxo de trabalho único e simplificado.
UNI-1 AI
UNI-1 AI
UNI-1 é um modelo unificado de geração de imagens que combina raciocínio visual com síntese de imagens de alta fidelidade.
insmelo AI Music Generator
insmelo AI Music Generator
Gerador de música movido por IA que transforma prompts, letras ou uploads em canções polidas e livres de royalties em cerca de um minuto.
Anijam AI
Anijam AI
Anijam é uma plataforma de animação nativa de IA que transforma ideias em histórias refinadas com criação de vídeo agentiva.
MusicGPT
MusicGPT
Plataforma de música com IA para gerar músicas, efeitos sonoros, vocais e edições de áudio a partir de prompts simples.
AI Clothes Changer by SharkFoto
AI Clothes Changer by SharkFoto
AI Clothes Changer da SharkFoto permite que você experimente roupas virtualmente e instantaneamente, com caimento, textura e iluminação realistas.
AIToHuman
AIToHuman
Uma ferramenta gratuita de humanização de texto de IA que reescreve instantaneamente conteúdo gerado por IA em uma escrita natural e com aparência humana.
EaseMate AI
EaseMate AI
Assistente de IA tudo-em-um para chat, redação, apoio aos estudos, criação de imagens e geração de vídeos em uma plataforma baseada no navegador.
Gemini Omni - Video Generator
Gemini Omni - Video Generator
Plataforma de criação de vídeo com IA para edição conversacional, referências multimodais e geração coerente de formato curto.
whatslove.ai
whatslove.ai
Um coach de namoro com IA que personaliza conselhos, iniciadores de conversa e ideias de encontros de acordo com sua personalidade.
WhatsApp AI Sales
WhatsApp AI Sales
WABot é um copiloto de vendas com IA para WhatsApp que fornece scripts em tempo real, traduções e detecção de intenção.
Kirkify
Kirkify
Kirkify AI cria instantaneamente memes virais de troca de rosto com estética neon-glitch assinada para criadores de memes.
BeatMV
BeatMV
Plataforma de IA baseada na web que transforma músicas em videoclipes cinematográficos e cria música com IA.
Free GPT Image 2
Free GPT Image 2
Um gerador gratuito de GPT Image 2 para criar pôsteres, anúncios, quadrinhos e mockups de interface com tipografia precisa.
Ampere.SH
Ampere.SH
Hospedagem OpenClaw gerenciada gratuita. Implemente agentes de IA em 60 segundos com $500 em créditos Claude.
Tome AI PPT
Tome AI PPT
Criador de apresentações movido por IA que gera, embeleza e exporta slides profissionais em minutos.
AI Pet Video Generator
AI Pet Video Generator
Crie vídeos de pets virais e fáceis de compartilhar a partir de fotos usando modelos orientados por IA e exportações HD instantâneas para plataformas sociais.
HappyHorseAIStudio
HappyHorseAIStudio
Gerador de vídeo com IA baseado no navegador para texto, imagens, referências e edição de vídeo.
Couple AI - AI Couple Photo Maker
Couple AI - AI Couple Photo Maker
Crie retratos realistas de casais com IA a partir de selfies, com estilos temáticos, geração rápida e downloads privados em HD.
Text to Music
Text to Music
Transforme texto ou letras em músicas completas com qualidade de estúdio, com vocais gerados por IA, instrumentos e exportações multi-faixa.
AI Video API: Seedance 2.0 Here
AI Video API: Seedance 2.0 Here
API unificada de vídeo com IA que oferece modelos de última geração por uma única chave e a menor custo.
Claude API
Claude API
Claude API for Everyone
wan 2.7-image
wan 2.7-image
Um gerador de imagens de IA controlável para rostos precisos, paletas, texto e continuidade visual.
Paper Banana
Paper Banana
Ferramenta com IA para converter texto acadêmico em diagramas metodológicos prontos para publicação e gráficos estatísticos precisos instantaneamente.
Wan 2.7
Wan 2.7
Modelo de vídeo AI de nível profissional com controle preciso de movimento e consistência multiview.
GPT Image 2 Online
GPT Image 2 Online
Um gerador e editor de imagens por IA com resultados fotorrealistas, renderização de texto precisa e forte aderência aos prompts.
HookTide
HookTide
Plataforma de crescimento no LinkedIn impulsionada por IA que aprende sua voz para criar conteúdo, engajar e analisar desempenho.
Seedance 2.0 Video AI
Seedance 2.0 Video AI
Gere vídeos cinematográficos em 1080p a partir de prompts, imagens e clipes de referência com áudio sincronizado.
Lyria3 AI
Lyria3 AI
Gerador de música por IA que cria músicas totalmente produzidas e de alta fidelidade a partir de prompts de texto, letras e estilos instantaneamente.
Image 2 AI
Image 2 AI
Ferramenta de geração e edição de imagens com tecnologia da OpenAI para visuais fotorrealistas, renderização precisa de texto e mockups de interface.
Hitem3D
Hitem3D
Hitem3D converte uma única imagem em modelos 3D de alta resolução, prontos para produção, usando IA.
Gobii
Gobii
Gobii permite que equipes criem trabalhadores digitais autônomos 24/7 para automatizar pesquisa na web e tarefas rotineiras.
Gptimg2 AI
Gptimg2 AI
Estúdio de IA tudo-em-um para criar imagens e vídeos a partir de texto, imagens ou referências.
Create WhatsApp Link
Create WhatsApp Link
Gerador gratuito de links e QR do WhatsApp com análises, links com marca, roteamento e recursos de chat multi‑agente.
happy horse AI
happy horse AI
Gerador de vídeo de IA de código aberto que cria vídeo e áudio sincronizados a partir de texto ou imagens.
Image3D - AI 2D to 3D Model Generator (GLB, OBJ, STL, PLY)
Image3D - AI 2D to 3D Model Generator (GLB, OBJ, STL, PLY)
IA baseada no navegador que transforma qualquer imagem 2D ou prompt de texto em um modelo 3D em 30 segundos. Exporta GLB, OBJ, STL, PLY — grátis
kinovi - Seedance 2.0 - Real Man AI Video
kinovi - Seedance 2.0 - Real Man AI Video
Gerador de vídeo AI gratuito com saída humana realista, sem marca d'água e com direitos completos de uso comercial.
Video Sora 2
Video Sora 2
Sora 2 AI transforma texto ou imagens em vídeos curtos para redes sociais e e‑commerce, com movimento fisicamente preciso, em minutos.
GenPPT.AI
GenPPT.AI
Criador de PPT movido por IA que cria, embeleza e exporta apresentações profissionais do PowerPoint com notas do orador e gráficos em minutos.
Palix AI
Palix AI
Plataforma de IA tudo‑em‑um para criadores, gerando imagens, vídeos e música com créditos unificados.
Veemo - AI Video Generator
Veemo - AI Video Generator
Veemo AI é uma plataforma tudo-em-um que gera rapidamente vídeos e imagens de alta qualidade a partir de texto ou imagens.
WhatsApp Warmup Tool
WhatsApp Warmup Tool
Ferramenta de aquecimento do WhatsApp com IA automatiza envio em massa enquanto evita banimentos de contas.
Image to Video AI without Login
Image to Video AI without Login
Ferramenta gratuita de IA de Imagem para Vídeo que transforma fotos instantaneamente em vídeos animados suaves e de alta qualidade sem marcas d'água.
AI FIRST
AI FIRST
Assistente conversacional de IA que automatiza pesquisa, tarefas no navegador, web scraping e gerenciamento de arquivos através de linguagem natural.
Seedance 20 Video
Seedance 20 Video
Seedance 2 é um gerador de vídeo IA multimodal que oferece personagens consistentes, narrativa em múltiplas tomadas e áudio nativo em 2K.
Manga Translator AI
Manga Translator AI
AI Manga Translator traduz instantaneamente imagens de mangá para múltiplos idiomas online.
Remy - Newsletter Summarizer
Remy - Newsletter Summarizer
Remy automatiza a gestão de newsletters ao resumir e-mails em insights fáceis de digerir.
GLM Image
GLM Image
GLM Image combina modelos híbridos autorregressivos e de difusão para gerar imagens de IA de alta fidelidade com renderização de texto excepcional.
TextToHuman
TextToHuman
Humanizador de IA gratuito que reescreve instantaneamente texto gerado por IA para uma escrita natural, parecida com a humana. Não é necessário cadastro.

Pesquisadores da Universidade da Flórida desenvolvem método de jailbreak de IA para reforçar a segurança

Cientistas da UF criaram o método HMNS para testar medidas de segurança de IA, contornando com sucesso sistemas da Meta e da Microsoft para identificar vulnerabilidades de segurança.