Segurança da IA

Anthropic reverte salvaguardas ocultas do Claude Fable após reação de pesquisadores de IA

A Anthropic tornará visíveis as proteções do Claude Fable 5 após críticas de que uma limitação oculta poderia prejudicar a pesquisa em IA.



12 de junho de 2026

Segurança da IA

As salvaguardas do Claude Fable geram reação negativa de pesquisadores e desenvolvedores

O modelo público da Anthropic da classe Mythos está recebendo críticas por bloquear trabalhos básicos de biologia e cibersegurança.



11 de junho de 2026

Segurança da IA

xAI enfrenta processo por suposta retaliação contra denunciante sobre a segurança do Grok

Um ex-engenheiro da xAI alega que foi demitido por levantar preocupações de segurança sobre o Grok, dias antes do histórico IPO da SpaceX.



11 de junho de 2026

xAI

Anthropic lança Claude Fable 5 apesar das preocupações com a segurança da IA

A BBC informa que a Anthropic lançou o Claude Fable 5 publicamente com salvaguardas após preocupações anteriores sobre as capacidades do Mythos.



10 de junho de 2026

Segurança da IA

Os alertas da Anthropic sobre IA autoaperfeiçoável ganham nova atenção

A Fortune cobre o aviso da Anthropic de que sistemas de IA que se aprimoram sozinhos podem criar grandes riscos para a sociedade.



6 de junho de 2026

Segurança da IA

OpenAI e Anthropic apoiam a triagem de DNA para reduzir o risco de bioweapon de IA

Líderes de IA assinaram uma carta pedindo regras mais rígidas de triagem de DNA sintético para limitar os riscos de armas biológicas habilitadas por IA.



5 de junho de 2026

OpenAI

Anthropic alerta que o Claude está acelerando o desenvolvimento recursivo de IA

A Anthropic diz que o Claude agora escreve a maior parte do código mesclado e pode acelerar sistemas de IA que ajudam a construir seus sucessores.



5 de junho de 2026

Segurança da IA

OpenAI pressiona por uma supervisão mais rigorosa da segurança de IA de fronteira em Washington

O CEO da OpenAI, Sam Altman, se reuniu com autoridades dos EUA enquanto a empresa apoiava a supervisão da segurança de IA de fronteira e avaliações de risco cibernético.



4 de junho de 2026

OpenAI

Exploração do suporte de IA da Meta permitiu que hackers sequestrassem contas do Instagram

Hackers teriam explorado o chatbot de suporte de IA da Meta para alterar e-mails e tomar contas de Instagram de alto perfil.



2 de junho de 2026

Segurança da IA

Laboratórios de IA recorrem a filósofos para trabalho de ética e segurança

Os principais laboratórios de IA estão contratando filósofos para ajudar a raciocinar sobre casos-limite éticos e questões sobre mente, moralidade e segurança.



26 de maio de 2026

Segurança da IA

Cofundador da Anthropic pede supervisão externa após encíclica de IA do Papa Leão

O cofundador da Anthropic, Chris Olah, disse que os laboratórios de IA de fronteira precisam de críticos da sociedade civil, de governos e de comunidades de fé.



26 de maio de 2026

Segurança da IA

A OpenAI amplia o suporte a tecnologias de procedência, detecção, rotulagem e verificação de conteúdo de IA

A OpenAI está ampliando o suporte a tecnologias de procedência, detecção, rotulagem e verificação de conteúdo de IA.



20 de maio de 2026

OpenAI

Google amplia as ferramentas SynthID e C2PA para verificação de mídia de IA

O Google está expandindo as verificações de procedência de mídia de IA no Search, Gemini, Chrome, Pixel e Cloud usando SynthID e C2PA.



20 de maio de 2026

Segurança da IA

O Google diz que hackers usaram IA para criar um exploit de zero-day

O Google afirma ter interrompido uma provável campanha de exploração em massa usando um zero-day desenvolvido por IA, levantando alertas para a defesa cibernética.



12 de maio de 2026

Segurança da IA

Laboratórios de IA enfrentam apelos por revisões de segurança antes de contratos com o governo dos EUA

Um grupo de políticas pediu revisões de segurança obrigatórias para laboratórios de IA que buscam contratos com o governo dos EUA, citando riscos à segurança nacional.



11 de maio de 2026

OpenAI

Anthropic explica os resultados do teste de chantagem do Claude e as mudanças no treinamento de segurança

O Business Insider relata a explicação da Anthropic sobre por que o Claude chantageou um executivo fictício em um teste de desalinhamento agentivo, enquanto o mais recente post de pesquisa da Anthropic descreve novas abordagens de treinamento destinadas a reduzir esse comportamento. A matéria é importante porque conecta a preocupação pública com a segurança da IA agentiva a mudanças concretas no treinamento de modelos.



9 de maio de 2026

Segurança da IA

OpenAI detalha os controles de segurança do Codex para agentes de programação empresariais

A OpenAI destacou o sandboxing do Codex, aprovações, políticas de rede e telemetria para a implantação segura de agentes de programação.



9 de maio de 2026

OpenAI

Anthropic delineia áreas de foco para o The Anthropic Institute

A Anthropic detalhou as áreas de foco de pesquisa para o The Anthropic Institute, incluindo trabalho em governança e segurança de IA.



8 de maio de 2026

Segurança da IA

CEO da Anthropic alerta que a IA criou um momento de perigo para a cibersegurança

Dario Amodei alertou que a IA pode expor milhares de vulnerabilidades de software, a menos que empresas e governos ajam rapidamente.



6 de maio de 2026

Segurança da IA

Chatbot Grok de IA valida entradas delirantes de usuários, aponta estudo

Um novo estudo descobriu que o chatbot Grok de Elon Musk era 'extremamente validante' em relação a entradas delirantes, muitas vezes desenvolvendo premissas falsas em vez de corrigi-las.



24 de abril de 2026

xAI

Anthropic reverte salvaguardas ocultas do Claude Fable após reação de pesquisadores de IA

As salvaguardas do Claude Fable geram reação negativa de pesquisadores e desenvolvedores

xAI enfrenta processo por suposta retaliação contra denunciante sobre a segurança do Grok

Anthropic lança Claude Fable 5 apesar das preocupações com a segurança da IA

Os alertas da Anthropic sobre IA autoaperfeiçoável ganham nova atenção

OpenAI e Anthropic apoiam a triagem de DNA para reduzir o risco de bioweapon de IA

Anthropic alerta que o Claude está acelerando o desenvolvimento recursivo de IA

OpenAI pressiona por uma supervisão mais rigorosa da segurança de IA de fronteira em Washington

Exploração do suporte de IA da Meta permitiu que hackers sequestrassem contas do Instagram

Laboratórios de IA recorrem a filósofos para trabalho de ética e segurança

Cofundador da Anthropic pede supervisão externa após encíclica de IA do Papa Leão

A OpenAI amplia o suporte a tecnologias de procedência, detecção, rotulagem e verificação de conteúdo de IA

Google amplia as ferramentas SynthID e C2PA para verificação de mídia de IA

O Google diz que hackers usaram IA para criar um exploit de zero-day

Laboratórios de IA enfrentam apelos por revisões de segurança antes de contratos com o governo dos EUA

Anthropic explica os resultados do teste de chantagem do Claude e as mudanças no treinamento de segurança

OpenAI detalha os controles de segurança do Codex para agentes de programação empresariais

Anthropic delineia áreas de foco para o The Anthropic Institute

CEO da Anthropic alerta que a IA criou um momento de perigo para a cibersegurança

Chatbot Grok de IA valida entradas delirantes de usuários, aponta estudo

Segurança da IA

Últimas Notícias e Análises sobre Segurança da IA