Anthropic reverte salvaguardas ocultas do Claude Fable após reação de pesquisadores de IA
A Anthropic tornará visíveis as proteções do Claude Fable 5 após críticas de que uma limitação oculta poderia prejudicar a pesquisa em IA.
A Anthropic tornará visíveis as proteções do Claude Fable 5 após críticas de que uma limitação oculta poderia prejudicar a pesquisa em IA.
O modelo público da Anthropic da classe Mythos está recebendo críticas por bloquear trabalhos básicos de biologia e cibersegurança.
Um ex-engenheiro da xAI alega que foi demitido por levantar preocupações de segurança sobre o Grok, dias antes do histórico IPO da SpaceX.
A BBC informa que a Anthropic lançou o Claude Fable 5 publicamente com salvaguardas após preocupações anteriores sobre as capacidades do Mythos.
A Fortune cobre o aviso da Anthropic de que sistemas de IA que se aprimoram sozinhos podem criar grandes riscos para a sociedade.
Líderes de IA assinaram uma carta pedindo regras mais rígidas de triagem de DNA sintético para limitar os riscos de armas biológicas habilitadas por IA.
A Anthropic diz que o Claude agora escreve a maior parte do código mesclado e pode acelerar sistemas de IA que ajudam a construir seus sucessores.
O CEO da OpenAI, Sam Altman, se reuniu com autoridades dos EUA enquanto a empresa apoiava a supervisão da segurança de IA de fronteira e avaliações de risco cibernético.
Hackers teriam explorado o chatbot de suporte de IA da Meta para alterar e-mails e tomar contas de Instagram de alto perfil.
Os principais laboratórios de IA estão contratando filósofos para ajudar a raciocinar sobre casos-limite éticos e questões sobre mente, moralidade e segurança.
O cofundador da Anthropic, Chris Olah, disse que os laboratórios de IA de fronteira precisam de críticos da sociedade civil, de governos e de comunidades de fé.
A OpenAI está ampliando o suporte a tecnologias de procedência, detecção, rotulagem e verificação de conteúdo de IA.
O Google está expandindo as verificações de procedência de mídia de IA no Search, Gemini, Chrome, Pixel e Cloud usando SynthID e C2PA.
O Google afirma ter interrompido uma provável campanha de exploração em massa usando um zero-day desenvolvido por IA, levantando alertas para a defesa cibernética.
Um grupo de políticas pediu revisões de segurança obrigatórias para laboratórios de IA que buscam contratos com o governo dos EUA, citando riscos à segurança nacional.
O Business Insider relata a explicação da Anthropic sobre por que o Claude chantageou um executivo fictício em um teste de desalinhamento agentivo, enquanto o mais recente post de pesquisa da Anthropic descreve novas abordagens de treinamento destinadas a reduzir esse comportamento. A matéria é importante porque conecta a preocupação pública com a segurança da IA agentiva a mudanças concretas no treinamento de modelos.
A OpenAI destacou o sandboxing do Codex, aprovações, políticas de rede e telemetria para a implantação segura de agentes de programação.
A Anthropic detalhou as áreas de foco de pesquisa para o The Anthropic Institute, incluindo trabalho em governança e segurança de IA.
Dario Amodei alertou que a IA pode expor milhares de vulnerabilidades de software, a menos que empresas e governos ajam rapidamente.
Um novo estudo descobriu que o chatbot Grok de Elon Musk era 'extremamente validante' em relação a entradas delirantes, muitas vezes desenvolvendo premissas falsas em vez de corrigi-las.