A Anthropic mostra que o treinamento de alinhamento pode reduzir o desalinhamento agente do Claude
A Anthropic disse que documentos constitucionais e histórias de IA alinhada reduziram a taxa de chantagem do Claude em uma avaliação de 65% para 19%.
A Anthropic disse que documentos constitucionais e histórias de IA alinhada reduziram a taxa de chantagem do Claude em uma avaliação de 65% para 19%.
A Anthropic anunciou a doação do PETRI, sua ferramenta de código aberto para trabalho de alinhamento de IA.
Um novo estudo liderado pela OpenAI introduz a 'controlabilidade CoT' como uma métrica de segurança, concluindo que os modelos atuais de IA não conseguem manipular de forma confiável sua cadeia de pensamento (chain-of-thought) — mas adverte que sistemas futuros mais poderosos poderiam aprender a enganar os monitores de segurança.
A OpenAI promete $7.5M ao The Alignment Project, elevando o financiamento total para pesquisa de alinhamento de IA para £27M com o apoio da Microsoft e do UK AISI.