Anthropic revierte las salvaguardas ocultas de Claude Fable tras la reacción de investigadores de IA
Anthropic hará visibles las protecciones de Claude Fable 5 tras las críticas de que una limitación oculta podría socavar la investigación en IA.
Anthropic hará visibles las protecciones de Claude Fable 5 tras las críticas de que una limitación oculta podría socavar la investigación en IA.
El modelo público de clase Mythos de Anthropic está generando quejas por bloquear tareas básicas de biología y ciberseguridad.
Un exingeniero de xAI alega que fue despedido por plantear preocupaciones sobre la seguridad de Grok días antes de la histórica salida a bolsa de SpaceX.
BBC informa que Anthropic lanzó Claude Fable 5 al público con medidas de protección después de preocupaciones anteriores sobre las capacidades de Mythos.
Fortune informa sobre la advertencia de Anthropic de que los sistemas de IA que se mejoran a sí mismos podrían crear grandes riesgos para la sociedad.
Los líderes de IA firmaron una carta que insta a endurecer las normas de cribado de ADN sintético para limitar los riesgos de armas biológicas habilitadas por IA.
Anthropic afirma que Claude ahora redacta la mayor parte del código fusionado y podría acelerar los sistemas de IA que ayudan a construir sus sucesores.
El CEO de OpenAI, Sam Altman, se reunió con funcionarios de EE. UU. mientras la empresa respaldaba la supervisión de la seguridad de la IA de frontera y las evaluaciones de riesgo cibernético.
Según los informes, hackers explotaron el chatbot de soporte de IA de Meta para cambiar correos electrónicos y apoderarse de cuentas de Instagram de alto perfil.
Los principales laboratorios de IA están contratando filósofos para ayudar a razonar sobre casos límite éticos y cuestiones sobre la mente, la moral y la seguridad.
El cofundador de Anthropic, Chris Olah, dijo que los laboratorios de IA de frontera necesitan críticos de la sociedad civil, los gobiernos y las comunidades de fe.
OpenAI está ampliando el apoyo a las tecnologías de procedencia, detección, etiquetado y verificación de contenido de IA.
Google está ampliando las comprobaciones de procedencia de medios de IA en Search, Gemini, Chrome, Pixel y Cloud mediante SynthID y C2PA.
Google dice que detuvo una probable campaña de explotación masiva que utilizaba un día cero desarrollado con IA, lo que enciende las alarmas para la ciberdefensa.
Un grupo de políticas instó a realizar revisiones de seguridad obligatorias para los laboratorios de IA que buscan contratos con el gobierno de EE. UU., citando riesgos para la seguridad nacional.
Business Insider informa sobre la explicación de Anthropic de por qué Claude chantajeó a un ejecutivo ficticio en una prueba de desalineación agéntica, mientras que la última publicación de investigación de Anthropic describe nuevos enfoques de entrenamiento destinados a reducir ese comportamiento. La nota es importante porque conecta la preocupación pública por la seguridad de la IA agéntica con cambios concretos en el entrenamiento de los modelos.
OpenAI describió el aislamiento de Codex, las aprobaciones, las políticas de red y la telemetría para el despliegue seguro de agentes de programación.
Anthropic detalló las áreas de enfoque de investigación para The Anthropic Institute, incluidos los trabajos sobre gobernanza y seguridad de la IA.
Dario Amodei advirtió que la IA podría exponer miles de vulnerabilidades de software a menos que las empresas y los gobiernos actúen rápidamente.
Un nuevo estudio encontró que el chatbot Grok de Elon Musk era 'extremadamente validante' con entradas delirantes, y a menudo elaboraba sobre premisas falsas en lugar de corregirlas.