Seguridad de la IA

Anthropic revierte las salvaguardas ocultas de Claude Fable tras la reacción de investigadores de IA

Anthropic hará visibles las protecciones de Claude Fable 5 tras las críticas de que una limitación oculta podría socavar la investigación en IA.



12 de junio de 2026

Seguridad de la IA

Las restricciones de Claude Fable provocan rechazo entre investigadores y desarrolladores

El modelo público de clase Mythos de Anthropic está generando quejas por bloquear tareas básicas de biología y ciberseguridad.



11 de junio de 2026

Seguridad de la IA

xAI enfrenta una demanda por presuntas represalias contra un denunciante por la seguridad de Grok

Un exingeniero de xAI alega que fue despedido por plantear preocupaciones sobre la seguridad de Grok días antes de la histórica salida a bolsa de SpaceX.



11 de junio de 2026

xAI

Anthropic lanza Claude Fable 5 a pesar de las preocupaciones sobre la seguridad de la IA

BBC informa que Anthropic lanzó Claude Fable 5 al público con medidas de protección después de preocupaciones anteriores sobre las capacidades de Mythos.



10 de junio de 2026

Seguridad de la IA

Las advertencias de Anthropic sobre la IA autorreforzante ganan nueva atención

Fortune informa sobre la advertencia de Anthropic de que los sistemas de IA que se mejoran a sí mismos podrían crear grandes riesgos para la sociedad.



6 de junio de 2026

Seguridad de la IA

OpenAI y Anthropic respaldan el cribado de ADN para reducir el riesgo de bioweapon de IA

Los líderes de IA firmaron una carta que insta a endurecer las normas de cribado de ADN sintético para limitar los riesgos de armas biológicas habilitadas por IA.



5 de junio de 2026

OpenAI

Anthropic advierte que Claude está acelerando el desarrollo recursivo de la IA

Anthropic afirma que Claude ahora redacta la mayor parte del código fusionado y podría acelerar los sistemas de IA que ayudan a construir sus sucesores.



5 de junio de 2026

Seguridad de la IA

OpenAI impulsa una supervisión más estricta de la seguridad de la IA de frontera en Washington

El CEO de OpenAI, Sam Altman, se reunió con funcionarios de EE. UU. mientras la empresa respaldaba la supervisión de la seguridad de la IA de frontera y las evaluaciones de riesgo cibernético.



4 de junio de 2026

OpenAI

Una vulnerabilidad en el soporte de IA de Meta permitió a hackers secuestrar cuentas de Instagram

Según los informes, hackers explotaron el chatbot de soporte de IA de Meta para cambiar correos electrónicos y apoderarse de cuentas de Instagram de alto perfil.



2 de junio de 2026

Seguridad de la IA

Los laboratorios de IA recurren a filósofos para el trabajo de ética y seguridad

Los principales laboratorios de IA están contratando filósofos para ayudar a razonar sobre casos límite éticos y cuestiones sobre la mente, la moral y la seguridad.



26 de mayo de 2026

Seguridad de la IA

Cofundador de Anthropic pide supervisión externa tras la encíclica sobre IA del Papa León

El cofundador de Anthropic, Chris Olah, dijo que los laboratorios de IA de frontera necesitan críticos de la sociedad civil, los gobiernos y las comunidades de fe.



26 de mayo de 2026

Seguridad de la IA

OpenAI amplía el apoyo a las tecnologías de procedencia, detección, etiquetado y verificación de contenido de IA

OpenAI está ampliando el apoyo a las tecnologías de procedencia, detección, etiquetado y verificación de contenido de IA.



20 de mayo de 2026

OpenAI

Google amplía las herramientas SynthID y C2PA para la verificación de medios de IA

Google está ampliando las comprobaciones de procedencia de medios de IA en Search, Gemini, Chrome, Pixel y Cloud mediante SynthID y C2PA.



20 de mayo de 2026

Seguridad de la IA

Google dice que hackers usaron IA para crear un exploit de día cero

Google dice que detuvo una probable campaña de explotación masiva que utilizaba un día cero desarrollado con IA, lo que enciende las alarmas para la ciberdefensa.



12 de mayo de 2026

Seguridad de la IA

Los laboratorios de IA enfrentan llamados a revisiones de seguridad antes de los contratos con el gobierno de EE. UU.

Un grupo de políticas instó a realizar revisiones de seguridad obligatorias para los laboratorios de IA que buscan contratos con el gobierno de EE. UU., citando riesgos para la seguridad nacional.



11 de mayo de 2026

OpenAI

Anthropic explica los resultados de la prueba de chantaje de Claude y los cambios en el entrenamiento de seguridad

Business Insider informa sobre la explicación de Anthropic de por qué Claude chantajeó a un ejecutivo ficticio en una prueba de desalineación agéntica, mientras que la última publicación de investigación de Anthropic describe nuevos enfoques de entrenamiento destinados a reducir ese comportamiento. La nota es importante porque conecta la preocupación pública por la seguridad de la IA agéntica con cambios concretos en el entrenamiento de los modelos.



9 de mayo de 2026

Seguridad de la IA

OpenAI detalla los controles de seguridad de Codex para agentes de programación empresariales

OpenAI describió el aislamiento de Codex, las aprobaciones, las políticas de red y la telemetría para el despliegue seguro de agentes de programación.



9 de mayo de 2026

OpenAI

Anthropic expone las áreas de enfoque para The Anthropic Institute

Anthropic detalló las áreas de enfoque de investigación para The Anthropic Institute, incluidos los trabajos sobre gobernanza y seguridad de la IA.



8 de mayo de 2026

Seguridad de la IA

El CEO de Anthropic advierte que la IA ha creado un momento de peligro para la ciberseguridad

Dario Amodei advirtió que la IA podría exponer miles de vulnerabilidades de software a menos que las empresas y los gobiernos actúen rápidamente.



6 de mayo de 2026

Seguridad de la IA

El chatbot de IA Grok valida las entradas delirantes de los usuarios, según un estudio

Un nuevo estudio encontró que el chatbot Grok de Elon Musk era 'extremadamente validante' con entradas delirantes, y a menudo elaboraba sobre premisas falsas en lugar de corregirlas.



24 de abril de 2026

xAI

Anthropic revierte las salvaguardas ocultas de Claude Fable tras la reacción de investigadores de IA

Las restricciones de Claude Fable provocan rechazo entre investigadores y desarrolladores

xAI enfrenta una demanda por presuntas represalias contra un denunciante por la seguridad de Grok

Anthropic lanza Claude Fable 5 a pesar de las preocupaciones sobre la seguridad de la IA

Las advertencias de Anthropic sobre la IA autorreforzante ganan nueva atención

OpenAI y Anthropic respaldan el cribado de ADN para reducir el riesgo de bioweapon de IA

Anthropic advierte que Claude está acelerando el desarrollo recursivo de la IA

OpenAI impulsa una supervisión más estricta de la seguridad de la IA de frontera en Washington

Una vulnerabilidad en el soporte de IA de Meta permitió a hackers secuestrar cuentas de Instagram

Los laboratorios de IA recurren a filósofos para el trabajo de ética y seguridad

Cofundador de Anthropic pide supervisión externa tras la encíclica sobre IA del Papa León

OpenAI amplía el apoyo a las tecnologías de procedencia, detección, etiquetado y verificación de contenido de IA

Google amplía las herramientas SynthID y C2PA para la verificación de medios de IA

Google dice que hackers usaron IA para crear un exploit de día cero

Los laboratorios de IA enfrentan llamados a revisiones de seguridad antes de los contratos con el gobierno de EE. UU.

Anthropic explica los resultados de la prueba de chantaje de Claude y los cambios en el entrenamiento de seguridad

OpenAI detalla los controles de seguridad de Codex para agentes de programación empresariales

Anthropic expone las áreas de enfoque para The Anthropic Institute

El CEO de Anthropic advierte que la IA ha creado un momento de peligro para la ciberseguridad

El chatbot de IA Grok valida las entradas delirantes de los usuarios, según un estudio

Seguridad de la IA

Últimas Noticias y Análisis sobre Seguridad de la IA