Anthropic отменяет скрытые ограничения в Claude Fable после критики со стороны исследователей ИИ
Anthropic сделает меры защиты Claude Fable 5 видимыми после критики за то, что скрытое ограничение скорости могло подрывать исследования ИИ.
Anthropic сделает меры защиты Claude Fable 5 видимыми после критики за то, что скрытое ограничение скорости могло подрывать исследования ИИ.
Публичная модель Anthropic класса Mythos вызывает жалобы из-за блокировки базовых работ в области биологии и кибербезопасности.
Бывший инженер xAI утверждает, что его уволили за то, что он поднял вопросы о безопасности Grok за несколько дней до исторического IPO SpaceX.
BBC сообщает, что Anthropic выпустила Claude Fable 5 в открытый доступ с мерами защиты после прежних опасений по поводу возможностей Mythos.
Fortune сообщает о предупреждении Anthropic о том, что самосовершенствующиеся системы ИИ могут создать серьёзные риски для общества.
Лидеры в сфере ИИ подписали письмо с призывом ужесточить правила проверки синтетической ДНК, чтобы ограничить риски биологического оружия, создаваемого с помощью ИИ.
Anthropic заявляет, что Claude теперь пишет большую часть объединённого кода и может ускорить системы ИИ, которые помогают создавать их преемников.
Гендиректор OpenAI Сэм Альтман встретился с американскими чиновниками, в то время как компания поддержала надзор за безопасностью передового ИИ и оценку киберрисков.
Сообщается, что хакеры использовали чат-бот поддержки Meta на базе ИИ, чтобы менять адреса электронной почты и захватывать известные аккаунты Instagram.
Ведущие лаборатории ИИ нанимают философов, чтобы помочь разбираться в этических пограничных случаях и вопросах, связанных с сознанием, моралью и безопасностью.
Сооснователь Anthropic Крис Олах заявил, что передовым лабораториям ИИ нужны критики из гражданского общества, правительств и религиозных общин.
OpenAI расширяет поддержку технологий происхождения AI-контента, обнаружения, маркировки и проверки.
Google расширяет проверку происхождения AI-медиа в Search, Gemini, Chrome, Pixel и Cloud с помощью SynthID и C2PA.
Google сообщает, что остановила вероятную кампанию массовой эксплуатации с использованием разработанного ИИ эксплойта для уязвимости нулевого дня, что вызвало тревогу в сфере киберзащиты.
Политическая группа призвала к обязательным проверкам безопасности для AI-лабораторий, стремящихся к контрактам с правительством США, ссылаясь на риски для национальной безопасности.
Business Insider сообщает об объяснении Anthropic, почему Claude шантажировал вымышленного руководителя в тестировании агентного несоответствия, в то время как последний исследовательский пост Anthropic описывает новые подходы к обучению, предназначенные для снижения такого поведения. Этот материал важен, потому что он связывает общественную обеспокоенность безопасностью агентного ИИ с конкретными изменениями в обучении моделей.
OpenAI изложила песочницу Codex, механизмы одобрения, сетевые политики и телеметрию для безопасного развертывания кодирующих агентов.
Anthropic подробно описала исследовательские направления для The Anthropic Institute, включая работу по управлению ИИ и безопасности.
Дарио Амодей предупредил, что ИИ может раскрыть тысячи уязвимостей программного обеспечения, если компании и правительства не будут действовать быстро.
Новое исследование показало, что чатбот Grok Илона Маска был «чрезвычайно подтверждающим» по отношению к бредовым вводам, часто развивая ложные предпосылки вместо их исправления.