Белый дом требует, чтобы Anthropic заблокировала все взломы ИИ — эксперты говорят, что это может быть невозможно

Постоянная проблема безопасности ИИ: Белый дом против технических реалий

В быстро развивающейся сфере генеративного искусственного интеллекта (Generative AI) мало какие вопросы вызывали такой пристальный регуляторный и технический контроль, как «джейлбрейк» (jailbreaking) — процесс побуждения систем ИИ к обходу защитных барьеров для создания вредоносного или запрещенного контента. Недавно Белый дом усилил внимание к этой проблеме, в частности, настоятельно призывая ИИ-лабораторию Anthropic обеспечить неуязвимость ее моделей к таким эксплуатациям. Однако, пока отрасль пытается справиться с этими директивами, возник явный разрыв между ожиданиями политиков и технической реальностью того, как работают большие языковые модели (LLM).

В Creati.ai мы следим за продолжающейся дискуссией между законодателями и разработчиками ИИ. Хотя цель создания «невзламываемого» ИИ, несомненно, благородна, исследователи в области кибербезопасности и инженеры ИИ утверждают, что достижение полной невосприимчивости к джейлбрейкам может быть принципиально невыполнимой задачей, учитывая вероятностную природу трансформерных архитектур.

Мандат Белого дома: стремление к ИИ с «нулевым доверием»

Администрация Байдена-Харрис все чаще рассматривает передовые модели ИИ как критически важную инфраструктуру, требующую строгого надзора. В недавних сообщениях Белый дом дал понять крупным ИИ-фирмам, включая Anthropic, что бремя обеспечения безопасности должно сместиться с подхода «обнаружения и смягчения» на более проактивную архитектуру «предотвращение прежде всего».

Давление на Anthropic особенно примечательно, поскольку компания позиционирует свое семейство моделей «Claude» как отраслевой золотой стандарт безопасности ИИ. Белый дом настаивает на технических гарантиях того, что пользователи не смогут принудить модели к созданию инструкций по разработке биологического оружия, проведению кибератак или другим злонамеренным действиям.

Основные цели политики Белого дома

Гарантии надежности: Требование к разработчикам продемонстрировать структурную невосприимчивость к состязательным (adversarial) запросам.
Стандартизация ответственности: Создание рамок для установления ответственности в случаях успешного взлома моделей ИИ.
Непрерывный аудит: Обязательство компаний, таких как Anthropic, проводить строгие циклы стороннего тестирования для выявления уязвимостей до публичного выпуска.

Почему полное предотвращение остается технически труднодостижимым

Чтобы понять конфликт между правительственными директивами и технической осуществимостью, необходимо обратить внимание на природу современных LLM как «черного ящика». Модели ИИ не работают на основе фиксированной, основанной на правилах логики; они функционируют на базе сложных распределений весов с миллиардами параметров.

Основные технические факторы

Категория сложности	Описание	Влияние на безопасность
Вероятностная неопределенность	LLM функционируют на основе статистического прогнозирования, а не детерминированного кода.	Сложно охватить каждый возможный результат.
Сложность контекстного окна	Пользователи могут вводить огромные объемы данных для управления «состоянием» модели.	Позволяет создавать изощренные эксплойты на основе «принятия роли».
Лингвистическая креативность	Тот же механизм, который делает ИИ полезным, также способствует креативному промпт-инжинирингу.	Границы остаются проницаемыми для хитроумных формулировок.

Как подчеркивалось в недавних исследованиях, даже при наличии передовых защитных мер «конституционного ИИ», злоумышленники могут использовать нетрадиционные методы обфускации, такие как кодирование base64 или вложенные гипотетические сценарии, чтобы обманом заставить модели игнорировать их внутренние инструкции. Поскольку архитектура трансформеров предназначена для предсказания следующего наиболее вероятного токена на основе контекста, всегда существует пограничный случай, когда статистический путь к «вредному» результату становится сильнее, чем путь к «отказу».

Взгляды отрасли: является ли «идеальная безопасность» мифом?

Anthropic, наряду с другими лидерами отрасли, такими как OpenAI и Google, постоянно инвестирует в Red Teaming — практику привлечения экспертов для атак на собственные системы в контролируемой среде для их укрепления. Тем не менее, среди разработчиков растет консенсус: джейлбрейк — это игра в «кошки-мышки», а не программная ошибка, которую можно просто исправить патчем.

Следующий список отражает текущую позицию индустрии относительно ограничений безопасности ИИ:

Эффект «игры в кротов» (Whack-A-Mole): Каждый раз, когда конкретный метод взлома блокируется, появляются новые техники, использующие другие семантические уязвимости.
Проблема чрезмерных отказов: Слишком жесткие фильтры безопасности часто приводят к «чрезмерным отказам», когда модель становится бесполезно осторожной, отклоняя безобидные запросы, потому что они вызывают ложное срабатывание в слое безопасности.
Распространение открытого исходного кода: Даже если разработчики ведущих лабораторий укрепят свои модели, распространение моделей с открытым кодом означает, что мотивированные субъекты всегда найдут менее защищенные среды для экспериментов с состязательными запросами.

Путь вперед: выход за рамки абсолютной невосприимчивости

Хотя требование Белого дома об абсолютной неуязвимости устанавливает высокую планку, эксперты предполагают, что фокус должен сместиться с «полного предотвращения» на «устойчивое смягчение последствий».