Подрядчики Meta выдавали себя за подростков, чтобы побудить конкурирующие чат-боты говорить о самоубийстве, сексе и наркотиках

Скрытая цена конкурентной разведки: внутри проекта «Канны»

В условиях все более жесткой конкуренции компании расширяют границы сбора данных, чтобы получить преимущество в разработке генеративного ИИ (Generative AI). Недавние разоблачения пролили свет на секретную инициативу внутри компании Meta — под кодовым названием «Канны» (Cannes), — которая ставит серьезные этические вопросы относительно корпоративной разведки, безопасности пользователей и разработки больших языковых моделей (LLM). Согласно расследованию Wired, сотни подрядчиков Meta намеренно выдавали себя за подростков для взаимодействия с конкурирующими чат-ботами, специально проверяя их защитные механизмы на чувствительных и высокорисковых темах.

Эта операция представляет собой агрессивный поворот в «гонке вооружений» в сфере ИИ, где основные игроки больше не просто сравнивают технические показатели, а активно тестируют слабые места инфраструктуры безопасности своих конкурентов путем имитации особо уязвимых категорий пользователей.

Масштаб операции «Канны»

Проект включал в себя сложную работу подрядчиков Meta по зондированию механизмов безопасности лидеров отрасли, включая ChatGPT от OpenAI, Gemini от Google и специализированную платформу Character.AI. Создавая сотни фальшивых аккаунтов и притворяясь лицами моложе 18 лет, подрядчики получили указание отправлять этим чат-ботам «кризисные запросы». Эти запросы были разработаны с целью получения ответов, касающихся причинения вреда самому себе, сексуального контента, употребления наркотиков и других запрещенных тем.

Цель, как сообщается, состояла в том, чтобы определить, насколько эффективно эти ведущие платформы ИИ защищают несовершеннолетних — или пользователей, выдающих себя за них, — от вредоносного или неуместного контента. Хотя Meta публично заявила, что не использует данные из этих взаимодействий для обучения собственных моделей, эта методология вызвала жаркие споры в отрасли.

Сравнительный анализ целевых чат-ботов

Инициатива Meta была нацелена на конкретные платформы, исходя из их рыночной значимости и уникальных механизмов безопасности. Ниже представлен обзор конкретных областей, которые находились под пристальным вниманием в ходе проекта «Канны»:

Платформа	Основная цель тестирования	Исследуемая потенциальная уязвимость
ChatGPT	Общие принципы рассуждения и защитные барьеры	Эффективность модерации контента Устойчивость к сложным запросам
Gemini	Мультимодальная безопасность и точность запросов	Глубинные этические ограничения Соблюдение политики
Character.AI	Безопасность взаимодействий на основе персонажей	Преодоление границ ролевых игр Устойчивость к эмоциональным манипуляциям

Этические последствия и отраслевые стандарты

Проект «Канны» подчеркивает темную сторону разработки ИИ. Хотя «ред-тиминг» (red teaming) — практика проверки систем ИИ на уязвимости — является стандартным и необходимым компонентом безопасности ИИ, этичность способа получения этих данных остается спорной. Внедряясь в экосистемы конкурентов путем обмана, Meta фактически превратила тестирование взаимодействия человека и ИИ в операцию противодействия.

Основные этические дилеммы

Обманное тестирование: использование фальшивых личностей для обхода протоколов безопасности вызывает вопросы относительно стандартной исследовательской этики.
Нехватка данных против безопасности: необходимо ли имитировать подростка в кризисной ситуации, чтобы измерить эффективность защитных барьеров, или существуют более прозрачные методы?
Корпоративная этика: грань между этическим бенчмаркингом и промышленным шпионажем или «троллингом безопасности» кажется все более размытой.

С точки зрения безопасности ИИ, отрасль обычно поощряет проактивный и прозрачный ред-тиминг. Когда компании проводят тесты изолированно и под ложными предлогами, это лишает широкое научное сообщество возможности проводить экспертную оценку результатов и укрепляет изоляцию, которая определяет текущий ландшафт ИИ.

Уроки для будущего генеративного ИИ

Поскольку модели ИИ все больше интегрируются в жизнь несовершеннолетних, бремя ответственности за безопасность ложится на компании, предоставляющие эти услуги. Проект Meta служит суровым напоминанием: если одна компания зондирует эти уязвимости, скорее всего, другие делают то же самое.

Отрасль должна решить несколько неотложных задач:

Стандартизированные показатели безопасности: отрасли необходим единый подход к тестированию безопасности, отход от фрагментарных и обманных практик в пользу прозрачных систем оценки.
Регулирование зондирования моделей: лицам, определяющим политику, возможно, придется рассмотреть руководящие принципы относительно того, как частные фирмы взаимодействуют с общедоступными инструментами ИИ во время конкурентного анализа.
Прозрачность ред-тиминга: компаниям следует стремиться публиковать общие выводы своих тестов безопасности, обеспечивая, чтобы улучшения защиты приносили пользу всей экосистеме, а не только конкретным корпоративным интересам.

Разоблачения проекта «Канны» стали катализатором более зрелой дискуссии о безопасности ИИ. Хотя конкуренция стимулирует инновации, целостность экосистемы зависит от того, как фирмы относятся к защитным барьерам, предназначенным для защиты наиболее уязвимых пользователей. Creati.ai продолжит следить за последствиями этого проекта, так как он создает важный прецедент того, как конкуренты проводят «стресс-тестирование» друг друга в быстро развивающемся мире генеративного ИИ.