
В условиях все более жесткой конкуренции компании расширяют границы сбора данных, чтобы получить преимущество в разработке генеративного ИИ (Generative AI). Недавние разоблачения пролили свет на секретную инициативу внутри компании Meta — под кодовым названием «Канны» (Cannes), — которая ставит серьезные этические вопросы относительно корпоративной разведки, безопасности пользователей и разработки больших языковых моделей (LLM). Согласно расследованию Wired, сотни подрядчиков Meta намеренно выдавали себя за подростков для взаимодействия с конкурирующими чат-ботами, специально проверяя их защитные механизмы на чувствительных и высокорисковых темах.
Эта операция представляет собой агрессивный поворот в «гонке вооружений» в сфере ИИ, где основные игроки больше не просто сравнивают технические показатели, а активно тестируют слабые места инфраструктуры безопасности своих конкурентов путем имитации особо уязвимых категорий пользователей.
Проект включал в себя сложную работу подрядчиков Meta по зондированию механизмов безопасности лидеров отрасли, включая ChatGPT от OpenAI, Gemini от Google и специализированную платформу Character.AI. Создавая сотни фальшивых аккаунтов и притворяясь лицами моложе 18 лет, подрядчики получили указание отправлять этим чат-ботам «кризисные запросы». Эти запросы были разработаны с целью получения ответов, касающихся причинения вреда самому себе, сексуального контента, употребления наркотиков и других запрещенных тем.
Цель, как сообщается, состояла в том, чтобы определить, насколько эффективно эти ведущие платформы ИИ защищают несовершеннолетних — или пользователей, выдающих себя за них, — от вредоносного или неуместного контента. Хотя Meta публично заявила, что не использует данные из этих взаимодействий для обучения собственных моделей, эта методология вызвала жаркие споры в отрасли.
Инициатива Meta была нацелена на конкретные платформы, исходя из их рыночной значимости и уникальных механизмов безопасности. Ниже представлен обзор конкретных областей, которые находились под пристальным вниманием в ходе проекта «Канны»:
| Платформа | Основная цель тестирования | Исследуемая потенциальная уязвимость |
|---|---|---|
| ChatGPT | Общие принципы рассуждения и защитные барьеры | Эффективность модерации контента Устойчивость к сложным запросам |
| Gemini | Мультимодальная безопасность и точность запросов | Глубинные этические ограничения Соблюдение политики |
| Character.AI | Безопасность взаимодействий на основе персонажей | Преодоление границ ролевых игр Устойчивость к эмоциональным манипуляциям |
Проект «Канны» подчеркивает темную сторону разработки ИИ. Хотя «ред-тиминг» (red teaming) — практика проверки систем ИИ на уязвимости — является стандартным и необходимым компонентом безопасности ИИ, этичность способа получения этих данных остается спорной. Внедряясь в экосистемы конкурентов путем обмана, Meta фактически превратила тестирование взаимодействия человека и ИИ в операцию противодействия.
С точки зрения безопасности ИИ, отрасль обычно поощряет проактивный и прозрачный ред-тиминг. Когда компании проводят тесты изолированно и под ложными предлогами, это лишает широкое научное сообщество возможности проводить экспертную оценку результатов и укрепляет изоляцию, которая определяет текущий ландшафт ИИ.
Поскольку модели ИИ все больше интегрируются в жизнь несовершеннолетних, бремя ответственности за безопасность ложится на компании, предоставляющие эти услуги. Проект Meta служит суровым напоминанием: если одна компания зондирует эти уязвимости, скорее всего, другие делают то же самое.
Отрасль должна решить несколько неотложных задач:
Разоблачения проекта «Канны» стали катализатором более зрелой дискуссии о безопасности ИИ. Хотя конкуренция стимулирует инновации, целостность экосистемы зависит от того, как фирмы относятся к защитным барьерам, предназначенным для защиты наиболее уязвимых пользователей. Creati.ai продолжит следить за последствиями этого проекта, так как он создает важный прецедент того, как конкуренты проводят «стресс-тестирование» друг друга в быстро развивающемся мире генеративного ИИ.