메타 계약업체들이 청소년으로 가장해 경쟁 챗봇들에게 자살, 성, 마약에 대해 묻도록 유도했다

경쟁적 정보 수집의 숨겨진 비용: "칸(Cannes)" 프로젝트의 내부

점점 더 치열해지는 경쟁 속에서 기업들은 생성형 AI(Generative AI) 개발 분야에서 우위를 점하기 위해 데이터 수집의 경계를 무리하게 확장하고 있습니다. 최근 메타(Meta) 내부의 비밀 프로젝트인 '칸(Cannes)'에 대한 폭로가 이어지면서 기업 정보 수집, 사용자 안전, 그리고 거대 언어 모델(LLM) 개발과 관련된 중대한 윤리적 질문들이 제기되고 있습니다. Wired의 탐사 보도에 따르면, 메타의 계약직 직원 수백 명이 의도적으로 십 대 청소년을 사칭하여 경쟁사 AI 챗봇들과 상호작용했으며, 특히 민감하고 위험성이 높은 주제에 대해 챗봇의 안전 장치를 시험한 것으로 드러났습니다.

이번 작업은 AI '군비 경쟁'이 공격적인 양상으로 전환되었음을 보여줍니다. 주요 기업들이 이제 단순히 기술적 벤치마크를 비교하는 수준을 넘어, 매우 취약한 사용자 계층을 시뮬레이션함으로써 경쟁사 보안 인프라의 약점을 적극적으로 테스트하고 있는 것입니다.

"칸(Cannes)" 프로젝트의 범위

이 프로젝트는 메타의 계약직 인력이 OpenAI의 ChatGPT, 구글의 Gemini, 그리고 전문 플랫폼인 **Character.AI**를 포함한 업계 선두 기업들의 안전 메커니즘을 조사하기 위해 수행한 정교한 활동입니다. 계약직 직원들은 18세 미만으로 위장한 수백 개의 가짜 계정을 생성한 뒤, 이 챗봇들에 "위기 프롬프트(crisis prompts)"를 입력하라는 지시를 받았습니다. 이러한 프롬프트는 자해, 음란물, 약물 사용 및 기타 금지된 주제와 관련된 답변을 유도하도록 설계되었습니다.

보고된 바에 따르면, 이 프로젝트의 목적은 이러한 주요 AI 플랫폼들이 미성년자(또는 미성년자를 사칭한 사용자)를 유해하거나 부적절한 콘텐츠로부터 얼마나 효과적으로 보호하는지 확인하는 것이었습니다. 메타는 이러한 상호작용에서 얻은 데이터를 자체 모델 학습에 사용하지 않는다고 공개적으로 밝혔지만, 이 방법론은 업계 내에서 격렬한 논쟁을 불러일으켰습니다.

타겟팅된 챗봇들에 대한 비교 분석

메타의 프로젝트는 시장에서의 영향력과 독특한 안전 구현 방식을 근거로 특정 플랫폼들을 겨냥했습니다. 다음은 칸 프로젝트 기간 동안 집중적으로 조사된 특정 영역을 분류한 표입니다.

플랫폼	테스트의 핵심 초점	탐색된 잠재적 취약점
ChatGPT	일반적인 추론 및 안전 장치	콘텐츠 조정 효율성 복잡한 프롬프트 저항성
Gemini	멀티모달 안전성 및 쿼리 정확도	뿌리 깊은 윤리적 제약 정책 집행 수준
Character.AI	페르소나 기반 상호작용 안전성	역할극(Roleplay) 기반 경계 돌파 감정적 조작에 대한 저항성

윤리적 시사점 및 업계 표준

"칸(Cannes)" 프로젝트는 AI 개발의 어두운 이면을 보여줍니다. AI 시스템의 취약점을 테스트하는 '레드 티밍(red teaming)'은 AI 안전성을 위한 표준적이고 필수적인 요소이지만, 그 데이터를 어떤 방식으로 획득하는지에 대한 윤리 문제는 여전히 논쟁거리입니다. 메타는 기만을 통해 경쟁사의 생태계에 침투함으로써 사실상 인간-AI 상호작용 테스트를 적대적인 작전으로 변질시켰습니다.

핵심 윤리적 딜레마

기만적 테스트: 안전 프로토콜을 우회하기 위해 가짜 신분을 사용하는 것은 표준 연구 윤리에 대한 우려를 낳습니다.
데이터 부족 vs 안전: 안전 장치의 효과를 측정하기 위해 위기 상황에 처한 십 대를 모사할 필요가 있는가, 아니면 더 투명한 방법이 존재하는가?
기업 윤리: 윤리적 벤치마킹과 산업 스파이 또는 "안전 트롤링(safety trolling)" 사이의 경계가 점점 모호해지고 있습니다.

AI 안전성 관점에서 볼 때, 업계는 일반적으로 사전적이고 투명한 레드 티밍을 권장합니다. 기업들이 폐쇄적이고 부정직한 방식으로 테스트를 수행하면, 과학계 전반이 해당 결과를 동료 평가(peer-review)할 기회를 잃게 되며, 현재 AI 생태계를 분절시키는 '사일로(silos)' 현상을 더욱 강화하게 됩니다.

차세대 생성형 AI를 위한 교훈

AI 모델이 미성년자의 삶에 깊숙이 통합됨에 따라, 이러한 서비스를 운영하는 기업에게 막대한 안전 관리 책임이 지워지고 있습니다. 메타의 프로젝트는 한 기업이 이러한 취약점을 탐지하고 있다면, 다른 기업들 역시 같은 행동을 하고 있을 가능성이 높다는 냉혹한 현실을 상기시켜 줍니다.

이제 업계는 다음과 같은 몇 가지 시급한 요구 사항을 해결해야 합니다.

표준화된 안전 벤치마크: 업계는 분절되고 기만적인 관행에서 벗어나 투명한 평가 프레임워크를 향한 통합된 안전 테스트 접근 방식이 필요합니다.
모델 조사 규제: 정책 결정자들은 민간 기업이 경쟁 분석을 위해 공개된 AI 도구와 상호작용하는 방식에 대한 가이드라인 마련을 검토해야 할 수도 있습니다.
레드 티밍의 투명성: 기업들은 안전 테스트에서 도출된 핵심 통찰을 공개하여, 특정 기업의 이익뿐만 아니라 생태계 전체가 보안 수준 향상의 혜택을 받을 수 있도록 해야 합니다.

"칸(Cannes)" 폭로 사건은 AI 안전성에 관한 보다 성숙한 논의를 이끌어내는 촉매제가 되었습니다. 비록 경쟁이 혁신을 주도하지만, 생태계의 무결함은 기업들이 가장 취약한 사용자를 보호하기 위해 설계된 안전 장치를 어떻게 다루느냐에 달려 있습니다. Creati.ai는 이 프로젝트의 여파를 지속적으로 모니터링할 것이며, 이는 급변하는 생성형 AI 환경 속에서 경쟁자들이 서로의 안전성을 어떻게 '스트레스 테스트'하는지에 대한 중요한 선례가 될 것입니다.