
В сфере искусственного интеллекта разгораются серьезные дискуссии, поскольку выпущенная компанией Anthropic модель «Мифического класса» (Mythos-class), Claude Fable, сталкивается с растущей критикой со стороны профессиональных сообществ исследователей и разработчиков. Хотя Anthropic долгое время позиционировала себя как лидер отрасли в области «Конституционного ИИ» (Constitutional AI) и этического согласования моделей, внедрение строгих протоколов безопасности в последнем релизе вызвало негативную реакцию. Исследователи утверждают, что текущие ограничители не только ограничивают творческий потенциал, но и активно препятствуют законной работе в таких важнейших областях, как биология и кибербезопасность.
В Creati.ai мы внимательно следим за развитием больших языковых моделей. Появление Claude Fable стало скачком в сложности ведения диалога, однако это подчеркивает сохраняющееся напряжение между предотвращением злоупотреблений ИИ и поддержанием функциональности, необходимой для научных и академических исследований.
Компания Anthropic разработала Claude Fable — основу своей новейшей серии Mythos-class — с небывалым вниманием к безопасности. Эти «ограничители» (guardrails) представляют собой программные запреты, призванные предотвратить генерацию моделью вредоносного контента, например, инструкций по созданию биологических угроз или проведению атак нулевого дня. Однако разработчики сообщают, что реализация страдает от «избыточных отказов», когда модель интерпретирует безобидные научные запросы как угрозы безопасности.
Отзывы пользователей свидетельствуют о том, что порог отказа модели в настоящее время установлен слишком высоко для практического применения.
| Область | Наблюдаемая проблема | Влияние на рабочий процесс |
|---|---|---|
| Биологические исследования | Отказ обсуждать стандартное секвенирование белков | Нарушение академических и лабораторных процессов |
| Кибербезопасность | Блокировка запросов об известных уязвимостях | Невозможность тестирования защитных патчей |
| Общая разработка | Чрезмерные предостерегающие дисклеймеры | Высокая задержка вывода данных и трения в рабочем процессе |
Для специалистов по кибербезопасности и биоисследователей полезность модели определяется ее способностью обрабатывать сложные, часто конфиденциальные технические данные. Критики утверждают, что отказ Claude Fable взаимодействовать с фундаментальными концепциями — например, описание базовых структур клеток в контексте биологических исследований или анализ фрагментов кода на наличие стандартных шаблонов эксплойтов — фактически нейтрализует модель как профессиональный инструмент.
«Мы не просим инструкций по причинению вреда», — отметил один видный исследователь безопасности. — «Мы просим модель понять механику уязвимости, чтобы мы могли ее устранить. Если модель слишком напугана, чтобы работать с уязвимостью, она бесполезна для инженера по безопасности».
Негативная реакция на меры по обеспечению безопасности ИИ (AI safety) — повторяющаяся тема в отрасли. По мере того как модели становятся мощнее, растет страх перед их «двойным назначением». Однако теперь Anthropic оказалась на распутье: придерживаться жесткой, крайне защитной позиции, которая отталкивает сообщество продвинутых пользователей, или разработать более тонкую «уровневую» систему безопасности, которая учитывает контекст запроса, а не только его тему.
По мере того как сообщество продолжает оценивать модель, намечаются три возможных пути для улучшения:
Недовольство в экосистеме разработчиков проистекает из непредсказуемости модели. Когда модель демонстрирует непоследовательное поведение — отказываясь отвечать на основной вопрос в один момент и предоставляя частичный ответ в следующий, — становится сложно интегрировать ее в автоматизированные конвейеры.
Хотя компания Anthropic явно стремится к самым высоким стандартам безопасности в отрасли, приходит фундаментальное осознание: если механизмы безопасности слишком ограничительны для профессионалов, рынок неизбежно будет склоняться к моделям, предлагающим более сбалансированный, пусть и чуть более рискованный профиль полезности.
На данный момент отрасль внимательно следит за тем, получат ли модели «Мифического» класса обновление для точной настройки этих ограничителей. Без перекалибровки инновационный потенциал Claude Fable рискует быть задушенным теми самыми мерами безопасности, которые призваны обеспечить ее ответственное внедрение. По мере развития сферы ИИ вызов останется прежним: как обезопасить мир от вредоносного ИИ, не мешая исследователям использовать те же инструменты для его защиты.