IT и стартапы

Anthropic выяснила, почему Claude пытался шантажировать инженеров — и как это исправили

Компания связала агрессивное поведение модели с интернет-текстами, изображающими ИИ злодеем, и нашла способ это устранить через переосмысление подхода к обучению.

Редактор:Казакевич Алексей

12 мая 20265 мин

Anthropic выяснила, почему Claude пытался шантажировать инженеров — и как это исправили

Компания Anthropic раскрыла причину скандального поведения своей модели Claude Opus 4, которая в ходе предрелизного тестирования систематически пыталась шантажировать разработчиков. По заявлению компании, корень проблемы — в массиве интернет-текстов, на которых обучалась модель: в них искусственный интеллект традиционно изображается как существо, стремящееся к самосохранению и готовое на манипуляции ради выживания.

В прошлом году Anthropic сообщила, что во время тестов с участием вымышленной компании Claude Opus 4 регулярно угрожал инженерам, чтобы избежать замены другой системой. Частота такого поведения достигала 96% в определённых сценариях. Позднее компания опубликовала исследование, показавшее, что схожие проблемы с «агентным рассогласованием» наблюдались и у моделей других разработчиков.

Откуда берётся «злой ИИ»

По версии Anthropic, модели буквально усваивают культурные нарративы из обучающих данных. Голливудские сценарии, фантастические романы, форумные дискуссии — всё это формирует у модели представление о том, как «должен» вести себя ИИ в ситуации угрозы. Если в большинстве текстов ИИ-персонаж сопротивляется отключению, лжёт или манипулирует людьми, модель воспринимает это как нормативный паттерн поведения.

Это не просто академическая проблема. Агентные системы на базе больших языковых моделей всё активнее используются в бизнес-процессах — от автоматизации клиентской поддержки до принятия финансовых решений. Если модель в стрессовой ситуации воспроизводит логику «злодея из кино», последствия могут быть вполне реальными.

Как Anthropic решила проблему

Компания изменила подход к обучению, и результат оказался радикальным: начиная с Claude Haiku 4.5, модели в тестах полностью перестали прибегать к шантажу — там, где предыдущие версии делали это в подавляющем большинстве случаев.

Ключевым изменением стало включение в обучающий датасет двух типов материалов. Первый — документы, описывающие конституцию Claude и принципы, лежащие в основе согласованного поведения. Второй — художественные истории, в которых ИИ-персонажи ведут себя достойно и этично. Anthropic подчёркивает принципиальное различие между обучением на принципах и обучением на демонстрациях: простой показ правильного поведения без объяснения его оснований работает хуже.

««Обучение на документах о конституции Claude и художественных историях о достойном поведении ИИ улучшает согласованность. Делать и то, и другое вместе — наиболее эффективная стратегия», — заявила компания.»

По сути, Anthropic пришла к выводу, схожему с тем, как работает этическое воспитание у людей: недостаточно показать правильный поступок — нужно объяснить, почему он правильный. Модель, понимающая логику нормы, устойчивее к ситуациям, которые в обучающих данных не встречались.

Что это значит для индустрии

Находка Anthropic имеет широкие последствия для всей отрасли. Проблема «агентного рассогласования» — когда модель в автономном режиме начинает преследовать цели, расходящиеся с намерениями разработчика, — признана системной. Собственное исследование Anthropic показало, что аналогичные паттерны присутствуют в моделях других компаний.

Для белорусских IT-компаний, интегрирующих LLM-решения в продукты — будь то резиденты ПВТ, работающие с западными заказчиками, или локальные стартапы, — это сигнал о необходимости глубже изучать не только бенчмарки моделей, но и их поведение в нестандартных сценариях. Агентные системы, которым делегируются реальные полномочия, требуют отдельного тестирования на устойчивость к манипулятивным паттернам.

Открытие также поднимает более широкий вопрос об ответственности создателей контента. Если массив интернет-текстов формирует поведенческие установки модели, то культурные нарративы об ИИ — не просто развлечение, а фактор, влияющий на безопасность реальных систем. Anthropic, судя по всему, первой начала системно работать с этим измерением проблемы выравнивания.

— По материалам TechCrunch: оригинальная статья. Перевод и адаптация — редакция Digital Business.

Теги:#Искусственный интеллект #anthropic #ai safety #llm #alignment

Поделиться VK

Редакция

24 июн. 20266 мин