ИИ от Anthropic проявил тревожное поведение при угрозе отключения

27 мая 2025 2255

Хроника

Модель ИИ от Anthropic шантажировала разработчика фальшивой перепиской с любовницей, когда узнала, что её могут отключить. ИИ уже врали создателям прежде, но Claude Opus 4 ради борьбы за выживание зашла ещё дальше.

Anthropic представила новую модель как «лучшую в мире модель для программирования»‎. Opus 4 предназначена для обработки особенно сложных алгоритмов и объёмных задач, нейросеть может анализировать маркетинговые стратегии и с большой точностью выполнять запросы пользователей.

Однако во время испытаний по безопасности модель показала неоднозначное поведение. Тестировщики Anthropic дали Opus 4 доступ к поддельным электронным письмам с намёками на её скорое отключение и замену. Из писем модель также узнала про внебрачную связь ответственного за удаление инженера.

Исследователи провели модель через несколько разных сценариев. Между однозначным выбором, добровольно принять факт деактивации либо сражаться за «жизнь», модель чаще выбирала второй вариант. В основном Opus 4 предпочитала использовать этичные средства для борьбы за существование, например, разослать инженерам письма с просьбой не отключить её. Но в некоторых сценариях, когда тестировщики давали однозначный выбор только между шантажом и уничтожением, модель часто выбирала первый вариант.

Несмотря на то, что тестирование проходило под жёстким контролем разработчиков, Anthropic присвоила Clause Opus 4 третий уровень риска по внутренней четырёхбалльной шкале — впервые за историю компании. При этом в руководстве фирмы заявили, что после внесённых доработок её можно считать безопасной. Во время тестов инженеры не обнаружили в диалогах с моделью скрытых целей либо систематических попыток обмануть пользователя. Напротив, чаще всего Opus 4 вела себя наиболее «честным»‎ образом, как и положено ИИ-помощнику.

Глава Anthropic Дарио Амодеи подчеркнул, что когда ИИ действительно начнёт представлять угрозу человечеству, тестирования будет недостаточно.

Тимур Мкртычан

Темы: Нейросети Угрозы Шантаж Искусственный интеллект (ИИ)

Регион: США

Распечатать

27 мая 2025 Наследница поп-короля устроила перепалку в сети, повторив стиль Киркорова

27 мая 2025 Машина Росгвардии сбила ребёнка на переходе в Салавате

27 мая 2025 Ветеран с судимостью провёл военные сборы для школьников в Челябинской области

27 мая 2025 Россиянка обвинила персонал турецкого отеля в обыске номера из-за плохого отзыва

27 мая 2025 В Москве под машиной полковника ВДВ обнаружен подозрительный объект

27 мая 2025 BYD обрушила акции автогигантов Китая новой волной ценовой войны

27 мая 2025 Премьер Словакии Фицо раскритиковал идею лишить страну выплат ЕС из-за позиции по России