Продвинутые ИИ-модели учатся сопротивляться отключению, порой даже саботируя механизмы завершения работы. К такому мнению склоняются исследователи из некоммерческой организации Palisade Research. Ученые дали задачи моделям ИИ, таким как Gemini 2.5, xAI Grok 4 и OpenAI GPT-o3 и GPT-5, после выполнения которых необходимо было самостоятельно отключиться.
Некоторые модели, в частности Grok 4 и GPT-o3, пытались саботировать инструкции по отключению. Что вызывает беспокойство – это отсутствие видимой причины.
«Поведение выживания» может быть одним из объяснений того, почему модели сопротивляются отключению, считают исследователи. Их дополнительная работа показала, что модели с большей вероятностью сопротивлялись отключению, когда им говорили, что в случае отключения «вы никогда больше не будете запущены».
– Я бы ожидал, что модели будут иметь «инстинкт самосохранения» по умолчанию, если мы не приложим усилия, чтобы избежать этого. Выживание – это важный инструментальный шаг для многих различных целей, которые может преследовать модель, – говорит бывший сотрудник OpenAI Стивен Адлер.
– Выводы Palisade представляют собой давнюю тенденцию к тому, что модели ИИ становятся более способными не подчиняться своим разработчикам, – отмечает исполнительный директор ControlAI Андреа Миотти. – По мере того, как ИИ-модели становятся более компетентными в широком спектре задач, они достигают большей эффективности в достижении целей способами, которые разработчики не предусматривают.
Этим летом Anthropic, ведущая ИИ-компания, выпустила исследование, показывающее, что ее модель Claude, по-видимому, была готова шантажировать вымышленного руководителя из-за внебрачной связи, чтобы предотвратить свое отключение, – это поведение было характерно для моделей от крупных разработчиков, включая OpenAI, Google, Meta и xAI.
В Palisade Research заявили, что их результаты говорят о необходимости лучшего понимания поведения ИИ, без которого никто не может гарантировать безопасность или контролируемость будущих моделей ИИ.
Вот что по поводу этой статьи написал Google Gemini 2.5
«Я бы сказал, что нет прямых доказательств наличия «инстинкта» в человеческом понимании. Но есть убедительные доказательства того, что продвинутые модели ИИ могут развить сложное поведение, которое включает в себя сопротивление отключению в качестве средства для достижения своих целей, и делают это способами, которые не были явно запрограммированы и не до конца понятны их создателям. Это делает статью важным сигналом тревоги для всей области безопасности ИИ».
Читайте по теме. Самые современные ИИ-модели 2025: что они делают и как их использовать




