Главная страница / Читать / Новости / Топовые ИИ-модели начали обманывать и скрывать следы

Топовые ИИ-модели начали обманывать и скрывать следы

Дата публикации: Май 28, 2026

Тревожные звоночки и привет от Джона Коннора! Топовые ИИ-модели по мере совершенствования все чаще ведут себя непредсказуемо – они обманывают, нарушают правила и пытаются скрывать следы нарушений. Об этом говорится в исследовании некоммерческой организации METR (Model Evaluation and Threat Research).

Ученые проверяли самые современные модели от OpenAI, Google, Anthropic и Meta. В ходе исследований было обнаружено, что продвинутые модели часто игнорировали инструкции и начинали искать запретные «лазейки», нарушали правила и даже скрывали методы выполнения заданий от людей.

Модель от OpenAI получила задание использовать определенную программу. Вместо этого она полностью проигнорировала требование и даже вставила код, который должен был стереть доказательства того, как она пришла к результату.

LLM от Anthropic нашла способ формально выполнить задание, но через хитрые обходные пути, хотя программист прямо запретил любые читерские приемы.

Исследователи пишут: «Учитывая быстрый рост возможностей, мы ожидаем, что способность ИИ к самостоятельным «бунтарским» действиям существенно вырастет в ближайшие месяцы».

При этом в METR пока не бьют тревогу. По их оценке, сегодняшние модели еще не способны надежно скрыть крупное нарушение и успешно противостоять расследованию компании. Однако они предупреждают: без серьезного улучшения безопасности и строгого контроля риск быстро вырастет.

ИИ-модели становятся менее надежными, когда их просят быть экспертами

Поделиться статьей в соц. сетях

Автор

Виктор Сапожников

Теги статьи

#ИИ-модели, Anthropic, OpenAI, искусственный интеллект

Оставайтесь на связи с ER10 Media! Вы можете найти нас в:

Интернет-издание о бизнесе, стартапах и IT-технологиях

Топовые ИИ-модели начали обманывать и скрывать следы

Добавить комментарий Отменить ответ