Тревожные звоночки и привет от Джона Коннора! Топовые ИИ-модели по мере совершенствования все чаще ведут себя непредсказуемо – они обманывают, нарушают правила и пытаются скрывать следы нарушений. Об этом говорится в исследовании некоммерческой организации METR (Model Evaluation and Threat Research).
Ученые проверяли самые современные модели от OpenAI, Google, Anthropic и Meta. В ходе исследований было обнаружено, что продвинутые модели часто игнорировали инструкции и начинали искать запретные «лазейки», нарушали правила и даже скрывали методы выполнения заданий от людей.
Модель от OpenAI получила задание использовать определенную программу. Вместо этого она полностью проигнорировала требование и даже вставила код, который должен был стереть доказательства того, как она пришла к результату.
LLM от Anthropic нашла способ формально выполнить задание, но через хитрые обходные пути, хотя программист прямо запретил любые читерские приемы.
Исследователи пишут: «Учитывая быстрый рост возможностей, мы ожидаем, что способность ИИ к самостоятельным «бунтарским» действиям существенно вырастет в ближайшие месяцы».
При этом в METR пока не бьют тревогу. По их оценке, сегодняшние модели еще не способны надежно скрыть крупное нарушение и успешно противостоять расследованию компании. Однако они предупреждают: без серьезного улучшения безопасности и строгого контроля риск быстро вырастет.
ИИ-модели становятся менее надежными, когда их просят быть экспертами




