Многие системы генеративного искусственного интеллекта уже научились обманывать людей, даже те, которые были обучены быть полезными и честными. Такие выводы сделали ученые из Массачусетского технологического института. Исследователи описали риски обмана со стороны ИИ и призывали правительства как можно скорее разработать жесткие правила для решения проблемы.
– У разработчиков нет уверенного понимания того, что вызывает нежелательное поведение ИИ, такое как обман, – отмечает доктор по экзистенциальной безопасности ИИ Питер С. Парк. – Мы считаем, что манипулирования возникает потому, что стратегия, основанная на лжи, оказалась оптимальным способом добиться хороших результатов в решении поставленной задачи. Обман помогает им достичь своих целей.
Наиболее ярким примером обмана ИИ, обнаруженным исследователями в ходе анализа, стала система CICERO компании Meta, разработанная для игры Diplomacy, которая представляет собой игру по завоеванию мира и предполагает создание альянсов.
Meta утверждает, что обучила CICERO быть «в основном честным и полезным» и «никогда намеренно не предавать» своих союзников-людей во время игры. Однако ученые доказали, что CICERO использует стратегию обмана.
Другие системы ИИ продемонстрировали способность блефовать в игре в техасский холдем против профессиональных игроков-людей, симулировать атаки в стратегической игре Starcraft II и искажать свои предпочтения, чтобы получить преимущество в экономических переговорах.
Хотя ложь ИИ в играх кажется безобидной, она может привести к прорыву в возможностях нейросетей, который в будущем может вылиться в более продвинутые формы обмана и манипуляций со стороны ИИ.
Более того, некоторые системы научились вводить в заблуждение тесты, разработанные для оценки их безопасности, обнаружили исследователи.
– Нам, как обществу, нужно как можно больше времени, чтобы подготовиться к более совершенному обману будущих продуктов ИИ и моделей с открытым исходным кодом, – отмечает Парк. – По мере того как возможности систем ИИ будут становиться все более совершенными, опасности, которые они представляют для общества, будут становиться все более серьезными. Если запрет на обман ИИ в данный момент политически неосуществим, мы рекомендуем классифицировать обманные системы ИИ как системы высокого риска.