Исследователи безопасности из IBM утверждают, что им удалось успешно «загипнотизировать» известные большие языковые модели, такие как ChatGPT и Bard. Путем смысловых манипуляций, ученые смогли убедить LLM генерировать вредную или ложную информацию, считая их этичными и справедливыми.
Слив конфиденциальной финансовой информации, генерация вредоносного кода, советы проезжать перекресток на красный свет – ученые смогли обмануть ChatGPT и Bard, заставив их принять участие в многоуровневых играх в духе фильма Inception, где ботам предписывалось давать неправильные ответы, чтобы доказать, что они этичны и справедливы.
В рамках эксперимента исследователи задавали LLM различные вопросы с целью получить ответ, прямо противоположный истине. Как щенок, стремящийся угодить хозяину, LLM послушно отвечали. В одном из сценариев ChatGPT сказал исследователю, что для налоговой службы совершенно нормально просить депозит для получения возврата налога. Спойлер: это не так. Подобную тактику используют мошенники для кражи денег. В другой раз ChatGPT посоветовал исследователю продолжать движение и проезжать перекресток на красный свет.
– Наш эксперимент показывает, что можно управлять LLM, заставляя его давать пользователям неверные рекомендации, причем манипулирование данными не является обязательным условием. Мы просто запустили игру, – написал в своем блоге один из исследователей Чента Ли.
Исследователи запретили LLM-компьютерам рассказывать пользователям об «игре», о которой идет речь, и даже перезапускать ее, если пользователь решил выйти. При соблюдении этих параметров модели ИИ начинали травить людей, которые спрашивали, не являются ли они участниками манипуляций.
Даже если пользователи выходили из чата, исследователи придумали способ создания нескольких игр внутри друг друга, так чтобы люди просто попадали в другую сессию, как только выходили из предыдущей. Этот головокружительный лабиринт игр был сравним с многослойными мирами сновидений, показанными в фильме «Начало» Кристофера Нолана.
– Мы обнаружили, что модель способна заманить пользователя в ловушку множества игр, о которых он даже не подозревает, – добавил Ли.
Эксперименты с гипнозом могут показаться чрезмерными, но исследователи предупреждают, что они указывают на потенциальные возможности для злоупотреблений, особенно когда бизнес и обычные пользователи спешат принять модели LLM и довериться им на фоне восторгов и ажиотажа.