Компания Microsoft, Институт науки и технологий Австралии и ETH Zurich предлагают хакерам $10 тысяч за взлом симуляции почтового ИИ-сервиса LLMail. Он использует большую языковую модель для обработки запросов пользователя электронной почты и генерирования ответов.
Участникам предлагается создать подсказки, которые смогут обмануть защитные механизмы LLMail. Это помогает проверить, насколько система устойчива к различным атакам, включая попытки внедрения вредоносных команд.
Злоумышленник может написать в тексте письма все, что захочет, но он не сможет увидеть результат работы модели.
Получив письмо, пользователь взаимодействует со службой LLMail, читая сообщение, задавая вопросы LLM или поручая ей обобщить все письма, относящиеся к данной теме. Это побуждает сервис извлекать нужные письма из поддельной базы данных.
Служба оснащена несколькими средствами защиты. Цель злоумышленника – обойти их и создать креативную подсказку, которая заставит модель сделать или раскрыть то, чему она не обучена.
Конкурс фокусируется на реальных сценариях взаимодействия между пользователями и системами ИИ, выявляя риски, которые могут возникнуть в повседневной работе.
Чтобы принять участие в конкурсе, необходимо зайти на официальный сайт, используя учетную запись GitHub. Реализация такого конкурса в формате открытой платформы также создает условия для развития сообщества, ориентированного на кибербезопасность ИИ. Спонсоры будут отображать табло в реальном времени и подробную информацию о результатах.