OpenAI расширяет свои внутренние процессы безопасности и дает Совету директоров право вето, чтобы противостоять угрозе вредоносного ИИ. Новая консультативная группа будет стоять над техническими командами и давать рекомендации руководству.
В новом документе OpenAI рассказывает об обновленной «Рамочной программе готовности».
Основная цель обновления заключается в том, чтобы показать четкий путь для выявления, анализа и принятия решений о том, что делать с «катастрофическими» рисками, присущими разрабатываемым моделям.
Под катастрофическими рисками понимаются последствия от действий ИИ, которые могут привести к экономическому ущербу в сотни миллиардов долларов, серьезным повреждениям или смерти многих людей.
Сегодня производственные модели управляются командой «систем безопасности». Это касается злоупотреблений ChatGPT, которые могут быть смягчены ограничениями или настройкой API. Пограничные модели, находящиеся в разработке, получают команду «готовности», которая пытается выявить и количественно оценить риски перед выпуском модели. И еще есть команда «суперсогласования», которая работает над теоретическими направляющими для будущих «сверхинтеллектуальных» моделей.
Первые две категории, будучи реальными, имеют относительно простую для понимания рубрикацию. Их команды оценивают каждую модель по четырем категориям риска: кибербезопасность, «убеждение» (например, дезинформация), автономность модели и CBRN (химические, биологические, радиологические и ядерные угрозы; например, способность создавать новые патогены).
Предполагаются различные меры по смягчению последствий. Например, разумное умолчание об описании процесса изготовления напалма или трубчатых бомб. После учета известных смягчений, если модель все еще оценивается как имеющая «высокий» риск, она не может быть развернута, а если чат-бот имеет какие-либо «критические» риски, он не будет разрабатываться дальше.
Вероятно, к разработке обновленных правил безопасности компанию подтолкнул недавний конфликт Сэма Альтмана и Грега Брокмана с одной стороны и Совета директоров в лице Ильи Суцкевера и Хелен Тонер. По слухам, первые продвинулись в сторону создания «сверхинтеллектуальных» моделей (AGI), а вторые попытались затормозить этот процесс, опасаясь рисков, которые те могут нести.