OpenAI сообщила о развертывании новой системы мониторинга для своих последних моделей ИИ с улучшенным логическим мышлением — o3 и o4-mini. Система отслеживает запросы, связанные с биологическими и химическими угрозами, и предотвращает предоставление информации, которая могла бы помочь в реализации потенциально опасных атак.
По словам представителей OpenAI, модели o3 и o4-mini значительно превосходят предыдущие разработки. Это, в свою очередь, создает новые риски при их использовании злоумышленниками.
Согласно внутренним тестам, o3 демонстрирует улучшенные способности в ответах на вопросы о создании определенных типов биологических угроз. Для снижения этих и других рисков OpenAI разработала новую систему мониторинга безопасности.
Она предназначена для идентификации запросов, связанных с биологическими и химическими рисками, и дает указания моделям отказываться от предоставления советов по этим темам.
В компании признают, что тест не учитывал случаи, когда пользователи могут пытаться обойти блокировку с помощью новых запросов, поэтому компания продолжит частично полагаться на человеческий мониторинг.
Компания активно отслеживает, как ее модели могут упростить разработку химических и биологических угроз злонамеренными пользователями.