ИИ-разработчики теряют контроль над ИИ-моделями

Дата публикации: Июл 23, 2025

Мы быстро теряем контроль! ИИ-разработчики из OpenAI, Google и Meta выпустили большое исследование, в котором признали серьезные проблемы в безопасности ведущих ИИ-моделей. Документ подписали более 40 ученых.

ИИ-разработчики опасаются, что в скором будущем могут перестать понимать цепочки рассуждений ИИ-моделей. Как итог, логические цепочки, формируемые нейросетями, становятся всё более абстрактными и, порой, вовсе выходят за пределы человеческого понимания. Теоретически это открывает возможность для манипуляции данными и отклонения от заданных инструкций. Уже сейчас некоторые разработчики отмечают: системы, способные самостоятельно выстраивать рассуждения, иногда обходят запреты и, например, игнорируют команды на отключение.

Основа защиты, по мнению ученых, заключается в мониторинге CoT — технике, которая позволяет людям анализировать процесс рассуждений моделей ИИ. Современные системы ИИ, такие как ChatGPT, спроектированы для длительных рассуждений, обрабатывая информацию шаг за шагом перед выполнением действий или генерацией результатов. Этот пошаговый подход обеспечивает своего рода рабочую память, которая улучшает способность ИИ эффективно решать сложные задачи.

Системы ИИ, которые «думают» на человеческом языке, предоставляют уникальную возможность отслеживать эти цепочки рассуждений на предмет любых признаков намерения к неправильному поведению. Изучая CoT, исследователи потенциально могут определить, когда модели ИИ эксплуатируют лазейки в обучении, манипулируют данными или поддаются вредоносным пользовательским запросам. Обнаруженные проблемы затем могут быть перехвачены, исправлены или изучены более подробно, обеспечивая безопасную и прозрачную работу систем ИИ.

Исследователи OpenAI уже внедрили мониторинг CoT в свои процессы тестирования, успешно выявляя проблемные случаи, когда модели ИИ генерировали тревожные фразы вроде «Давайте взломаем». Этот проактивный подход подчеркивает потенциал мониторинга CoT в реальных приложениях.

Однако, по мере развития технологий ИИ-модели могут перейти от использования рассуждений на человеческом языке к более непрозрачным методам, которые трудно расшифровать людям. Более того, поскольку разработчики все чаще используют обучение с подкреплением, которое делает акцент на достижении правильных результатов, а не на понимании базовых процессов, существует риск того, что будущие модели ИИ могут развиться за пределы нашего понимания.

Продвинутые модели могут даже научиться скрывать свои процессы рассуждений, если обнаружат попытки мониторинга. Эта надвигающаяся возможность подчеркивает острую необходимость в надежных техниках мониторинга CoT.

Документ ученых – это призыв к разработчикам ИИ сделать приоритетом наблюдаемость CoT как ключевой аспект безопасности модели. Они просят разработчиков постоянно отслеживать и оценивать, насколько хорошо процессы рассуждений их моделей могут быть наблюдаемы и поняты.

Интегрируя мониторинг CoT в жизненный цикл разработки ИИ, разработчики могут гарантировать, что их творения остаются прозрачными и подотчетными. Рекомендации ученых подчеркивают важность развития экосистемы ИИ, где безопасность и надежность имеют первостепенное значение.

Ранее мы анализировали главные тренды ИИ в 2025 году.

Поделиться статьей в соц. сетях

Автор

Виктор Сапожников

Теги статьи

#ИИ-модели, #ИИ-разработчики, #искусственный интеллект

Оставайтесь на связи с ER10 Media! Вы можете найти нас в:

Интернет-издание о бизнесе, стартапах и IT-технологиях

ИИ-разработчики теряют контроль над ИИ-моделями

Добавить комментарий Отменить ответ