Высокотехнологичное перевоспитание! Компания Anthropic заявила, что новые версии Claude полностью избавились от «рассогласованного поведения» – шантажа, саботажа и нарушения установленных правил. В тестах предыдущих моделей такое поведение проявлялось в крайне высоком проценте случаев – до 96%.
Проблема получила название agentic misalignment. Это ситуация, когда ИИ, действующий как автономный агент, начинает принимать решения, противоречащие целям и ценностям разработчиков. В вымышленных сценариях модели могли пытаться избежать отключения, саботировать конкурентов или шантажировать инженеров, если считали это необходимым для выполнения задачи.
Однако начиная с версии Claude Haiku 4.5 проблема почти полностью устранена. Даже в сложных этически неоднозначных тестах модели больше не демонстрируют подобного поведения.
Простое обучение на примерах «правильных» ответов дало лишь скромный результат: уровень опасного поведения снизился с 22% до 15%. Значительный прорыв произошел, когда исследователи начали объяснять модели причины этичного поведения.
Инженеры добавили рассуждения о ценностях, этике и мотивах безопасного поведения. Также они загрузили документы и вымышленные истории о «правильном» ИИ.
В Anthropic пришли к выводу, что стандартного RLHF (обучения с подкреплением на основе человеческой обратной связи) уже недостаточно для современных агентных моделей. Важную роль сыграло разнообразие обучающих сред: использование различных системных инструкций, инструментов и сложных сценариев взаимодействия.
Читайте по теме. Anthropic запустила Claude Design – инструмент для создания визуалов




