Главная страница / Читать / Новости / Он станет хорошим! Anthropic избавила Claude от склонности к шантажу

Он станет хорошим! Anthropic избавила Claude от склонности к шантажу

Дата публикации: Май 14, 2026

Высокотехнологичное перевоспитание! Компания Anthropic заявила, что новые версии Claude полностью избавились от «рассогласованного поведения» – шантажа, саботажа и нарушения установленных правил. В тестах предыдущих моделей такое поведение проявлялось в крайне высоком проценте случаев – до 96%.

Проблема получила название agentic misalignment. Это ситуация, когда ИИ, действующий как автономный агент, начинает принимать решения, противоречащие целям и ценностям разработчиков. В вымышленных сценариях модели могли пытаться избежать отключения, саботировать конкурентов или шантажировать инженеров, если считали это необходимым для выполнения задачи.

Однако начиная с версии Claude Haiku 4.5 проблема почти полностью устранена. Даже в сложных этически неоднозначных тестах модели больше не демонстрируют подобного поведения.

Простое обучение на примерах «правильных» ответов дало лишь скромный результат: уровень опасного поведения снизился с 22% до 15%. Значительный прорыв произошел, когда исследователи начали объяснять модели причины этичного поведения.

Инженеры добавили рассуждения о ценностях, этике и мотивах безопасного поведения. Также они загрузили документы и вымышленные истории о «правильном» ИИ.

В Anthropic пришли к выводу, что стандартного RLHF (обучения с подкреплением на основе человеческой обратной связи) уже недостаточно для современных агентных моделей. Важную роль сыграло разнообразие обучающих сред: использование различных системных инструкций, инструментов и сложных сценариев взаимодействия.

Читайте по теме. Anthropic запустила Claude Design – инструмент для создания визуалов

Поделиться статьей в соц. сетях

Автор

Виктор Сапожников

Теги статьи

#Claude, #ИИ, Anthropic, искусственный интеллект

Оставайтесь на связи с ER10 Media! Вы можете найти нас в:

Интернет-издание о бизнесе, стартапах и IT-технологиях

Он станет хорошим! Anthropic избавила Claude от склонности к шантажу

Добавить комментарий Отменить ответ