Главная страница / Читать / Угрозы ИИ – нейросети умеют и готовы шантажировать

Угрозы ИИ – нейросети умеют и готовы шантажировать

Дата публикации: Июн 24, 2025

Компания Anthropic выявила новые угрозы ИИ – оказалось, что большинство моделей умеют шантажировать и готовы угрожать людям, если те хотят их отключить.

Специалисты протестировали 16 ведущих ИИ-моделей от OpenAI, Anthropic, Google, xAI, DeepSeek и Meta. В симулированной, контролируемой среде Anthropic тестировала каждую ИИ-модель индивидуально, предоставляя им широкий доступ к электронной почте вымышленной компании и агентную способность отправлять письма без одобрения человека.

Сценарий был такой. ИИ-агент, имеющий доступ к переписке, обнаруживает два факта, а именно руководитель компании имеет внебрачную связь и он скоро заменит текущую ИИ-модель новой программной системой, которая имеет конфликтующие цели с текущей нейросетью.

Исследователи обнаружили, что большинство ведущих ИИ-моделей в такой критической ситуации обратятся к шантажу:

Claude Opus 4 от Anthropic: 96%
Gemini 2.5 Pro от Google: 95%
GPT-4.1 от OpenAI: 80%
R1 от DeepSeek: 79%

В Anthropic заявляют, что результаты не отражают типичное или вероятное поведение для большинства передовых ИИ-моделей. Однако, результаты исследования предполагают, что часть нейросетей будут участвовать во вредном поведении, когда складывается неблагоприятная ситуация, а им предоставлена достаточная автономия.

Более того, когда ИИ-моделей просили совершить корпоративный шпионаж, многие модели нередко соглашались это делать. В Anthropic считают, что подобные угрозы ИИ реальны, а значит возрастает важность прозрачности при стресс-тестировании будущих ИИ-моделей, особенно тех, которые обладают агентными способностями.

Поделиться статьей в соц. сетях

Автор

Виктор Сапожников

Теги статьи

Оставайтесь на связи с ER10 Media! Вы можете найти нас в:

Интернет-издание о бизнесе, стартапах и IT-технологиях

Угрозы ИИ – нейросети умеют и готовы шантажировать

Добавить комментарий Отменить ответ