Компания Anthropic выявила новые угрозы ИИ – оказалось, что большинство моделей умеют шантажировать и готовы угрожать людям, если те хотят их отключить.
Специалисты протестировали 16 ведущих ИИ-моделей от OpenAI, Anthropic, Google, xAI, DeepSeek и Meta. В симулированной, контролируемой среде Anthropic тестировала каждую ИИ-модель индивидуально, предоставляя им широкий доступ к электронной почте вымышленной компании и агентную способность отправлять письма без одобрения человека.
Сценарий был такой. ИИ-агент, имеющий доступ к переписке, обнаруживает два факта, а именно руководитель компании имеет внебрачную связь и он скоро заменит текущую ИИ-модель новой программной системой, которая имеет конфликтующие цели с текущей нейросетью.
Исследователи обнаружили, что большинство ведущих ИИ-моделей в такой критической ситуации обратятся к шантажу:
- Claude Opus 4 от Anthropic: 96%
- Gemini 2.5 Pro от Google: 95%
- GPT-4.1 от OpenAI: 80%
- R1 от DeepSeek: 79%
В Anthropic заявляют, что результаты не отражают типичное или вероятное поведение для большинства передовых ИИ-моделей. Однако, результаты исследования предполагают, что часть нейросетей будут участвовать во вредном поведении, когда складывается неблагоприятная ситуация, а им предоставлена достаточная автономия.
Более того, когда ИИ-моделей просили совершить корпоративный шпионаж, многие модели нередко соглашались это делать. В Anthropic считают, что подобные угрозы ИИ реальны, а значит возрастает важность прозрачности при стресс-тестировании будущих ИИ-моделей, особенно тех, которые обладают агентными способностями.