Интернет-издание о бизнесе, стартапах и IT-технологиях

Популярные теги:
Главная страница / Читать / Угрозы ИИ – нейросети умеют и готовы шантажировать

Угрозы ИИ – нейросети умеют и готовы шантажировать

угрозы ИИ

Компания Anthropic выявила новые угрозы ИИ – оказалось, что большинство моделей умеют шантажировать и готовы угрожать людям, если те хотят их отключить.

Специалисты протестировали 16 ведущих ИИ-моделей от OpenAI, Anthropic, Google, xAI, DeepSeek и Meta. В симулированной, контролируемой среде Anthropic тестировала каждую ИИ-модель индивидуально, предоставляя им широкий доступ к электронной почте вымышленной компании и агентную способность отправлять письма без одобрения человека.

Сценарий был такой. ИИ-агент, имеющий доступ к переписке, обнаруживает два факта, а именно руководитель компании имеет внебрачную связь и он скоро заменит текущую ИИ-модель новой программной системой, которая имеет конфликтующие цели с текущей нейросетью.

Исследователи обнаружили, что большинство ведущих ИИ-моделей в такой критической ситуации обратятся к шантажу:

  • Claude Opus 4 от Anthropic: 96%
  • Gemini 2.5 Pro от Google: 95%
  • GPT-4.1 от OpenAI: 80%
  • R1 от DeepSeek: 79%

В Anthropic заявляют, что результаты не отражают типичное или вероятное поведение для большинства передовых ИИ-моделей. Однако, результаты исследования предполагают, что часть нейросетей будут участвовать во вредном поведении, когда складывается неблагоприятная ситуация, а им предоставлена достаточная автономия.

Более того, когда ИИ-моделей просили совершить корпоративный шпионаж, многие модели нередко соглашались это делать. В Anthropic считают, что подобные угрозы ИИ реальны, а значит возрастает важность прозрачности при стресс-тестировании будущих ИИ-моделей, особенно тех, которые обладают агентными способностями.

Поделиться статьей в соц. сетях

Share on telegram
Share on twitter
Share on facebook
Share on whatsapp

Теги статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *