Почти два года назад глава Microsoft Сатья Наделла заявил, что ИИ скоро сможет заменить работников умственного труда – юристов, инвестиционных банкиров, бухгалтеров, IT-специалистов, библиотекарей и других офисных сотрудников.
С тех пор ИИ действительно сильно продвинулся вперед: современные модели умеют проводить сложные исследования, анализировать данные и планировать действия. Но на практике большинство «белых воротничков» по-прежнему работают как раньше. Массовой замены людей машинами не произошло.
Специалисты компании Mercor решили выяснить, насколько современным ИИ-моделям можно доверить выполнение работы, которую делают люди.
Для исследований был создан тест под названием APEX-Agents, симулирующий реальные задачи, которые выполняют офисные работники. Исследователи проверили, как ведущие ИИ-модели справляются с настоящими вопросами из сфер консалтинга, инвестиционного банкинга и юриспруденции.
Результаты оказались неожиданно слабыми. Даже лучшие модели смогли правильно ответить менее чем на 25% вопросов. В большинстве случаев ИИ либо давал неверный ответ, либо вообще не мог ответить.
По словам главы Mercor Брендана Фуди, главная проблема ИИ – умение работать с информацией из разных источников одновременно. А именно так и выглядит настоящая офисная работа.
В отличие от учебных задач, где вся информация дается сразу, в жизни сотрудники работают с десятками инструментов: созваниваются, переписываются в мессенджерах, ищут файлы в Google Drive, сверяются с внутренними документами и законами. Для ИИ-агентов такая многоуровневая логика пока остается слишком сложной.
Например, один из юридических тестов касался передачи логов с персональными данными из ЕС в США.
Чтобы ответить правильно, нужно разобраться во внутренних правилах компании, понять нюансы европейского законодательства и выработать порядок действий.
Даже опытному юристу такая задача может показаться непростой. Но именно такую работу ежедневно выполняют профессионалы. А вот ИИ-модели не сумели справиться с этим вопросом.
Как итог, ни одна модель пока не готова работать в качестве реального офисного работника. И результаты тестов показали их возможности:
- Gemini 3 Flash – 24% правильных задач
- GPT-5.2 – 23%
- Opus 4.5, Gemini 3 Pro и GPT-5 – около 18%
Тест APEX-Agents открыт для всех и разработчики ИИ наверняка попытаются улучшить свои показатели.
– Сейчас ИИ – это как стажер, который справляется с задачей в одном случае из четырех, – говорит Брендан Фуди. – Год назад он справлялся лишь в 5-10% случаев. Несмотря на слабые показатели сегодня, ИИ-модели очень быстро прогрессируют и способны в будущем изменить рынок труда.
Читайте по теме. Руководители больше не стесняются: ИИ заменит 50% офисных работников




