Apple опубликовала исследование, которое подрывает уверенность в возможностях моделей ИИ-рассуждений, нанося удар по таким гигантам, как OpenAI, Google и Anthropic. Согласно исследованию компании, эти модели имеют серьезные ограничения при решении сложных задач, что противоречит заявлениям разработчиков об их эффективности в задачах, традиционно решаемых человеком.
Модели рассуждений (LRM), такие как o1 и o3 от OpenAI, Claude 3.7 Sonnet от Anthropic, DeepSeek R1 и новейшая версия Gemini от Google, способны разбивать сложные задачи на более простые этапы. Однако исследование Apple показало, что при достижении определенного уровня сложности модели начинают тратить больше времени, использовать лишние токены и выдавать неверные ответы.
Apple утверждает, что текущие тесты для оценки LRM, сосредоточенные на задачах по программированию и математике, ненадежны. Для проверки исследователи разработали новые логические головоломки, не требующие внешних знаний. Результаты показали, что при высокой сложности задачи модели демонстрируют «полный крах точности».
Исследование ставит под сомнение заявления разработчиков о том, что LRM могут эффективно решать сложные задачи. OpenAI утверждала, что их модели «думают» подобно человеку, Google подчеркивала улучшенные возможности Gemini 2.5, а Anthropic уверяла, что Claude 3.7 Sonnet оптимизирован для реальных бизнес-задач.
Однако работа Apple показывает, что с ростом сложности задачи модели теряют фокус и перестают эффективно использовать ресурсы.