Недавно запущенные ИИ-модели o3 и o4-mini от OpenAI во многих отношениях являются передовыми. Однако выяснилось, что они галлюцинируют больше, чем некоторые из старых моделей OpenAI.
Галлюцинации оказались одной из самых больших и трудноразрешимых проблем в искусственном интеллекте, которая затрагивает даже самые высокопроизводительные современные системы. Исторически сложилось так, что каждая новая модель немного улучшала свои показатели в области галлюцинаций, становясь менее галлюцинаторной, чем ее предшественница. Но это, похоже, не относится к o3 и o4-mini.
Согласно внутренним тестам OpenAI, o3 и o4-mini, так называемые рассуждающие модели, галлюцинируют чаще, чем предыдущие рассуждающие модели компании - o1, o1-mini и o3-mini, а также традиционные, «не рассуждающие» модели OpenAI, такие как GPT-4o.
Что еще более важно, создатель ChatGPT не знает, почему это происходит.
В своем техническом отчете по o3 и o4-mini OpenAI пишет, что необходимо провести дополнительные исследования, чтобы понять, почему галлюцинации усиливаются по мере расширения моделей рассуждений. O3 и o4-mini показывают лучшие результаты в некоторых областях, включая задачи, связанные с кодированием и математикой. Но поскольку они «делают больше утверждений в целом», их часто заставляют делать более точные утверждения, что приводит к галлюцинациям, говорится в отчете.
OpenAI обнаружила, что o3 галлюцинировал в ответ на 33% вопросов PersonQA, собственного эталона для измерения точности знаний модели о людях. Это примерно в два раза больше, чем у предыдущих моделей рассуждений OpenAI, o1 и o3-mini, которые набрали 16% и 14,8% соответственно. O4-mini справилась с задачей PersonQA еще хуже - она галлюцинировала в 48% случаев.