Новое исследование показывает, что более умные чат-боты с искусственным интеллектом становятся менее надежными, поскольку они чаще выдумывают факты вместо того, чтобы признаться в неготовности ответить на вопрос.
В исследовании, опубликованном в журнале Nature, рассматривались некоторые из ведущих коммерческих LLM в отрасли: GPT от OpenAI и LLaMA от Meta, а также модель с открытым исходным кодом под названием BLOOM.
Несмотря на то, что во многих случаях их ответы становятся более точными, в целом они менее надежны и чаще дают неправильные ответы, чем старые модели.
По словам исследователей, одними из самых больших «обманщиков» были модели OpenAI GPT-4 и o1, которые отвечали практически на любой вопрос. Ни одна ИИ-модель из семейства LLaMA не смогла достичь уровня 60-процентной точности, говорится в исследовании.
Моделям задавали вопросы по самым разным темам – от математики до географии, а также просили выполнить задания вроде перечисления информации в определенном порядке. Более крупные и мощные модели давали самые точные ответы в целом, но не справлялись с более сложными вопросами.
– В наши дни ИИ-модели отвечают практически на все вопросы. А это означает, что правильных, но и неправильных ответов становится больше, – говорит научный сотрудник Валенсийского исследовательского института ИИ Хосе Эрнандес-Оралло.
– Он все лучше притворяется знатоком. Но, по-моему, это похоже на то, что мы называем брехней, – более лаконично оценивает ситуацию философ науки и техники из Университета Глазго Майк Хикс.
Эксперты пришли к неутешительному выводу. Чем больше обучающих данных вводится в LLM, тем чаще она начинает ошибаться. По мнению исследователей, самый простой способ борьбы с этой проблемой – запрограммировать LLM так, чтобы они не стремились отвечать на все вопросы.