Часто говорят, что большие языковые модели (LLM), подобные ChatGPT, представляют собой черный ящик. В этом есть доля правды. Даже специалистам по обработке данных трудно понять, по каким алгоритмам работает модель и почему получается тот или иной результат.
OpenAI разрабатывает инструмент для автоматического определения, какие части LLM отвечают за каждый «участок» работы. Разработчики подчеркивают, что ПО находится на ранних стадиях, но код для его запуска уже доступен в открытом исходном коде на GitHub.
– Мы пытаемся разработать инструмент, который позволит нам предвидеть, в чем будут заключаться проблемы с системой искусственного интеллекта. Мы хотим действительно иметь возможность знать, что делает модель и почему она выдает именно такой результат, – говорит менеджер группы интерпретируемости в OpenAI Уильям Сондерс.
В основе инструмента – GPT-4. Он «разбивает» работу LLM на отдельные части – нейроны. Сначала он «прогоняет» текстовые последовательности по собственной модели оценки. Затем анализирует предполагаемый текст, выявляя алгоритмы, по которым он будет создан.
– Используя эту методологию, мы можем в принципе для каждого отдельного нейрона понять какое-то предварительное объяснение на естественном языке того, что он делает, а также оценить, насколько хорошо это объяснение соответствует реальному поведению. Мы используем GPT-4 как часть процесса для получения объяснений того, что ищет нейрон, а затем оцениваем, насколько хорошо эти объяснения соответствуют реальности, – отмечает лидер команды по масштабируемому выравниванию в OpenAI Джефф Ву.
Исследователи смогли сгенерировать объяснения для всех 307 200 нейронов в GPT-2.
Исследователи говорят, что однажды подобные инструменты могут быть использованы для повышения производительности LLM — например, для снижения предвзятости или токсичности. Но они признают, что ему предстоит пройти долгий путь, прежде чем он станет действительно полезным.