Компания OpenAI разработала модель транскрипции звука Whisper, чтобы использовать более миллиона часов видео с YouTube для обучения GPT-4. Ранее The Wall Street Journal сообщила, что разработчики ИИ-моделей столкнулись с дефицитом высококачественных обучающих данных.
По словам автором публикации New York Times, компания знала, что подобный сбор данных довольно сомнителен с юридической точки зрения, но посчитал это добросовестным использованием.
В журналистском расследовании говорится, что компания OpenAI исчерпала запасы полезных данных в 2021 году и обсуждала транскрибирование видеороликов YouTube, подкастов и аудиокниг после использования других ресурсов. К тому времени компания обучила свои модели на данных, которые включали компьютерный код из Github, базы данных шахматных ходов и материалы для школьных занятий из Quizlet.
Впрочем, с дефицитом данных столкнулись и другие разработчики ИИ-моделей – Google и Meta. Они тоже изыскивают возможности для получения обучающих материалов.
Times пишет, что юридический отдел Google попросил команду по защите конфиденциальности компании изменить формулировку политики, чтобы расширить возможности работы с данными потребителей, например, с офисными инструментами, такими как Google Docs. Кроме того, компания также использует информацию из YouTube.
Возможные решения этой проблемы, включают в себя обучение ИИ на «синтетических» данных, созданных их собственными моделями, или так называемое «куррикулярное обучение», которое предполагает подачу моделям высококачественных данных в упорядоченном виде в надежде, что они смогут создавать более умные связи между понятиями, используя гораздо меньше информации, но ни один из этих подходов пока не доказан.
Но у компаний есть и другой вариант – использовать все, что они могут найти, независимо от того, есть у них разрешение или нет, и, судя по многочисленным искам, поданным за последний год, этот путь грозит серьезными финансовыми и репутационными издержками.