Интернет-издание о бизнесе, стартапах и IT-технологиях

Популярные теги:
Главная страница / Читать / Новости / OpenAI использует видео с YouTube для обучения GPT-4

OpenAI использует видео с YouTube для обучения GPT-4

Компания OpenAI разработала модель транскрипции звука Whisper, чтобы использовать более миллиона часов видео с YouTube для обучения GPT-4.
OpenAI использует видео с YouTube для обучения GPT-4

Компания OpenAI разработала модель транскрипции звука Whisper, чтобы использовать более миллиона часов видео с YouTube для обучения GPT-4. Ранее The Wall Street Journal сообщила, что разработчики ИИ-моделей столкнулись с дефицитом высококачественных обучающих данных.

По словам автором публикации New York Times, компания знала, что подобный сбор данных довольно сомнителен с юридической точки зрения, но посчитал это добросовестным использованием.

В журналистском расследовании говорится, что компания OpenAI исчерпала запасы полезных данных в 2021 году и обсуждала транскрибирование видеороликов YouTube, подкастов и аудиокниг после использования других ресурсов. К тому времени компания обучила свои модели на данных, которые включали компьютерный код из Github, базы данных шахматных ходов и материалы для школьных занятий из Quizlet.

Впрочем, с дефицитом данных столкнулись и другие разработчики ИИ-моделей – Google и Meta. Они тоже изыскивают возможности для получения обучающих материалов.

Times пишет, что юридический отдел Google попросил команду по защите конфиденциальности компании изменить формулировку политики, чтобы расширить возможности работы с данными потребителей, например, с офисными инструментами, такими как Google Docs. Кроме того, компания также использует информацию из YouTube.

Возможные решения этой проблемы, включают в себя обучение ИИ на «синтетических» данных, созданных их собственными моделями, или так называемое «куррикулярное обучение», которое предполагает подачу моделям высококачественных данных в упорядоченном виде в надежде, что они смогут создавать более умные связи между понятиями, используя гораздо меньше информации, но ни один из этих подходов пока не доказан.

Но у компаний есть и другой вариант – использовать все, что они могут найти, независимо от того, есть у них разрешение или нет, и, судя по многочисленным искам, поданным за последний год, этот путь грозит серьезными финансовыми и репутационными издержками.

Поделиться статьей в соц. сетях

Share on telegram
Share on twitter
Share on facebook
Share on whatsapp

Теги статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *