Главная страница / Читать / Новости / Microsoft научил ИИ имитировать человеческий голос по 3-секундному сэмплу

Microsoft научил ИИ имитировать человеческий голос по 3-секундному сэмплу

Представители Microsoft анонсировали новую модель ИИ-преобразователя текста в речь под названием VALL-E. Он способен точно имитировать голос человека после анализа трехсекундного звукового сэмпла.

Дата публикации: Янв 11, 2023

Создатели предполагают, что VALL-E может использоваться для преобразования текста в речь, редактирования записей и создания аудио-контента в сочетании с другими моделями генеративного искусственного интеллекта, например, GPT-3.

В отличие от других методов преобразования текста в речь, которые обычно синтезируют аудио путем манипулирования формами сигналов, VALL-E генерирует дискретные коды аудиокодека из текстовых и акустических подсказок.

Он анализирует голос человека, разбивает эту информацию на отдельные компоненты и использует обучающие данные, чтобы создать полноценную речь.

Microsoft обучила VALL-E на аудиобиблиотеке LibriLight, собранной компанией Meta. Он содержит 60 000 часов англоязычной речи от более чем 7000 ораторов, в основном взятых из общедоступных аудиокниг LibriVox.

Поделиться статьей в соц. сетях

Автор

Виктор Сапожников

Теги статьи

Microsoft, искусственный интеллект

Оставайтесь на связи с ER10 Media! Вы можете найти нас в:

Интернет-издание о бизнесе, стартапах и IT-технологиях

Microsoft научил ИИ имитировать человеческий голос по 3-секундному сэмплу

Добавить комментарий Отменить ответ