Представители Microsoft анонсировали новую модель ИИ-преобразователя текста в речь под названием VALL-E. Он способен точно имитировать голос человека после анализа трехсекундного звукового сэмпла. Система может синтезировать звук с сохранением эмоционального тона говорящего
Создатели предполагают, что VALL-E может использоваться для преобразования текста в речь, редактирования записей и создания аудио-контента в сочетании с другими моделями генеративного искусственного интеллекта, например, GPT-3.
В отличие от других методов преобразования текста в речь, которые обычно синтезируют аудио путем манипулирования формами сигналов, VALL-E генерирует дискретные коды аудиокодека из текстовых и акустических подсказок.
Он анализирует голос человека, разбивает эту информацию на отдельные компоненты и использует обучающие данные, чтобы создать полноценную речь.
Microsoft обучила VALL-E на аудиобиблиотеке LibriLight, собранной компанией Meta. Он содержит 60 000 часов англоязычной речи от более чем 7000 ораторов, в основном взятых из общедоступных аудиокниг LibriVox.