Разработчик OpenAI внедрил новые функции в ChatGPT – ИИ-модель теперь способна вести голосовой разговор с пользователем, а также научилась осуществлять поиск по картинкам.
Нововведение демонстрирует заметное развитие генеративного ИИ: OpenAI объединил привычный мир голосовых помощников с мощными большими языковыми моделями (LLM).
Например, пользователь сможет устно попросить ChatGPT сочинить сказку на ночь, при этом несколько голосовых подсказок будут направлять повествование. Или же пользователь может просто задать вопрос, на который ChatGPT ответит в устной форме.
Кроме того, пользователи ChatGPT смогут искать ответы на вопросы с помощью изображений: например, загрузить фотографию какого-либо предмета и попросить ChatGPT объяснить, что это такое, или дать инструкцию по выполнению задачи.
Голосовые функции реализованы с помощью новой модели преобразования текста в речь, которая позволяет генерировать человекоподобные голоса на основе текста.
По словам представителей OpenAI, для создания пяти различных голосов были привлечены известные актеры, а для транскрибирования устных высказываний в текст использовалась система распознавания речи Whisper с открытым исходным кодом.
Партнером по запуску новых функций выступил сервис Spotify. Он представил новую интересную функцию для подкастеров, которая позволяет им сэмплировать голос и переводить передачи с английского на испанский, французский или немецкий языки, сохраняя при этом свой собственный оригинальный голос.
– Новая голосовая технология, способная создавать реалистичные синтетические голоса на основе всего нескольких секунд реальной речи, открывает двери для широкого творческого применения. Однако технологии несут в себе и новые риски, например, возможность для злоумышленников выдавать себя за общественных деятелей или совершать мошеннические действия, – говорится в блоге OpenAI.
Объявление было сделано после того, как Amazon обязалась инвестировать до $4 млрд в конкурирующую с OpenAI компанию Anthropic. Этот шаг является частью масштабной борьбы между мировыми технологическими гигантами, такими как Microsoft, Google и Meta.