OpenAI представила новую, более мощную модель искусственного интеллекта под названием GPT-4o. Буква «o» означает «omni», что означает способность модели работать с текстом, речью и видео. GPT-4o будет внедряться «итеративно» в продукты компании для разработчиков и потребителей в течение следующих нескольких недель.
Технический директор OpenAI Мира Мурати говорит, что GPT-4o обеспечивает интеллект «уровня GPT-4», но улучшает возможности GPT-4 в различных модальностях и медиа.
– GPT-4o может работать с голосом, текстом и зрением, – отметила Мира Мурати. – И это невероятно важно, потому что мы смотрим на будущее взаимодействия между нами и машинами».
GPT-4 Turbo, предыдущая «самая продвинутая» модель OpenAI, обучалась на комбинации изображений и текста и могла анализировать изображения и текст для выполнения таких задач, как извлечение текста из изображений или даже описание их содержания. Но GPT-4o добавляет к этому еще и речь.
Например, пользователи могут задать ChatGPT, работающему на GPT-4o, вопрос и прервать ChatGPT во время ответа. По словам OpenAI, модель обеспечивает реакцию в режиме «реального времени» и даже может улавливать нюансы в голосе пользователя, генерируя голоса в «различных эмоциональных стилях» (включая пение).
GPT-4o также расширяет возможности ChatGPT в плане зрения. Получив фотографию или экран рабочего стола, ChatGPT теперь может быстро отвечать на связанные с ней вопросы, начиная от «Что происходит в этом программном коде?» и заканчивая «Какая марка рубашки на этом человеке?».