В одной из предыдущих статей я писал о GPT-3 – очень мощной нейронной сети, которая работает с текстом. Это всё, конечно, интересно. Но что могут современные нейронные сети помимо генерации статей или стихов?
А ответят на этот мой вопрос два искусственных интеллекта: DALL·E 2 от компании OpenAI и Imagen производства Google.
Обе эти нейронные сети делают одно – генерируют изображения по текстовому описанию. Вроде бы звучит просто, но на самом деле – это настолько невероятно, что, возможно, эти технологии изменят всё наше представление о будущем.
DALL·E 2
Поговорим сначала про DALL·E 2, так как мы уже знакомы с OpenAI и на что она способна. Как следует из его названия, это более усовершенствованная вторая версия. И продвинулась она, в сравнении с предшественником, намного. Из самого простого, качество генерируемого изображения возросло в разы: с 256×256 до 1024×1024 пикселей. Ну и конечно, теперь нейросеть намного лучше понимает натуральный язык и генерирует более реалистичные изображения.
Здесь вы можете сравнить новую версию со старой по текстовому запросу: “картина с изображением лисы, сидящей в поле на рассвете, в стиле Клода Моне”:
Помимо просто генерации изображений, нейросеть умеет также редактировать их. Например, добавить собаку или создать альтернативную версию оригинальной картины.
Imagen
Нейросеть Imagen, появившаяся на свет спустя полтора месяца после выхода DALL·E 2, является главным ее конкурентом. Архитектурно она схожа с DALL·E 2, но и имеет свои отличия. Если DALL·E 2 использует кодировщик CLIP, который обучался на тексте и изображениях, то у Imagen используется другой кодировщик, под названием T5-XXL, который обучался только на тексте. Говоря проще, текст, который попадает – сразу генерируется в изображение. А в DALL·E 2 перед этим идёт процесс конвертации. Хорошо это или плохо? Если честно, не разбираюсь. Ведь, в итоге, как у первого, так и у второго получаются просто сногсшибательные результаты.
По словам Google, их нейросеть генерирует изображения по описанию с «беспрецедентным фотореализмом». Да и по закрытым тестам на человеческую оценку от того же Google, Imagen намного превосходит своего соперника.
Однако, не стоит забывать, что в отличии от OpenAI, которая представила демо-версию нейросети, Google ничем таким нас не порадовал. Поэтому, верить этим тестам или нет – это уже ваш выбор
И под конец можете сравнить творчество обеих ИИ.
Увидев все эти изображения, созданные ИИ, появляется резонный вопрос: неужели машина способна заменить человека даже в творчестве?