Баттл «художников»: сравниваем Midjourney, DALL-E 2 и Stable Diffusion

Блог компании Selectel. Автор: Влад Ефименко. Текстов про Midjourney, DALL-E 2 и Stable Diffusion много: их обозревали и даже сравнивалиhttps://habr.com/ru/company/selectel/blog/684246/ с дизайнерами. Мы решили пойти дальше и устроить между ними баттл: проверить, как нейросети генерируют литературных персонажей, исторических личностей, абстракции и другое. Что из этого получилось — показываем под катом.

Дисклеймер: статья не претендует на научную точность. Мы просто попробовали сравнить популярные нейросети. По фану!

Особенности в работе с нейросетями

У каждой нейросети есть свои особенности, которые нужно учитывать перед началом работы.

Midjourney

1. Работает через Discord-канал: для генерации изображений нужно отправить свой запрос в чат-канале newbies. Другие пользователи будут видеть ваши результаты.

hud1.pngОкно Discord-канала Midjourney

2. Каждому новому пользователю доступны бесплатные 25 запросов. Дополнительные 200 запросов обойдутся в $10.

3. В ответ на запрос нейросеть рисует коллаж из четырех изображений. Их размеры можно устанавливать с помощью специальных флагов –w и –h.

hud2.pngПример настройки разрешения изображений

4. Изображения можно улучшать или генерировать для них дополнительные варианты.

hud3.png

DALL-E 2

1. Каждому пользователю доступны бесплатные 50 запросов в первый месяц и 15 — в каждый следующий месяц. Проект работает через API. Для пользователей из России он доступен только через VPN. Кроме того, при аутентификации понадобится SMS-подтверждение, которое работает только для иностранных номеров.

hud4.pngDALL-E 2, сообщение об ошибке: «Что-то пошло не так. OpenAI недоступен в вашей стране»

2. С помощью встроенного модификатора можно изменять отдельные участки изображений. Например, превращать котиков в… кепки.

hud5.png

3. Для каждого изображения можно сгенерировать дополнительные варианты, из которых можно отобрать лучшие иллюстрации.

hud6.png

4. В DALL-E 2 нельзя устанавливать размеры изображений. Нейросеть умеет работать только с форматом 1:1. Это минус, если нужно сделать обложку, например, для статьи на Хабре.

Stable Diffusion

1. Исходный код проекта есть в открытом доступе. Для работы с нейросетью можно скачать git-репозиторий и развернуть свой web-сервер.

hud7.pngStable Diffusion, WebUI

Для работы с нейронными сетями можно использовать облачные серверы Selectel с видеокартами. О том, почему ML-модели лучше запускать на GPU, рассказали в статье.

2. В Stable Diffusion есть ряд параметров для гибкой настройки генератора изображений:

  • Height, Width — размер изображения.
  • Classifier Free Guidance Scale — насколько точно изображение должно соответствовать запросу. Рекомендуем использовать стандартное значение — 7,5.
  • Number of batches to generate — сколько всего подборок сгенерирует нейронная сеть.
  • Images per batch — количество изображений в одной подборке.
  • Sampling steps — количество раз, которое нейронная сеть обрабатывает изображение. Для всех изображений в статье параметр равен 70.
  • Sampling method — метод выбора «лучших» изображений во время генерации — для простых запросов разница незаметна. В большинстве случаев использовали стандартный метод k_lms.

hud8.pngStable Diffusion, изображения с разными значениями Sampling method

3. Изображения можно улучшать с помощью встроенного параметра — Upscale images using RealESRGAN.

hud9.png

Сравнение результатов нейросетей

Несмотря на различия между проектами, есть общие правила по формированию запросов. Основные из них описаны в прошлой статье.

Для баттла нейросетей мы придумали и провели шесть испытаний:

  1. Литературный персонаж. Нейросети сгенерировали образ того, чье имя нельзя называть.
  2. Историческая личность. Как думаете, каким нейросети нарисуют Уинстона Черчилля: с сигарой или без?
  3. Айтишный сценарий. Проверили, «слышали» ли нейронки про Assembler и программирование.
  4. Абстракции. Нарушили правила формирования запросов и попросили изобразить «чувство любви».
  5. Сборная солянка. Что получится, если просто перечислить объекты в запросе?
Подробнее
Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

Хабр