Баттл «художников»: сравниваем Midjourney, DALL-E 2 и Stable Diffusion
Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.
Какое-то время продолжим трудится на общее благо по адресу
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.
Спасибо, ждём вас на N-N-N.ru
Блог компании Selectel. Автор: Влад Ефименко. Текстов про Midjourney, DALL-E 2 и Stable Diffusion много: их обозревали и даже сравнивалиhttps://habr.com/ru/company/selectel/blog/684246/ с дизайнерами. Мы решили пойти дальше и устроить между ними баттл: проверить, как нейросети генерируют литературных персонажей, исторических личностей, абстракции и другое. Что из этого получилось — показываем под катом.
Дисклеймер: статья не претендует на научную точность. Мы просто попробовали сравнить популярные нейросети. По фану!
Особенности в работе с нейросетями
У каждой нейросети есть свои особенности, которые нужно учитывать перед началом работы.
Midjourney
1. Работает через Discord-канал: для генерации изображений нужно отправить свой запрос в чат-канале newbies. Другие пользователи будут видеть ваши результаты.
Окно Discord-канала Midjourney
2. Каждому новому пользователю доступны бесплатные 25 запросов. Дополнительные 200 запросов обойдутся в $10.
3. В ответ на запрос нейросеть рисует коллаж из четырех изображений. Их размеры можно устанавливать с помощью специальных флагов –w и –h.
Пример настройки разрешения изображений
4. Изображения можно улучшать или генерировать для них дополнительные варианты.
DALL-E 2
1. Каждому пользователю доступны бесплатные 50 запросов в первый месяц и 15 — в каждый следующий месяц. Проект работает через API. Для пользователей из России он доступен только через VPN. Кроме того, при аутентификации понадобится SMS-подтверждение, которое работает только для иностранных номеров.
DALL-E 2, сообщение об ошибке: «Что-то пошло не так. OpenAI недоступен в вашей стране»
2. С помощью встроенного модификатора можно изменять отдельные участки изображений. Например, превращать котиков в… кепки.
3. Для каждого изображения можно сгенерировать дополнительные варианты, из которых можно отобрать лучшие иллюстрации.
4. В DALL-E 2 нельзя устанавливать размеры изображений. Нейросеть умеет работать только с форматом 1:1. Это минус, если нужно сделать обложку, например, для статьи на Хабре.
Stable Diffusion
1. Исходный код проекта есть в открытом доступе. Для работы с нейросетью можно скачать git-репозиторий и развернуть свой web-сервер.
Stable Diffusion, WebUI
Для работы с нейронными сетями можно использовать облачные серверы Selectel с видеокартами. О том, почему ML-модели лучше запускать на GPU, рассказали в статье.
2. В Stable Diffusion есть ряд параметров для гибкой настройки генератора изображений:
- Height, Width — размер изображения.
- Classifier Free Guidance Scale — насколько точно изображение должно соответствовать запросу. Рекомендуем использовать стандартное значение — 7,5.
- Number of batches to generate — сколько всего подборок сгенерирует нейронная сеть.
- Images per batch — количество изображений в одной подборке.
- Sampling steps — количество раз, которое нейронная сеть обрабатывает изображение. Для всех изображений в статье параметр равен 70.
- Sampling method — метод выбора «лучших» изображений во время генерации — для простых запросов разница незаметна. В большинстве случаев использовали стандартный метод k_lms.
Stable Diffusion, изображения с разными значениями Sampling method
3. Изображения можно улучшать с помощью встроенного параметра — Upscale images using RealESRGAN.
Сравнение результатов нейросетей
Несмотря на различия между проектами, есть общие правила по формированию запросов. Основные из них описаны в прошлой статье.
Для баттла нейросетей мы придумали и провели шесть испытаний:
- Литературный персонаж. Нейросети сгенерировали образ того, чье имя нельзя называть.
- Историческая личность. Как думаете, каким нейросети нарисуют Уинстона Черчилля: с сигарой или без?
- Айтишный сценарий. Проверили, «слышали» ли нейронки про Assembler и программирование.
- Абстракции. Нарушили правила формирования запросов и попросили изобразить «чувство любви».
- Сборная солянка. Что получится, если просто перечислить объекты в запросе?
- Источник(и):
- Войдите на сайт для отправки комментариев