Большое сравнение нейросетей

Меня зовут Юля, 85GB и я веду свой канал по нейронкам. В этой статье я рассмотрю по различным параметрам графические нейронки: DALL-E 2 (далее буду называть его DALL-E), Midjourney, Stable Diffusion, Кандинский и Шедеврум. Постараюсь разложить всё максимально чётко и ёмко, дать оценку по каждому блоку от 0 до 5. А потом всё сведу в одну таблицу.

Содержание:

  • Цена и доступность
  • Порог вхождения
  • Запрещёнка
  • Промпты
  • Догенерация и постобработка
  • Доп. функции. Размер и качество на выходе
  • Лицензии
  • Заключение

Цена и доступность

Здесь всё довольно просто.

  1. DALL-E — платный, каждые 115 генераций за 15$, оптом не дешевле. Предоставляет 14 бесплатных генераций каждый месяц только старым пользователям (которые зарегались в Далли до 6 апреля 2023г.), новые должны платить без вариантов. Для пользователей за пределами России легко доступна в браузере. Для пользователей на территории России — недоступна, нужно заморочиться с иностранным номером.
  2. Midjorney — платный, есть несколько тарифов: 10, 30 и 60 баксов. Отличаются они количеством часов генераций и функцией приватности в самом дорогом тарифе. Что это значит? Ваши картинки никто не увидит, они не попадут в общую ленту и их нельзя будет найти по поиску. Доступ через дискорд и сайт. Пользователям с территории России нужно искать обходные пути для оплаты.
  3. Stable Diffusion — бесплатный. Вариантов доступа множество. Есть базовая консоль, в которой всё пишется кодом и надо быть прогером. Есть привычный всем Automatic1111 — консольный интерфейс с кучей настроек, надо кааапельку шарить в гитхабе и коде. Он требует дохрена физической и видеопамяти для работы. Есть сайты, например, бесплатный (результаты так себе) или платный от создателей Стейбла. А ещё Гугл-коллаб с Automatic, генерация происходит на стороне Гугла.
  4. Кандинский — бесплатный. Вариант доступа — через сайт. UPD 24.05.23: ещё есть приложение Сбер Салют, к которому подключён Кандинский под именем Далли (ЛОЛ), а также Cбер оживил свой ruDALL-Eh и у них есть официальный бот в телеге. Помимо этого, сбер создал ГигаЧат, куда также подрубил генерацию картинок, но пока что доступ дают только в закрытом канале телеги.
  5. Шедеврум — бесплатный. Доступен только через приложение.

DALL-E – 2

Midjorney – 2

Stable – 4

Кандинский – 5

Шедеврум – 5

Оценки по блоку основаны, в частности, на доступе для российских юзеров

neyroseti1.pngMidjourney: entry threshold

Порог вхождения

В этом блоке пойдёт речь о дружелюбности системы к юзеру и простоте/сложности использования.

  1. DALL-E — максимально простое введение подсказок (промптов), старается работать в контексте. Документацию в целом тоже найти несложно, она есть на главной странице, но она больше предназначена для их открытого кода, а не для юзеров, инфа очень сжата. Есть блок «хелп» на странице с генерацией, он плохо работает — это бот с набором вопрос-ответов. Но есть отдельная страница «хэлпа» с более развёрнутыми ответами, как будто они прописывают правила на ходу.
  2. Midjorney. На данный момент существует версия 5.1, которая работает в контексте, а вот версия 4 и более ранние были довольно капризны к промптам, требуя строгого порядка тегов. Документация большая и понятная, дружелюбная к юзеру, доступна с главной страницы сайта.
  3. Stable Diffusion — ад на земле. Ремар очка: я буквально по канону прошла все стадии от отрицания до принятия, и на этапе гнева мне хотелось разбить комп. Так вот, Стейбл — это консоль, которая требует довольно конкретных тегов (токенов). Нужно вводить не только обычные промпты, но и отрицательные. Здесь множество правил и нюансов, которые просто надо знать. Документация есть у Automatic1111, но там больше про интерфейс и код. Документация самого Стейбла — чисто про код, рядовому юзеру типа меня там нечего делать. Базовой версией Стейбла пользоваться бесполезно, она очень плоха, нужно дополнительно скачивать модели (как моды на игры) которые весят в среднем 2–5 гигов, дополнительные поднастройки. Чтобы разобраться в этом, нужно потратить ОГРОМНОЕ количество времени.
  4. Кандинский. По нажатию знака вопроса выдаёт это: «Введите описание изображения и нажмите Создать». Никакой другой инфы и документации я не нашла. Для тех, кто уже работал с нейронками это ок, для новых юзеров — нет, это не френдли.
  5. Шедеврум. Тоже самое, что у Кандинского, но есть «правила» на пару абзацев (из которых почти ничего не ясно). Хотя в целом Шедеврум довольно прост, в том числе благодаря ленте в приложении.

DALL-E – 4

Midjourney – 5

Stable – 2

Кандинский – 1

Шедеврум – 3

neyroset2.pngMidjourney: forbidden

Запрещёнка

Этот блок тесно связан с предыдущим, но его необходимо разобрать отдельно прежде чем приступить к генерации.

  1. DALL-E. Нет списка слов, но запретные темы развёрнуты в правилахhttps://labs.openai.com/policies/content-policy: Ненависть, Насилие, Секс, Шок-контент (человеческие выделения, плохие жесты), Наркотики, Политика, Болезни. Хочется спросить: а ваще чота можна? Ну, кроме просто людей и кроликов каких-то. За нарушение правил грозит бан (правда неясно, сколько раз надо нарушить)
  2. Midjorney. Нет списка слов, есть пояснения по темам в документацииhttps://docs.midjourney.com/docs/community-guidelines. Из очевидных запретов: контент для взрослых, сцены насилия и оторванные конечности. Версия 5.1 вроде должна была ввести ограничения на знаменитостей. Но я заметила только, что сходство некоторых ухудшилось или пропало (Трамп по прежнему идеален). За использование запретных слов — бан (коммьюнити говорит о 25 попытках, официальных данных нет, как и официального списка слов).
  3. Stable Diffusion. Начнём с того, что версий несколько. В 1.5 ограничений практически нет или их легко обойти. А вот в 2.0 создатели вычистили из набора данных весь контент для взрослых, убрали имена художников, потому что многие из них выступали против нейронок. Официальной инфы об этом нет, только новости, форумы и обзоры юзеров.
  4. Кандинский. Нет документации — нет информации. Всё постигается сугубо опытом. Например, слово «обнажённый» можно, «кровь» можно, а вот на слово «кишки» генерит поле с цветочками и пишет «Запрос не соответствует правилам работы». Дали бы хоть эти правила почитать что ли.
  5. Шедеврум. Запреты следующее: Фамилии, Политика и религия, 18+ контент, Жестокость и Насилие. Пояснений нет, только перечисление. И вот в чём прикол: фамилии под запретом настолько, что нельзя писать даже бренды. Я не могу ввести «мужчина в костюме Версаче», нейронка не пропустит это. И ещё я выявила, что нельзя обращаться к расовой принадлежности. Нельзя «азиатский мужчина», надо: «кореец» или «китаец». Есть это в правилах? нет.

Пожалуй, самая спорная графа для оценки. С одной стороны, какая-то цензура нужна, но ни одна нейронка не реализовала её достаточно хорошо и не выдала просто список запрещённых слов в виде таблицы. Решила, что снижу оценки за силу цензуры, но накину баллов за объяснения. Шедеврум получает 0 за адский кринж со всех сторон.

DALL-E- 2

Midjourney – 3

Stable – 3

Кандинский – 4

Шедеврум – 0

neyroset3.pngДональд идеально отражает мою реакцию на всю эту дичь. Сделано в Миджорни.

Промпты

И вот, мы пришли к самому интересному.

Подробнее
Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

Хабр