Тестируем нейросети для генерации изображений

Блог компании РСХБ-Интех (Россельхозбанк). Недавно мы рассказывали о том, что активно используем нейросети при работе над цифровыми сервисами. В новой статье мы поделимся результатами собственного сравнительного анализа нейросетей для генерации изображений. Читайте, сравнивайте характеристики и выбирайте подходящий для вас инструмент. Важно отметить, что исследование проводилось в начале апреля этого года.

Нейронная сеть — это не просто компьютерная программа. Это самообучаемая система «искусственного интеллекта», работающая по принципу человеческого мозга.

Чтобы выдать готовую картинку, нейросети прогоняют входные данные через систему «нейронов» — более простых программ, взаимодействующих между собой.

Уже сейчас для «воображения» нейросетей нет ничего невозможного. Они могут нарисовать изображение по текстовому запросу, по исходной картинке, с помощью схематичного наброска или референсов. Некоторые сервисы специализируются на генерировании лиц.

Мы протестировали работу 9 самых популярных сервисов, рисующих картинки по текстовому запросу и сделали выводы: общее впечатление основано на субъективном мнении наших экспертов.

Сервисы тестировали на двух запросах:

  • простой: «красивый кот»;
  • более сложный: «красивый мужчина-фермер с чётко прорисованным лицом собирает яблоки в корзину в яблоневом саду».

Midjourney

Это наиболее художественная сеть от независимой исследовательской лаборатории под руководством бывшего инженера NASA.

seti1.pngКотики от Midjourney

Midjourney относится к классу диффузионных нейронных сетей, то есть состоит как бы из двух нейросетей: одна отвечает за распознавание текста, другая — за генерацию изображений.

Инструмент быстро завоёвывает популярность, потому что удобен в использовании, позволяет создавать сложные арты, креативные иллюстрации и максимально детализированные картины.

Работает через Discord, поэтому необходима регистрация в мессенджере. Создать картинку можно в одном из общих чатов, либо добавить на свой сервер Midjourney.

Стоимость:

Некоторое время назад была доступна бесплатная демо-версия с ограниченным количеством запросов. В настоящее время есть три платных тарифа.

  • Базовый — 200 GPU-минут;
  • Стандартный — 15 GPU-часов и возможность поставить релакс режим;
  • Продвинутый —30 GPU-часов/месяц и приватный режим генерации.

Midjourney использует графические процессоры (GPU) для обработки каждого запроса. Когда вы покупаете подписку, вы покупаете время использования этих процессоров.

Время ожидания ответа нейросети: генерация четырёх вариантов изображения длится от 40 до 60 секунд.

Возможность улучшать фото: можно увеличить разрешение и генерировать аналоги по готовой иллюстрации.

Вариации стилей/разрешений: нет стилевых ограничений, хорошо распознаёт текстовые запросы при вводе в строку поиска.

Наличие библиотеки изображений: большая библиотека с собственными изображениями и работами других пользователей. В библиотеке есть возможность поиска и просмотра запросов других пользователей к изображениям.

seti2.pngЯблочный фермер от Midjourney

Общее впечатление: с выходом пятого обновления качество изображения людей значительно возросло: черты лица хорошо прорисованы, образы реалистичны. Фотоиллюстрации стали более проработанными, выглядят отлично, при повторении запроса меняется идея фотографии и ракурсы.

Stable Diffusion

Это программное обеспечение с открытым кодом от компании CompVis, создающее изображения по текстовым описаниям. В публичный доступ программы была выпущена в августе 2022 году, но сразу стала набирать популярность.

Подробнее
Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

Хабр