Генеративные 3D-модели

Блог компании SberDevices. На связи Игорь Пасечник — технический лид направления XR RnD SberDevices. Сегодня я хочу рассказать про одно из наших направлений исследований — разработку генеративных моделей для 3D-контента.

Введение

Современные методы генерации 2D-контента, такие, как 2D-диффузионные модели (Kandinsky 3.0, SDXL), уже достигли впечатляющих результатов и несколько лет являются неотъемлемой частью современности, генеративные видео модели также активно развиваются. Кульминацией развития таких подходов, вероятно, станет представленная не так давно модель Sora. Тем не менее большинство из этих моделей до сих пор испытывают проблемы при генерации консистентных 3D-сцен и объектов.

С другой стороны, существует конвенциональная 3D-графика, а также огромная индустрия и множество прикладных областей, включая игры, XR, дизайн, архитектуру, маркетинг, 3D-проектирование, где используются пайплайны на основе 3D-графики и производится контент на их основе. Методы создания 3D-моделей, такие, как ручное моделирование, 3D-сканирование и фотограмметрия, могут быть трудоёмкими, дорогостоящими и требующими специальных навыков. 3D-продакшн в общем виде использует множество инструментов для создания и рендеринга тяжелой фотореалистичной графики, адаптация генеративных 3D-пайплайнов под такие подходы достаточно тяжела из-за множества инструментов, которые такие пайплайны должны поддерживать. Также адаптация больших латентных генеративных 2D-моделей вроде SORA для прикладных задач фотореалистичной графики может стать альтернативой классическими пайплайнам на основе физического моделирования. Тем не менее, на текущий момент пайплайны работы с графикой, использующие базовый набор примитивов, включая меши, PBR-текстуры, простые модели освещения, закрывают множество прикладных задач и также могут быть востребованы у массового пользователя в случае их демократизации.

Учитывая это, мы решили свести свои исследования в области генеративного 3D к решению нескольких задач:

  • Научиться генерировать консистентные multi-view изображения объектов по тексту или картинкам, используя 2D-генеративные модели.
  • Научиться генерировать 3D-ассеты для практического использования по тексту или картинкам.
  • Научиться делать быструю и достаточно качественную 3D-реконструкцию.
  • Научиться создавать консистентные визуализации объектов (3D-гифки).

Мы разработали семейство генеративных 3D-моделей на основе 2D-моделей Сбера, проведя работу с данными, выбрав лучшие компоненты из доступных на текущий момент архитектур, а также внеся дополнительные новшества, достигнув SOTA-результатов относительно open-source и проприетарных моделей.

Общая архитектура пайплайна (Text-to-3D)

На текущий момент существует несколько методов быстрой генерации 3D-контента по тексту.

Подробнее
Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (1 vote)
Источник(и):

Хабр