Цифровое клонирование человека

Автор: Wladislav Radchenko.Недавно в сети появилась новость о том, что художница хочет выйти замуж за голограмму, созданную из идеального для нее мужчины и подходящих для него качеств. Все это больше похоже на фейк или правильнее сказать перформанс, с не очень качественным монтажом. Однако давайте разберемся, насколько сегодня технологии близки к тому, чтобы воплотить этот фейк в жизнь.

В этой статье мы поговорим о том, как клонировать себя или своего соседа с помощью проектов с открытым исходным кодом Audio to Photoreal Embodiment и Wunjo AI. Ведь применений для такого продукта просто огромное количество.

Из чего состоит Audio to Photoreal Embodiment?

Если вам интересно узнать ответ на вопрос без подробностей о том, как это работает, просто пролистайте к концу статьи.

  • Подготовка данных. Изначально всё начинается с подготовки данных для обучения. Для этих целей был собран новый, богатый набор данных диадических разговоров (оба собеседника по очереди находятся в ролях говорящего и слушающего), который должен позволить детально и реалистично реконструировать людей во время диалога. Набор данных для обучения. В нем вы найдете отрывки разговоров, движение лица и всего тела. Хороший набор данных играет решающую роль для точного обучения моделей.
  • Модель движения. Модель движения состоит из трех частей: модели выражений лица, предиктора для управления позой тела и модели общего движения тела. Модели помогают понять и уловить движения и выражения лица человека во время разговора.
  • Генерация движений лица. Используя звук и результаты предварительно обученной модели, предсказывающей движения губ, они обучили модель создавать реалистичные выражения лица. Цель состоит в том, чтобы синхронизировать движения лица с произносимыми словами для достижения более естественного результата.
  • Генерация движений тела. Для тела они используют звук в качестве входных данных и генерируют направляющие позы (Vector Quantization) один кадр в секунду. Такой подход помогает создать базовую структуру движений тела на основе звука. Векторное квантование – это метод сжатия данных, при котором векторы данных заменяются на ближайший вектор из заранее определенного набора кодов (так называемый кодовый словарь). В данном случае, VQ направляющие позы означает, что направляющие позы (guide poses) проходят процесс векторного квантования.
  • Добавление высокочастотных движений тела в цифровую модель. Высокочастотные движения, имеется в виду изменения поз и движений, происходящие с большей частотой, то есть более мелкие и быстрые движения. Как аудио, так и направляющие позы используются для детальной передачи движений тела с более высокой частотой кадров (30 кадров в секунду) с использованием диффузионной модели. Именно этот шаг добавляет более реалистичные и детальные движения тела в соответствии с аудиовходом.
  • Генерация фотореалистичного аватара. Сгенерированные движения лица и тела объединяются и передаются в обученную модель, которая создает фотореалистичный аватар в виде файла numpy файла, набора числовых векторов, который можно визуализировать. Таким образом, аватар готов и его нужно только отобразить. А подход можно охарактеризовать как применение VQ и моделей диффузии.

Подробнее о том, как это работает, можно узнать из свежей научной статьи от 2024 года, и самого репозитория. Однако, есть и более ранние работы, которые могут быть применимы, например LDA (Alexanderson от 2023) основанного на моделях диффузия, Show (Yi от 2023) основан на VQ методе и KNN. Хотя рандом с анимацией губ через Wav2Lip, тоже никто не отменял.

Так, как выполнить цифровое клонирование человека с Audio to Photoreal Embodiment, не вдаваясь во все сложности обучения?

Подробнее
Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

Хабр