OpenAI представила нейросеть для генерации видео по текстовому описанию. Она превосходит по качеству все предыдущие модели

Компания OpenAI представила новую диффузионную генеративную модель машинного обучения под названием Sora, которая умеет создавать по текстовому описанию видео высокого качества с малым количеством артефактов, разрешением до 1920×1080 и продолжительностью до одной минуты. Помимо этого, Sora может дополнять новыми кадрами уже существующие видеофрагменты, а также создавать новые и анимировать уже существующие статичные изображения.

Пост с кратким обзором возможностей модели, а также статья с некоторыми техническими подробностями опубликованы на сайте компании.

Генерация видеоконтента по текстовому описанию (text-to-video) — возникшее сравнительно недавно стремительно развивающееся направление машинного обучения, которое стало логическим продолжением исследований в области генерации изображений. Существенный прогресс в этом направлении начался в течение последних двух лет. К примеру, такие крупные компании как Meta (деятельность компании Meta запрещена в России) и Google почти одновременно представили в 2022 году сразу три алгоритма: Make-A-Video, Phenaki и Imagen Video — модели, которые могли по текстовому описанию генерировать короткие видео и «оживлять» статичные изображения. Менее месяца назад Google представила более продвинутую модель Lumiere, которая способна генерировать пятисекундные видеоролики. Тем не менее, несмотря на определенные успехи, качество генерации до последнего времени оставалось довольно низким.

15 февраля 2024 года компания OpenAI представила собственную text-to-video модель под названием Sora. Это диффузионная генеративная модель, которая создает видео по его текстовому описанию, начиная процесс со случайного шума и постепенно преобразуя его в изображение. Подобно другим GPT моделям Sora использует архитектуру трансформера. Только вместо токенов, базовых блоков текста, используемых в языковых моделях, визуальная информация в Sora разбивается на их аналоги — пространственно-временные патчи, или другими словами, на фрагменты, которые содержат в себе информацию о части кадра и о том, как эта часть изменяется со временем.

Подробнее
Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (2 votes)
Источник(и):

N+1