Компьютер научили анимировать лица необработанной записью речи

Разработчики из Microsoft Research представили алгоритм, который может анимировать статичные кадры лиц с помощью необработанных записей речи людей. Созданная ими модель — контекстно-зависимая: она выделяет из аудио не только фонетические характеристики, но также и эмоциональный тон и сторонний шум, благодаря чему может наложить на статичный кадр все возможные аспекты речи.

Препринт статьи с описанием работы алгоритма доступен на arXiv.org.

Для анимирования статичных изображений в большинстве случаев используется перенос информации с видеозаписей на необходимый кадр. В решении этой задачи разработчики уже добились значительных успехов: сейчас существуют модели, которые могут достоверно переносить речь с видеоряда на статичный кадр, воссоздавая мимику говорящего.

Трудности в решении, однако, могут возникать в случае, если «оживить» изображения нужно с помощью аудиоряда: все существующие сейчас алгоритмы, которые могут перенести аудио на статичный кадр так, чтобы получилась натуральная анимация или даже видео процесса речи, ограничены тем, что могут работать только с чистой, хорошо слышимой речью, сказанной нейтральным голосом без эмоционального окраса. Человеческая речь, однако, достаточно многогранна и в идеале необходимо научить подобные алгоритмы воссоздавать все ее аспекты.

Заняться этим решили Гаурав Миттал (Gaurav Mittal) и Баоюань Ван (Baoyuan Wang) из Microsoft Research.

Подробнее
Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

N+1