Нейросеть Udacity создает цифровых лекторов для обучающего видео

Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.

Какое-то время продолжим трудится на общее благо по адресу https://n-n-n.ru.
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.

Спасибо, ждём вас на N-N-N.ru

Нейросеть LumièreNet образовательной онлайн-платформы Udacity научилась синтезировать видеолекции любой длины, умело сочетая аудиозапись с соответствующим визуальным рядом.

Записывать видео для образовательных платформ вроде Coursera или EdX — занятие хоть и благодарное, но трудоемкое. Профессиональные клипы делают в специально оборудованных студиях и программах для монтажа. Udacity, онлайновая образовательная организация, предлагающая свыше 100 000 курсов, решила радикально упростить процесс с помощью ИИ и автоматически генерировать видеолекции из аудиозаписей, рассказывает VentureBeat.

Метод специалистов Udacity отличается простотой, модульным подходом и полной автоматизацией процесса. Нейросеть анимирует лектора, заставляя фигуру двигаться, шевелить губами и моргать, имитируя поведение живого человека. До сих пор такого никто не делал, говорится в статье с описанием принципов работы нейросети LumièreNet, выложенной на Arxiv.org.

В модели LumièreNet есть компонент оценки позы, который синтезирует изображения фигуры из кадров набора данных, главным образом, путем локализации опорных точек на теле. Второй модуль — двунаправленная рекуррентная долгая краткосрочная память (BLSTM), которая обрабатывает данные в направлении вперед или назад, так что каждый вывод данных отражает предшествующие ему данные. Он отвечает за сопоставление аудиозаписи с визуальными элементами.

В качестве испытания LumièreNet разработчики записали лекцию длительностью около восьми часов. Нейросеть создала «убедительные» клипы с плавными жестами и реалистичным движением волос, но, как отмечают сами создатели, цифровая фигура не обманет внимательного зрителя. Например, виртуальный лектор редко моргает, иногда ненатурально двигает губами, а его руки почему-то не в фокусе.

Разработчики надеются, что добавление новых опорных точек в модель улучшит детализацию, а модульный дизайн нейросети позволит тренировать каждый компонент в отдельности.

Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

ХайТек+