Нейросеть Udacity создает цифровых лекторов для обучающего видео
Друзья, с момента основания проекта прошло уже 20 лет и мы рады сообщать вам, что сайт, наконец, переехали на новую платформу.
Какое-то время продолжим трудится на общее благо по адресу
На новой платформе мы уделили особое внимание удобству поиска материалов.
Особенно рекомендуем познакомиться с работой рубрикатора.
Спасибо, ждём вас на N-N-N.ru
Нейросеть LumièreNet образовательной онлайн-платформы Udacity научилась синтезировать видеолекции любой длины, умело сочетая аудиозапись с соответствующим визуальным рядом.
Записывать видео для образовательных платформ вроде Coursera или EdX — занятие хоть и благодарное, но трудоемкое. Профессиональные клипы делают в специально оборудованных студиях и программах для монтажа. Udacity, онлайновая образовательная организация, предлагающая свыше 100 000 курсов, решила радикально упростить процесс с помощью ИИ и автоматически генерировать видеолекции из аудиозаписей, рассказывает VentureBeat.
Метод специалистов Udacity отличается простотой, модульным подходом и полной автоматизацией процесса. Нейросеть анимирует лектора, заставляя фигуру двигаться, шевелить губами и моргать, имитируя поведение живого человека. До сих пор такого никто не делал, говорится в статье с описанием принципов работы нейросети LumièreNet, выложенной на Arxiv.org.
В модели LumièreNet есть компонент оценки позы, который синтезирует изображения фигуры из кадров набора данных, главным образом, путем локализации опорных точек на теле. Второй модуль — двунаправленная рекуррентная долгая краткосрочная память (BLSTM), которая обрабатывает данные в направлении вперед или назад, так что каждый вывод данных отражает предшествующие ему данные. Он отвечает за сопоставление аудиозаписи с визуальными элементами.
В качестве испытания LumièreNet разработчики записали лекцию длительностью около восьми часов. Нейросеть создала «убедительные» клипы с плавными жестами и реалистичным движением волос, но, как отмечают сами создатели, цифровая фигура не обманет внимательного зрителя. Например, виртуальный лектор редко моргает, иногда ненатурально двигает губами, а его руки почему-то не в фокусе.
Разработчики надеются, что добавление новых опорных точек в модель улучшит детализацию, а модульный дизайн нейросети позволит тренировать каждый компонент в отдельности.
- Источник(и):
- Войдите на сайт для отправки комментариев