Искусственный интеллект из фотографии делает видео

Интеллектуальная система на базе алгоритма глубокого обучения, разработанная в Массачусетском технологическом институте (MIT), способна анализировать статические картинки и добавлять к ним анимацию, отображающую вероятный сценарий дальнейшего развития событий.

Хотя генерируемые видеоролики длительностью не превышают секунды и имеют низкое качество, они в большинстве случаев верно интерпретируют ситуацию. Так, фотографию поезда система дополняет кадрами его постепенного движения по рельсам, волн — их набегания на берег,

Эта работа может стать родоначальницей нового типа технологий машинного зрения, наделяющих компьютеры способностью понимать как объекты перемещаются в реальном мире. Благодаря им роботы для дома, например, будут пододвигать стул под собирающегося усесться человека, а не убирать его.

k0vjgbbf.jpg

Для того, чтобы научить свою систему осознавать, что происходит на фотографии, исследователи тренировали две нейросети глубокого обучения на двух миллионах видеороликов Flickr общей длительностью 5 тыс. часов. Тренируемые сети конкурировали между собой. Одна из них генерировала синтетическое видео, а другая пыталась найти в нем отличия от реальных видеороликов.

В статье для журнала New Scientist один из авторов, Карл Вондрик (Carl Vondrick), указал, что аннотировать видео дорого и сложно, но для задач машинного обучения вполне подходят широкодоступные видеоматериалы без какой-либо разметки.

Ранее Вондрик тренировал на материалах Youtube и сериалах модели глубокого обучения предугадывать человеческие жесты и взаимодействия, такие как рукопожатие, обнимание или обмен поцелуями.

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (1 vote)
Источник(и):

ko.com.ua