Нейросеть распознает нужный музыкальный инструмент на видео и сделает его погромче

The Beatles в студии, 1966 год. Wikimedia Commons

Разработчики из MIT создали нейросеть, которая самостоятельно находит музыкальный инструмент на видео и определяет, как он звучит. Если на записи присутствует несколько инструментов, программа позволяет пользователю выбрать, какой именно он хочет послушать, просто кликнув на него. При этом для обучения программы не требуется размеченных данных, сообщается в работе, которая будет представлена на сентябрьской конференции по компьютерному зрению European Conference on Computer Vision (ECCV).

Очень часто для того, чтобы нейросеть научилась распознавать объекты на изображении или отдельные источники в звуковой дорожке, требуется большой набор размеченных данных. Однако проставлять метки приходится вручную, что занимает довольно много времени. Поэтому исследователи в последнее время все чаще используют альтернативные подходы к обучению программ, которые позволяют алгоритму самостоятельно получать необходимые знания.

Авторы новой работы под руководством Хан Чжао (Hang Zhao) создали нейросеть под названием PixelPlayer. Она состоит из трех компонентов — графического, аудио и синтезирующего. Первая нейросеть анализирует графические элементы видео, в то время как вторая анализирует спектрограмму аудиодорожки. Затем синтезатор сопоставляет определенные области на кадрах (фактически, наборы пикселей) с определенными звуками, чтобы определить, как звучит тот или иной инструмент.

Схема архитектуры системы. Одна сеть обрабатывает графические данные, другая аудио, а третья сопоставляет их. Hang Zhao et al / ArXiv, 2018

Для обучения системы ИИ программисты использовали 714 видео, на которых музыканты играют соло или дуэтом — суммарно записи длились 60 часов. Всего в них было представлено 11 категорий инструментов: аккордеон, акустическая гитара, виолончель, кларнет, эрху (китайская скрипка), флейта, саксофон, труба, туба, скрипка и ксилофон. Главная особенность алгоритма заключается в том, что он использует «самоконтролируемое» глубинное обучение: ему не требуется размеченных данных, которые бы указывали на то, как выглядит или звучит тот или иной инструмент. Всю необходимую информацию он извлекает самостоятельно, поэтому исследователи точно не знаю, какие именно особенности входных данных система считает значимыми.

На демонстрационном видео показано, что пользователю достаточно кликнуть в область кадра, где запечатлен инструмент, и программа сделает его звук громче. Кроме того, PixelPlayer позволяет регулировать громкость инструментов с помощью бегунка и, таким образом, редактировать аудиотрек. 

В будущем группа Чжао надеется улучшить качество звука, использовав больше обучающего материала. В будущем PixelPlayer может стать удобным инструментом для редактирования аудио, позволяя например улучшать или восстанавливать старые записи концертов. Кроме того, алгоритм может лечь в основу системы, которая позволит роботам различать источники окружающих звуков. 

В прошлом исследователи из лаборатории Facebook Research разработали метод превращения музыкальных записей в записи с другими инструментами, стилем и жанром. Она смогла переделать симфонию Моцарта в запись пианиста, играющего музыку Бетховена. Кристина Уласович

Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

nplus1.ru