Ожерелье с инфракрасной камерой распознает беззвучные команды

Инженеры из двух американских, канадского и китайского университетов разработали ожерелье SpeeChin, распознающее 54 команды на английском и 44 на китайском без звука. Оно снимает шею и лицо говорящего из-под подбородка на инфракрасную камеру, потом обрабатывает изображения и определяет команду. Разработчики проверили SpeeChin на 20 пользователях, и ожерелье распознавало безмолвные команды на английском со средней точностью 90,5 процента, а на китайском — 91,6 процента.

Результаты были опубликованы в Proceedings of the Association of Computing Machinery on Interactive, Mobile, Wearable and Ubiquitous Technologies.

Почти на всех современных смартфонах есть голосовые помощники, которые распознают и выполняют команды пользователя. Хотя за последнее время они научились это делать довольно точно, речевой ввод подходит не для любой ситуации. Например, использовать его в общественных или просто людных местах может быть некомфортно.

Для таких ситуаций инженеры разрабатывают альтернативные способы управления гаджетами. Например, умные очки J!ns Meme трансформируют в команды для смартфона прикосновения и потирания носа пальцами. А китайское приложение для смартфона распознает беззвучную речь по движениям губ и превращает ее в действия на устройстве.

Чжан Жуйдун (Ruidong Zhang) и его коллеги из Корнеллского университета, а также Калифорнийского университета, Чжецзянского университета и Университета Макгила разработали ожерелье SpeeChin, распознающее 54 беззвучных команды на английском и 44 на китайском. С помощью инфракрасной камеры оно снимает шею и лицо из-под подбородка. Затем изображения проходят предварительную обработку, после чего сверточная и рекуррентная нейросети распознают по ним речь.

Сверточные нейросети хорошо справляются с распознаванием изображений, звуков и другими подобными задачами. В них разные слои нейронов связаны через операцию свертки, в ходе которой используется ограниченная матрица весов небольшого размера, двигающаяся по предыдущему слою. Это позволяет наращивать большое число слоев без слишком больших вычислительных затрат. Но когда речь идет о последовательных данных переменной длины, у рекуррентных нейросетей есть свои преимущества. У них есть память и они способны работать с контекстом в длинных предложениях.

Чтобы проверить, как работает SpeeChin, Чжан Жуйдун и его коллеги провели два исследования с участием 20 пользователей. Первые десять отдавали беззвучные команды на английском, а вторые — на китайском. Например, «ответить», «позвонить», «камера», «ОК Google» или «WeChat». В это время камера фиксировала движения лица из-под подбородка. Камера была подключена к одноплатному компьютеру Raspberry Pi, а он — к монитору и кнопке управления, позволяющей запустить, поставить на паузу и остановить процесс сбора данных.

ozherele1.pngProceedings of the Association of Computing Machinery on Interactive, Mobile, Wearable and Ubiquitous Technologies

Результаты показали, что ожерелье распознает команды на английском со средней точностью 90,5 процента, а на китайском — 91,6 процента. Правда, когда пользователи двигались, точность определения команд была значительно ниже — 72,3 процента для английских и 65,5 процента для китайских — и резко менялась в зависимости от участника. У SpeeChin есть и другие ограничения. Например, в ярком солнечном свете на улице камере может быть сложно сегментировать человеческую кожу от фона. Еще ее обзору могут помешать длинные волосы или одежда. К тому же, у участников исследования английский не был родным языком, что тоже могло повлиять на результаты.

Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

N+1