Голосовой помощник в смартфоне научили распознавать беззвучную речь

Практически все современные смартфоны оборудованы голосовыми помощниками, распознающими и выполняющими команды пользователя. За последние годы разработчикам удалось довести уровень точности распознавания речи алгоритмами до уровня специалистов по набору текста, а также научить помощники поддерживать диалог, запоминая контекст предыдущих команд. Тем не менее, исследования показывают, что большинство людей не используют голосовые помощники в общественных местах, поскольку при этом они чувствуют себя некомфортно.

Юаньчунь Ши (Yuanchun Shi) и его коллеги из Университета Цинхуа разработали голосовой помощник для смартфонов, умеющий распознавать речь по движениям губ, даже если пользователь не издает звуков.

Во время работы приложение определяет лицо в кадре с камеры смартфона и после этого начинает отслеживать положение 20 контрольных точек, которые достаточно точно описывают форму губ. Кроме того, он определяет степень открытости рта, что позволяет отслеживать моменты начала и конца команды. После этого данные передаются на другой алгоритм на основе сверточной нейросети, который занимается непосредственно распознаванием речи по движениям губ. Стоит отметить, что пока разработчики реализовали распознавание не на самом смартфоне, а на дополнительном и достаточно мощном компьютере.

golos.pngПример создания контрольных точек на видео с камеры Ke Sun et al. / UIST, 2018

Авторы приложения разработали для него 44 команды, часть из которых относится ко всей системе, к примеру, включение Wi-Fi, часть к конкретным приложениям, а еще одна часть позволяет взаимодействовать с любым приложением с помощью системных служб, например, выделять текст. При этом приложение понимает контекст команд, к примеру, если система отобразила всплывающее окно с сообщением, то пользователь сможет быстро ответить на него.

golos1.png Поддерживаемые команды Ke Sun et al. / UIST, 2018

Разработчики проверили точность распознавания, обучив систему на примерах речи 21 человека, и проверив на речи еще одного. Средняя точность распознавания оказалась равной 95,5 процента. Кроме того, авторы проверили, насколько их приложение удобнее голосового ввода в общественных местах, и провели эксперимент в пекинском метро. Во время эксперимента пять пар добровольцев оценивали конфиденциальность и комфорт использования приложения, при этом один из них выполнял команды, а второй выступал в роли пассажира. Испытания показали, что в обоих случаях люди считают беззвучные команды более комфортными и конфиденциальными, чем голосовые команды, причем окружающие люди чувствовали себя более комфортно, чем сам пользователь.

Автор: Григорий Копиев

Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

nplus1.ru