Google научила алгоритм прямому переводу устной речи

Компания Google разработала алгоритм, способный напрямую переводить речь на другой язык, не используя текстовое представление сказанных слов. Кроме того, алгоритм может сохранять характеристики голоса человека на переведенной записи.

Описание разработки опубликовано в блоге Google AI, а также в статье на arXiv.org.

Современные смартфоны и умные колонки умеют переводить на другие языки не только текст, но и речь. К примеру, недавно Google добавила такую функцию в голосовой помощник Assistant.

Подобные системы имеют технические различия, но в целом устроены похоже и перевод в них проходит в три этапа. Сначала алгоритм распознает слова на аудиозаписи и создает текстовое представление речи. Затем происходит перевод текста на исходном языке в текст на требуемом языке. На последнем этапе используется система синтеза речи, превращающая переведенный текст в аудиозапись.

Такой подход работает достаточно хорошо, но он имеет и недостатки. К примеру, из-за отсутствия прямой связи между исходной и синтезированной записью речи алгоритм может некорректно передавать интонации и паузы.

Разработчики из Google под руководством Юнхуэя У (Yonghui Wu) создали алгоритм, переводящий речь с одного языка на другой без использования промежуточного перевода речи в текстовое представление. Созданный разработчиками алгоритм представляет собой набор из нескольких отдельных алгоритмов, часть из которых использует архитектуру нейросети с долгой краткосрочной памятью(LSTM). Подробнее
Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 4.8 (4 votes)
Источник(и):

N+1