ИИ Facebook синтезирует речь за 500 миллисекунд

Facebook представила крайне эффективную систему преобразования текста в речь в режиме реального времени, для работы которой достаточно обычных процессоров. Она уже используется в Portal, умном дисплее компании, а в скором будущем научится распознавать основные европейские акценты.

Система искусственного интеллекта в тандеме с новым методом сбора данных, разработанным специалистами Facebook, способна синтезировать секунду аудио за 500 миллисекунд. С их помощью разработчики сумели создать голос, говорящий с британским акцентом, всего за шесть месяцев, а не за год с лишним, как раньше, пишет Venture Beat.

Большинство современных систем синтеза речи требуют графических карт, программируемых логических интегральных схем (ПЛИС) или специально разработанных ИИ-чипов вроде тензорных процессоров Google. Кроме того, им нужны десятки тысяч образцов. Все это, к тому же, обходится не дешево.

Система Facebook обещает высококачественные голоса без необходимости в специальном аппаратном обеспечении, при этом скорость синтеза в 160 раз выше по сравнению с базовыми показателями. Она состоит из четырех элементов, каждый из которых отвечает за отдельный аспект речи: лингвистический интерфейс, просодическая модель, акустическая модель и нейронный вокодер.

Настройки стиля позволяют клиенту задавать характер звучания нового голоса: мягкий, быстрый, напористый, участливый и т. д. из небольшого объема дополнительных данных. На создание каждого стиля уходит всего от 30 до 60 минут, на порядок меньше, чем у аналогичных систем Amazon.

Разработчики намерены еще больше «облегчить» систему, чтобы ее можно было использовать на небольших устройствах. Кроме того, в скором времени она научится понимать устную английскую речь с французским, немецким, итальянским и испанским акцентами.

Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

ХайТек+