Разговаривающие сами с собой люди научат искусственный интеллект поддерживать беседу

Fight Club / 20th Century Fox, 1999 Fight Club / 20th Century Fox, 1999

Британские разработчики предложили новый способ обучения искусственного интеллекта ведению беседы. Для этого они попросили людей поговорить с самим собой. Полученные диалоги, как сообщается в препринте, опубликованном на arXiv, намного эффективнее походит для обучения, чем, к примеру, корпус субтитров к фильмам. Из собранных данных исследователи также собрали корпус объемом 3,6 миллиона слов, включающий диалоги на 23 различные темы.

Голосовые помощники становятся умнее с каждым годом, но все еще имеют важный недостаток, а именно — не умеют качественно поддержать беседу. Это ограничение влияет не только на работу поддерживающих их сервисов, но также и на то, что без натурально выстроенного диалога искусственный интеллект никогда не сможет пройти тест Тьюринга. Конечно, всегда можно выбрать упрощенный вариант — к примеру, абстрактные фразы вроде «я не знаю» — но качественным диалогом назвать это удастся с трудом.

Главная причина этого недостатка — обучающая выборка. Для эффективного поддержания беседы компьютеру необходимо научиться вести диалог на миллионах настоящих человеческих бесед, но собрать достаточный корпус не так просто. В январе разработчики из Facebook собрали корпус из 160 тысяч отрывков диалогов: для этого они просили добровольцев общаться друг с другом от лица выдуманных персон. Результаты обученного на собранных данных чат-бота оказались вполне натуральными.

Другой способ создания корпуса диалогов предложили исследователи из Эдинбургского университета под руководством Иоакима Файнберга (Joachim Fainberg). Для этого они наняли людей с краудсорсинговой платформы Amazon’s Mechanical Turk и попросили их поговорить с самим собой на заданную тему: например, про кино, музыку или литературу. Весь диалог должен был состоять максимум из десяти реплик, а одна реплика была ограничена одним-двумя предложениями.

Пример диалога (тема: диснеевские фильмы)

1: Какой твой любимый фильм?
2: Думаю, что «Красавица и чудовище».
1: Это который новый?
2: Не, я про мультфильм. Просто он такой волшебный
1: А какой твой любимый фильм вообще?
2: Думаю, что «Звуки музыки».
1: Серьезно? Кроме как в мультфильмах и всем прочем мюзиклы меня не очень впечатляют.
2: Я люблю мюзиклы. Мне очень понравился «Призрак оперы».

Оказалось, что создание корпуса на основе диалогов с самим собой — эффективный метод с точки зрения используемых ресурсов. Для того, чтобы собрать корпус из настоящих диалогов, во-первых, нужно больше людей. Во-вторых, участникам часто приходится ждать ответа собеседника, что отнимает много времени. Использование для создания корпуса диалогов с самим собой позволило сократить общее время создания одного отрывка с 14,9 минуты до 6,5 минуты.

Всего в создании корпуса приняли участие 2717 человек, каждый из которых в среднем создал девять диалогов. Корпус содержит 141945 реплик и более трех миллионов слов, а заданные 23 темы касаются культуры и спорта и включают в себя бейсбол, футбол, «Звездные войны» и фильмы про супергероев.

Собрав корпус, ученые решили опробовать его в действии, обучив на нем чат-бота и сравнив его работу с таким же чат-ботом, обученном на корпусе OpenSubtitles. Диалоги, полученные после обучения на новом корпусе, как отметили авторы, получились более натуральными: 

Пример диалога (SD — корпус диалогов, OS — OpenSubtitles)

Какой твой любимый фильм о Гарри Поттере?
OS: Неплохо, Гойл!
SD: Мне все нравятся!

Скачать корпус можно в репозитории исследователей на GitHub.

Диалоги людей можно использовать не только для обучения искусственного интеллекта говорить. Недавно американские исследователи из MIT научили нейросеть диагностировать депрессию по речи пациента.

Автор: Елизавета Ивтушок

Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

nplus1.ru