DeepMind учит роботов общаться жестами

Исследовательская лаборатория DeepMind придумала, как сделать поведение роботов более экспрессивным и похожим на человеческое. Она создала метод GenEM (генеративное выразительное движение), который использует свойства больших языковых моделей, чтобы роботы могли полноценно общаться с людьми при помощи жестов. Например, кланяться, когда видят знакомого человека, или махать ему рукой. БЯМ подсказывают роботу, как нужно вести себя в определенной ситуации, и как конкретно он может это сделать.

Учёные из Университета Торонто, DeepMind и Hoku Labs решили использовать не правила и шаблоны, а научить роботов понимать социальный контекст и реагировать на него доступными способами. Плюс этого подхода в том, что достаточно опираться на возможности БЯМ и робот самостоятельно научится вести себя экспрессивно и вежливо. Нарочно обучать его чему-то и задавать правила не придётся. Кроме того, GenEM позволяет роботам адаптироваться под среду и свои возможности.

Метод использует несколько шагов, на каждом из которых участвует отдельный агент БЯМ, выполняющий уникальную задачу. Первый агент БЯМ анализирует, какое поведение будет подходящим в данной социальной ситуации исходя из инструкций на естественном языке. Это может быть конкретное действие, такое как «кивни головой», или описание ситуации, требующей определённого поведения.

Затем другой агент решает, как человеческие жесты могут быть переведены в действия робота, учитывая его возможности. Например, это имитация улыбки через световые сигналы. Потом новый агент преобразует эти инструкции в конкретный исполняемый код, используя API робота, что позволяет ему выполнить заданное действие. В дополнение к этим шагам, GenEM может адаптировать и улучшать поведение робота, учитывая обратную связь от человека, и генерировать новые модели поведения, комбинируя и дополняя существующие.

Исследователи сравнили поведение, созданное с помощью GenEM, с традиционными методами разработки поведения для роботов, такими как те, что создают профессиональные аниматоры. Они использовали GPT-4 от OpenAI, чтобы проанализировать социальный контекст и заставить роботов общаться жестами. Опросы пользователей показали, что поведение, сгенерированное с помощью GenEM, оказалось столь же понятным и эффективным, как и тщательно разработанное аниматорами. Многоэтапный подход GenEM, который опирается на обратную связь от пользователей, работает лучше, чем прямое преобразование инструкций в действия одной БЯМ.

Особенно важно, что GenEM может адаптироваться к различным типам роботов без обучения на специальных наборах данных. Это достигается за счет использования способностей БЯМ к рассуждению. Однако исследователи также отмечают, что GenEM находится на ранних этапах разработки и требует дальнейших исследований, особенно в сценариях, где взаимодействие между роботами и людьми происходит многократно. Его также надо испытать на роботах с более широким набором действий.

Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

ХайТек+