Следуй за человеком. Об ориентировании роботов в толпе

Автор: Олег Сивченко. Минувшим летом я знакомил сына с Москвой, а также с моими московскими друзьями из разных времён. Мы даже успели заглянуть в офис Хабра в компании с @Boomburum Неудивительно, что нам довелось посетить разные уголки прекрасного московского метрополитена, считая светло синий Арбат, Смоленскую, ВДНХ, Сокол, Выхино, Некрасовку, Бауманскую и Окружную. Сын мне то и дело напоминал, что «нужно идти туда, куда больше людей идёт» — признаться, стратегия не лучшая, хотя и логичная.

Развивая его идею, я предложил ему пофантазировать, как бы в московском метро ориентировался робот, на что бы он обращал внимание? На инфографики, сквозняки, расположение эскалаторов или, всё таки, на человеческие потоки? Постепенно я пришёл к выводу, что в многолюдном пространстве именно человеческие потоки были бы самым важным ориентиром для мобильного робота, и под катом попробую разобрать этот вопрос подробнее.

Наверняка я бы и не подумал обращаться к этой теме, если бы не бесценный опыт помощи с подготовкой научных статей, приобретённый мной в 2019–2021 годах в лаборатории автономных робототехнических систем (ЛАРС) в институте СПИИРАН, бессменным руководителем которой с тех и до сих пор является уважаемый Антон Савельев.

Роботы и учёт риска

В настоящее время мобильные роботы всё активнее используются в многолюдных местах, где велик риск столкновения машины как с людьми, так и с препятствиями. Вездесущие роботы курьеры «Яндекса» попадаются на тротуарах, пешеходных переходах, заезжают на пандусы, в торговые центры и даже в лифты. В расширительном смысле к числу таких мобильных роботов можно отнести и беспилотные автомобили, в настоящее время ориентирующиеся как по данным лазерного дальномера (лидара), так и по алгоритмам компьютерного зрения.

Наиболее привычным мобильным роботом, уже вошедшим в повседневный быт и показательным для этой статьи, можно считать робот пылесос. Он использует как ультразвуковые, так и инфракрасные датчики, а также должен учитывать движение людей и домашних животных в помещении и эффективно обходить препятствия. Более совершенные роботы, действующие, например, в торговых рядах и музеях, должны учитывать разнообразные факторы риска (хаотическое перемещение людей, притом, что человек может резко менять скорость и направление движения) и неопределённость сенсорных данных.

Кроме того, в реальных условиях робот не всегда может полагаться на данные сенсоров из за потенциальной зашумленности, интерференции, перебоев со связью и даже из за собственного движения камеры. Робот вполне может приобретать навыки движения в толпе при помощи обучения с подкреплением (reinforcement learning), однако простого метода «проб и ошибок» в данном случае недостаточно. У робота также должно быть реализовано представление о риске. Различные варианты алгоритмов для оценки рисков находятся на стыке психологии и теории вероятностей, но у мобильного робота логика избегания рисков должна быть двоякой: не повредить себя и не навредить человеку.

Разработаны такие модели оценки риска, как совокупная теория перспектив (CPT), ожидаемый риск (ER, Expected Risk), условные средние потери (CVaR), но в случае с мобильным роботом все они недостаточны, пусть и полезны. Требуется алгоритмизировать человеческое восприятие рисков — например, понять, как учится пользоваться нерегулируемым пешеходным переходом человек, не привыкший к плотному городскому трафику.

Для алгоритмизации таких процессов нужно понять, как они строятся у человека. Это один из вопросов, рассматриваемых в рамках «объяснимого искусственного интеллекта (XAI). Такая концепция помогает уводить искусственный интеллект от модели «чёрного ящика», и благодаря этому решения робота становятся понятнее, логичнее, аккуратнее и, в конечном итоге, безопаснее.

Учёт риска и работа по стратегии «play it safe» (избегание опасности) — это линейный процесс принятия решений, используемый, в частности, в навигационных алгоритмах и при прокладывании пути.

Ранее для количественной оценки рисков зачастую использовалась стратегия CVaR, вполне удобная, например, для складских колёсных роботов. Тем не менее, для людей характерны спонтанные, нелинейные и не всегда логичные приёмы принятия решений, поэтому постепенно на смену CVaR приходит CPT, более сложная в алгоритмическом отношении, но при этом учитывающая более разнообразные случаи, гибкая и надёжная. Совокупная теория полезности уже применяется при автоматическом регулировании перекрёстков, а также в сценариях, когда робот должен последовательно обойти несколько точек и собрать в них груз. Однако избегание столкновений с людьми зачастую входит в противоречие с более линейной стратегией избегания препятствий и требует длительных испытаний с участием людей. Люди, которые могут участвовать в таком испытании, доподлинно знают, что подвергаются риску, поэтому вряд ли смогут вести себя естественно. Именно поэтому развивается новая парадигма, при которой робот ориентируется на движение людей и, в более общем случае, на движение толп. В таком случае человек служит для робота «сенсором». Робот опирается на стратегию движения человека как на рациональную. При этом искусственный интеллект нарабатывает опыт методом обучения с подкреплением.

Интересно, что такие исследования подсказывают, что человек не слишком хорошо ориентируется в толпе, либо в запутанных коридорах, а также забывает, как и куда ходил в прошлый раз. Робот оттачивает человеческие стратегии поиска пути и может целенаправленно выбирать такой путь, где вероятность столкновения с человеком будет как можно ниже.

Подробнее
Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

Хабр