Что видит машина: обзор самых перспективных разработок в области CV и ML

Спрос на системы компьютерного зрения растет. Российский сегмент рынка к 2025 году может достигнуть 51,75 млрд рублей при среднегодовых темпах роста порядка 20,4%. Благодаря обширной научной работе многих исследователей, за последние семь лет эти технологии миновали стадию хайпа и сейчас уверенно выходят на плато продуктивного использования. Главные общемировые тренды, а также актуальные исследования отечественных и зарубежных ученых обсудили на саммите Machines Can See 2022. Подробнее о наиболее перспективных инновациях — в нашем обзоре.

Заглянуть в будущее

Мировая практика показывает, что основное применение системы машинного зрения находят в промышленности, ритейле, банковском секторе, а также системах «умного города». Эти тренды задают векторы для теоретических изысканий и инновационного производства как в России, так и за рубежом. В конференции Machines Can See приняли участие представители Китайской академии наук, ученые из Южной Кореи, а также специалисты Центра прикладного ИИ Сколтеха, Яндекса, Сбера и других организаций.

Наиболее актуальными и свежими исследованиями в области систем компьютерного зрения поделились исследователи из крупнейших российских и иностранных AI-лабораторий. Остановимся подробнее на наиболее перспективных и востребованных направлениях.

Распознавание динамических жестов

Бесконтактное управление мультимедийной системой используется сегодня в некоторых автомобилях премиальных брендов. Технологию можно применять и в более широком поле: для взаимодействия с любой «умной» домашней техникой. Пока все разработчики сталкиваются с похожими проблемами: трудно «объяснить» машине, какие жесты она должна воспринимать и исполнять, а какие — игнорировать. К тому же это нужно успевать отрабатывать в реальном времени.

Об успешном кейсе рассказал директор по исследованиям VisionLabs Александр Чигорин. Описывая путь от бейзлайна до работающего решения, он подробно остановился на проработке алгоритмов для распознавания двух базовых жестов: свайпа и вращения. Разработчики старались выбрать движения максимально непохожие не те, которые человек совершает в быту, дабы избежать большого количества ложных срабатываний. При этом жест должен оставаться интуитивно понятным для пользователя. Компромисс удалось найти за счет смещения во времени момента, когда система начинает распознавать движение.

«Жест — растянутое во времени событие, оно занимает несколько кадров. Но системе нужно выдать одно событие: жест произошел. И чем раньше это событие выдать — тем лучше, ибо тогда остается больше времени на принятие решения по нему. Чем больше кадров увидит система, тем лучше она сможет предсказать жест — поэтому с точки зрения алгоритма, нам выгоднее сместить предсказание ближе к концу», — подчеркнул он.

Поэтому событием предлагается считать момент, когда совершено две трети жеста — именно тогда нейросеть ResNet-18 начинает предсказывать жест на основе анализируемых входных данных, за которые берется набор из 12 расширенных кропов лица (RGB). В качестве метрик используются кривые типа precision-recall: правильными срабатываниями считается первое событие, попавшее в интервал жеста, если он предсказан правильно. А все последующие события, попадающие в тот же интервал, считаются ложными. Также к ложным относится все, не попавшее в интервал. Для большей же эффективности предлагается использовать модуль темпорального сдвига (temporal shift module), который значительно сокращает время обработки и позволяет использовать обычные операции.

Компьютерное зрение и визуальный поиск

Трудно переоценить пользу такого сервиса в быту: это и подбор одежды и аксессуаров по фото понравившейся модели, и поиск знакомых на массовых мероприятиях, а в перспективе — поиск потерянных вещей. Однако при разработке такого решения нужно иметь хорошую тестовую метрику, отметил старший разработчик Яндекса Роман Исаченко.

Основные сложности заключаются в дифференциации разных доменов: если один и тот же предмет сфотографирован в студийных условиях и на смартфон, система может не признать их тождество. А идея заключается в том, чтобы человек мог, например, снять понравившийся диван и найти его на сайте производителя. Также осложняет работу семантическое пространство большой размерности. В основе технологии — нейросеть, которая извлекает из изображения признаки для решения downstream-задач. Но для стабильной работы необходимо уделить большое внимание очистке — ведь поступающие данные часто довольно «грязные», что осложняет работу нейросети.

Мультимодальные архитектуры в генерации изображений по описанию

Этот тренд в машинном обучении начал особенно активно формироваться в 2021 году. Именно тогда ИИ, работающий с текстом, звуками и картинками, получил наиболее интенсивное развитие — появились, в частности, такие широко известные продукты, как DALL-E, CLIP, CogView. Процедурная генерация изображений по словесному запросу облегчит труд дизайнеров и найдет широкое применение в рекламе. К тому же, картинки, свободные от авторских прав, можно генерировать в неограниченных объемах.

Нейросеть Kandinsky на базе ruDALL-E после обучения способна создавать не только простые рисунки, но и сложные изображения — интерьеры, портреты людей или детализированные образы животных. Основные принципы успешного применения мультимодальных архитектур в задачах генерации изображений по описанию на этом примере раскрыл исполнительный директор по исследованию данных Sber AI Андрей Кузнецов.

Представление сцен с помощью графов

Компьютерное зрение активно развивается и уже нашло практическое применение в решении целого ряда задач. Решить задачу повышения качества получаемого изображения может анализ и построение сцен на базе формирования графов. Своими успехами в этой области поделился профессор Института вычислительных технологий Китайской Академии наук Силинь Чен.

Поскольку большинство стандартных систем рассматривает все взаимосвязи как равноценные, китайские ученые решили строить графы, которые бы соответствовали особенностям человеческого восприятия. А именно: структура, выстроенная от крупного к мелкому — чтобы объекты большего размера имели больший приоритет. Также каждому объекту дается весовой коэффициент, что позволяет определить, в какой момент они распознаются. На этой основе строится предварительный график — иерархическое дерево сущностей. Уже на нем базируется гибридная сеть для улучшения этого графа.

Визуальное соответствие в системах компьютерного зрения высокого уровня

Проблема соответствия — это, фактически, вопрос обнаружения объектов. Машине нужно понять, как соотносятся части изображения между собой и сделать вывод — какая деталь относится к тому или иному объекту. Считается, что эта проблема характерна для компьютерного зрения низкого и среднего уровня. Но в таких задачах, как редактирование объектов, распознавание объектов также очень важно. Тему раскрыл исследователь из Южной Кореи — доцент Пхоханского университета науки и технологий Минсу Чо.

Человек, открывая глаза, получает данные об окружающем пространстве, даже не задумываясь — нейросети же нужно выполнить ряд операций. В первую очередь — совмещение серии изображений. Это позволит оценить глубину сцены, после чего можно оценивать соответствие объекта тому или иному слою, ближнему или более дальнему плану изображения. Далее в дело вступают поиск и оценка геометрического соответствия на основе преобразования Хафа. Также вводится показатель доверия, позволяющий оценить, насколько хорошо выполнен подбор. Надежность работы слоев можно компенсировать и оценить численно. В итоге получается соответствие более высокой точности.

Интерес научного сообщества к теме компьютерного зрения только крепнет — оно вошло в список 15 наиболее значимых цифровых технологий для российской промышленности по версии НИУ ВШЭ. Аналитики ожидают в ближайшие годы средний темп прироста в этом секторе не ниже 8,2%. В системах CV заинтересованы представители бизнеса из самых разных секторов: от производства до телекома и ритейла.

Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

ХайТек+