Важно ли, что компьютеры и люди видят мир по-разному?

По некоторым параметрам машинное зрение превосходит человеческое. По другим, возможно, оно никогда нас не догонит.

Когда инженеры впервые решили научить компьютеры видеть, они считали само собой разумеющимся, что компьютеры будут видеть всё так же, как люди. Первые предложения по компьютерному зрению из 1960-х были «очевидно мотивированы характеристиками человеческого зрения», — сказал Джон Цоцос, специалист по информатике из Йоркского университета. С тех пор многое поменялось.

Компьютерное зрение переросло стадию воздушных замков и превратилось в активно развивающуюся область. Сегодня компьютеры опережают людей в некоторых задачах по распознаванию образов, к примеру, в классификации картинок («собака или волк?») или обнаружении аномалий на медицинских фотографиях. И процесс обработки визуальных данных «нейросетями» всё сильнее отличается от процесса, используемого людьми.

Компьютеры обыгрывают нас в нашей же игре, играя в неё по другим правилам.

Лежащие в основе компьютерного зрения нейросети – штука довольно простая. Они получают на вход изображение и обрабатывают его в несколько этапов. Сначала они распознают пиксели, потом грани и контуры, потом объекты целиком, и в итоге выдают догадку о том, что им подсунули. Эти системы называются нейросетями прямого распространения, поскольку их работа похожа на конвейер.

Мы многого не знаем о человеческом зрении, но знаем, что оно так не работает. В нашей недавней истории Математическая модель раскрывает секреты зрения мы описали новую математическую модель, которая пытается объяснить главную загадку человеческого зрения: как зрительная кора мозга воссоздаёт яркие и точные представления о мире на основе скудной информации, которую она получает от сетчатки.

Эта модель предполагает, что зрительной коре удаётся работать благодаря последовательности нейронных петель обратной связи, перерабатывающих небольшие изменения данных, поступающих из внешнего мира, в разнообразный спектр изображений, предстающих перед нашим внутренним восприятием. Этот процесс с обратной связью сильно отличается от методов прямого распространения, с которыми работает компьютерное зрение.

«Данная работа демонстрирует, насколько работа зрительной коры сложна, и каком-то смысле, отлична» от компьютерного зрения, сказал Джонатан Виктор, нейробиолог из Корнеллского университета.

Однако в некоторых задачах компьютерное зрение превосходит человеческое. Возникает вопрос: а нужно ли вообще строить схемы компьютерного зрения, опираясь на человеческое?

В каком-то смысле, ответ на него будет отрицательным. Информация, доходящая до зрительной коры, ограничивается анатомией: с внешним миром зрительную кору соединяет относительно небольшое количество нервов, что ограничивает количество визуальных данных, с которыми приходится работать зрительной коре. У компьютеров нет таких проблем с пропускной способностью, поэтому им нет причин для того, чтобы работать с недостатком информации.

«Если бы у меня были бесконечные вычислительные мощности и бесконечная память, нужно бы мне было ограничивать поток информации? Вероятно, нет», — сказал Цоцос. Однако он думает, что пренебрегать человеческим зрением неосмотрительно.

Задачи классификации, в которых компьютеры достигли успеха в наше время, слишком простые для компьютерного зрения, говорит он. Чтобы успешно решать эти задачи, нужно лишь находить корреляции в массивных наборах данных. Для более сложных задач, типа осмотра объекта с разных углов зрения с целью распознать его (примерно как человек знакомится со статуей, обходя её с разных сторон), таких корреляций может оказаться недостаточно. Для правильного их выполнения компьютерам, возможно, придётся поучиться у человека.

В прошлом году в интервью нашему журналу пионер искусственного интеллекта Джуда Перл говорил о том же в более общем контексте, утверждая, что корреляционного обучения окажется недостаточно для развития ИИ-систем в долгосрочной перспективе.

К примеру, ключевой особенностью зрения человека является замедленная реакция. Мы обрабатываем зрительную информацию и приходим к заключению о том, что мы видим. Когда это заключение нас не устраивает, мы смотрим на происходящее ещё раз, и часто этот второй взгляд точнее сообщает нам о том, что происходит. У систем компьютерного зрения, работающих по схеме прямого распространения, нет такой возможности, из-за чего они часто с треском проваливают даже простейшие задачи по распознаванию образов.

У человеческого зрения есть и ещё один, менее явный и более важный аспект, которого не хватает компьютерному зрению.

Зрительная система человека совершенствуется годами. В работе 2019 года, которую Цоцос писал вместе с коллегами, было обнаружено, что способность подавлять зашумлённость в перенасыщенной деталями сцене и сосредотачиваться на том, что им нужно, появляется у людей только в возрасте около 17 лет. Другие исследователи обнаружили, что возможность распознавать лица постоянно улучшается вплоть до 20 лет.

Системы компьютерного зрения работают, переваривая огромные массивы данных. Лежащая в их основе архитектура фиксирована и не меняется со временем так, как это происходит в мозге. А если базовые механизмы обучения настолько различны, не будут ли различными и результаты? Цоцос считает, что системы компьютерного зрения в итоге ждёт расплата.

«Обучение у этих методов глубокого обучения находится настолько далеко от обучения человека, насколько это возможно, — сказал он. – Поэтому, как мне кажется, их ждёт тупик. Они достигнут предела развития, за который уже не смогут выйти».

Автор: Вячеслав Голованов

Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

Хабр