Следующие цели в гонке ИИ — объяснимость и обучаемость

Последние несколько лет ознаменовались прорывными достижениями в технологии нейронных сетей, например, их способностью самостоятельно обыгрывать любого из живущих на Земле людей в сложнейшую из игр, придуманных человечеством, а также синтезировать изображения и голоса существующих и несуществующих людей так, что их не отличить от реальных.

Является ли это торжеством искусственного интеллекта над человеческим? Если нет, то над чем еще предстоит работать исследователям и разработчикам, чтобы сделать победителей в гонке за ИИ «властелинами мира»?

История текущего момента

На протяжении последних 60 лет термин «искусственный интеллект» (ИИ) был предметом оживленных дискуссий среди исследователей, придерживающихся различных школ мысли и развивающих свои подходы. Это обусловлено тем в немалой степени и тем, что даже понятие «естественного интеллекта» не является общепринятым и вызывает определенные разногласия. Соответственно, объективная оценка уровня развития ИИ, перспектив его совершенствования и тем более необходимых для этого направлений исследования не может быть отделена от субъективных мировоззренческих позиций исследователей и практического опыта разработчиков.

За последние несколько лет среди исследователей и разработчиков стал широко использоваться термин «общий интеллект» — способность решать когнитивные задачи в целом, действуя целенаправленно, адаптируясь к условиям среды через обучение, минимизируя риски и оптимизируя потери на достижение поставленных целей. В этой связи возникло понятие «общий искусственный интеллект» (ОИИ или AGI, artificial general intelligence), которым в той или иной степени потенциально может обладать не человек, а робототехническая система, обладающая достаточной вычислительной мощностью. Многие называют такой вид интеллекта «сильным ИИ» в противопоставление «слабому ИИ», который стал обыденным в последние годы.

По мере развития прикладных технологий в сфере ИИ на протяжении последних 60 лет можно видеть, как многочисленные практические решения — базы знаний, экспертные системы, системы распознавания образов, предсказания событий, слежение и управление различными технологически процессами — перестают рассматриваться как системы ИИ и становятся просто прикладными решениями. Соответственно, планка, определяющая критерии ИИ, постепенно повышается, и сегодня в большинстве дискуссий предполагаются именно гипотетические системы «общего интеллекта», интеллекта человеческого уровня или «сильного интеллекта». Уже работающие технологии разделяются на инженерию знаний (knowledge engineering), науку о данных (data science) либо специфические области «узкого искусственного интеллекта» (emnarrow AI), сочетающие элементы различных подходов в области ИИ со специализированными гуманитарными либо математическими дисциплинами — предсказание динамики финансовых рынков или погоды, распознавание речи и текстов, обработка естественного языка. Различные исследовательские школы, работающие в различных парадигмах, также имеют в виду свои собственные трактовки областей применения, задач, определений и перспектив ИИ, зачастую считая альтернативные подходы неприемлемыми. Однако в последние несколько лет наблюдается синергическая конвергенция различных подходов и все больше исследователей и разработчиков рассматривают гибридные модели и подходы, включая различные комбинации.

С самого начала истории развития ИИ-технологий и до последнего времени можно выделить всего два наиболее популярных подхода. Первый, так называемый символический или символьный (symbolic в англоязычной литературе), заключается в том, что ИИ берет свое начало из философии, логики и математики и оперирует с логическими правилами, знаковыми и символьными системами, интерпретируемыми в терминах сознательного когнитивного процесса человека. Второй подход (по сути — бионический) называют коннекционистским, нейросетевым, нейроморфным, ассоциативным или субсимвольным (subsymbolic), который предполагает воспроизведение физических структур и процессов человеческого мозга, выявляемых в ходе нейрофизиологических исследований. На протяжении 60 лет оба подхода динамически развивались, непрерывно двигаясь в сторону друг друга. Например, системы логического вывода, основанные на булевой алгебре, трансформировались в системы нечеткой логики или вероятностного программирования, воспроизводя сетевые архитектуры, конформные «нейронным сетям», эволюционировавшим в рамках нейроморфного подхода. С другой стороны, методы на основе «искусственных нейронных сетей» очень далеки от воспроизведений функций реальных биологический нейронных сетей и в большей степени используют математические методы из линейной алгебры и тензорного анализа.

Есть ли «дыры» в нейронных сетях?

Последнее десятилетие характеризуется взрывным ростом достижений в области именно коннекционистского или субсимвольного подхода в виде применения методов машинного обучения в широком спектре прикладных задач. В качестве конкретных методов могут выступать как классические статистические техники вроде логистической регрессии, так и современные достижения в моделировании искусственных нейронных сетей, такие как глубокое обучение и обучение с подкреплением. Прорыв последнего десятилетия обусловлен не столько появлением новых идей, сколько накоплением критической массы размеченных корпусов данных для обучения, низкой стоимостью хранения колоссальных объемов обучающих выборок и главное — резким снижением стоимости вычислений, включая возможность использования специализированного, относительно дешевого аппаратного обеспечения для моделирования искусственных нейронных сетей. Сочетание этих факторов позволило осуществить прорыв — сделать возможным обучение и настройку нейросетевых алгоритмов для совершения качественного скачка, а также обеспечить экономически эффективное решение широкого спектра прикладных задач классов распознавания, классификации и предсказания. Наибольшие успехи в этой области демонстрируют системы, основанные на сетях «глубокого обучения» («deep learning»), реализующих идею предложенного 60 лет назад «перцептрона» Розенблатта. Однако достижения в использовании нейронных сетей также сопровождались обнаружением целого ряда проблем, не решаемых имеющимися нейросетевыми методами.

Во-первых, любая классическая нейросетевая модель, обученная на сколь угодно большом объеме данных и дающая сколь угодно точные предсказания, остается черным ящиком и не дает возможности объяснить причины принятия того или иного решения или тем более раскрыть структуру и содержание знаний, полученных ей в процессе обучения. Это делает невозможным применение нейросетей в областях, где объяснимость необходима по юридическим причинам или в силу требований безопасности. Например, принятие нейросетью решения на отказ в выдаче кредита или на совершение опасной хирургической операции должно быть аргументировано по юридическим соображениям, а случай запуска нейросетью боевой ракеты по гражданскому самолету должен предполагать возможность выявления причин для корректировки, чтобы исключить повторение подобной ситуации.

Во-вторых, попытки понять природу работы современных нейросетей показывают их слабую способность к генерализации. Нейросети запоминают отдельные, зачастую случайные детали предъявленных в ходе обучения образцов и принимают дальнейшие решения на основе этих деталей, а не на основе полноценного обобщенного предмета, представленного во всех образцах. Например, нейросеть, натренированная распознавать слонов и китов на стандартном наборе изображений, в случае предъявления ей кита, выброшенного на берег, будет видеть в нем слона, а купающегося в прибое слона будет распознавать как кита. Нейросети обладают хорошей способность к запоминанию ситуаций в однотипных контекстах, но они не имеют способности к пониманию ситуаций и не могут экстраполировать сформированные знания на ситуации, проявляющиеся в необычных контекстах.

В-третьих, случайность, фрагментарность и непрозрачность нейросетевых моделей открывает возможность к подбору способов взлома приложений на их основе методом adversarial attack. Например, система безопасности, обученная идентифицировать людей в видеопотоке может быть сбита с толку человеком, одетым в необычно пеструю одежду — такой человек, ворующий товары с прилавка, будет для системы неотличим от прилавка с этими товарами. В то время как даже человеческое зрение на уровне мозга может быть подвержено так называемым оптическим иллюзиям, в современных нейросетях это имеет куда как более драматические масштабы — известны примеры, когда замена изображения шумом приводит к распознаванию несуществующего предмета или замена одного пиксела на изображении приводило к распознаванию предмета, отличного от предъявленного.

В-четвертых, неадекватность информационной емкости и параметров нейросети той картине мира, образцы которой предъявляются ей в процессе обучения и эксплуатации, могут приводить к практически значимой проблеме катастрофического забывания (catastrophic forgetting). Проблема проявляется в том, что система, сначала наученная распознавать ситуации в одном наборе контекстов, а потом до-обученная к распознаванию их в новом наборе контекстов, может перестать распознавать их в старом наборе контекстов. К примеру, нейросетевая система машинного зрения, изначально обученная распознавать пешеходов в городской среде, может оказаться неспособной распознавать собак и коров в условиях деревни, а до-обучение системы на распознавание коров и собак может привести к тому, что она перестанет различать пешеходов или начнет путать их с небольшими деревьями на обочине дороги.

Есть куда расти?

По мнению экспертного сообщества, существует целый ряд принципиальных проблем, которые предстоит решить для создания «общего» или «сильного ИИ». В частности, как показала крупнейшая ежегодная международная конференция по ИИ, прошедшая в Макао, необходимость так называемого «объяснимого ИИ» и возможности «обучения через передачу знаний» являются практически необходимыми в целом ряде случаев — в вопросах обороны, безопасности, здравоохранения и финансов. Также, по мнению многих ведущих исследователей, эти две задачи являются ключом к созданию «общего» или «сильного ИИ».

Объяснимость ИИ (explainable AI) — это возможность человека — пользователя системы ИИ — понимать причины принятия системой тех или иных решений для возможности верификации этих решений в случае их корректности, либо принятия решения о доработке или до-обучения системы в случае их некорректности. Это может достигаться как соответствующим (объяснимым) способом представления знаний, так и специальными способами извлечения этих знаний по конкретным прецедентам, либо всей предметной области в целом. В расширительном понимании речь идет также о способности системы ИИ хранить или хотя бы представлять накопленные ей знания в понятной человеку и верифицируемой им форме. Последнее может быть критично в тех случаях, когда цена ошибки слишком велика, чтобы довольствоваться объяснением её причин post factum. И тут мы как раз переходим к возможности извлечения знаний из системы — как для их верификации, так и для передачи в другую систему.

Обучаемость через передачу знаний (transfer learning) — это возможность передачи знаний как между различными системами ИИ, так и между человеком и системой, чтобы знания, имеющиеся у человека-эксперта либо накопленные в процессе обучения какой-либо одной системы, могли бы быть загружены в другую систему для дальнейшего использования и до-обучения. С теоретической точки зрения, это необходимо потому, что передача знаний фундаментально возможна только при наличии возможности абстрагирования универсальных законов и правил от индивидуального опыта системы. С практической точки зрения, это является условием для построения прикладных систем ИИ, которые буду обучаться не методом «проб и ошибок» или на «обучающей выборке», а при начальной загрузке базы знаний и правил, полученных экспертным путем — когда цена ошибки слишком велика или обучающая выборка слишком мала.

Как взять лучшее из двух миров?

На сегодняшний день не существует единого мнения, каким образом обеспечить создание «общего ИИ», решающего указанные выше проблемы или основанного на технологиях, их решающих.

Одним из перспективных подходов является семантическое вероятностное программирование, являющееся одним из современных вариантов развития «символьного ИИ», основанного на представлении знаний в виде алгоритмов, где исходные данные и исходы выполнения операций представляются не значениями переменных, а вероятностными распределениями всех возможных значений. По мнению одного из ведущих российских экспертов в области «общего ИИ» Алексея Потапова, это направление сейчас находится в том состоянии, в котором пребывали технологии «глубоко обучения» около десятка лет назад, и можно ожидать «прорывов» в этой области в ближайшие годы.

Другим перспективным символьным направлением является семантическое вероятностное моделирование Евгения Витяева, позволяющее строить объяснимые предсказательные модели на основе представления информации в виде семантических сетей, с осуществлением вероятностного вывода в рамках теории функциональных систем Петра Анохина.

Наиболее широко обсуждаемым направлением становится так называемая нейросимвольная интеграция, предполагающая «взять лучшее из двух миров», объединив способности к обучению субсимвольных глубоких нейросетей (уже продемонстрировавших свои успехи) и объяснимость символьного вероятностного моделирования и программирования (обещающих достижения в будущем). Наряду с приведенными выше технологическими предпосылками, это направление заслуживает пристального внимания также с позиций когнитивной психологии. Как считает Дэниел Канеман, человеческое мышление неразрывно связано с взаимодействием двух разных, но взаимодополняющих друг друга систем. Первая — система быстрого неосознанного интуитивного необъяснимого мышления, вторая — система медленного сознательного, рассудочного объяснимого мышления. В то время как первая обеспечивает эффективное решение текущих задач и распознавание знакомых ситуаций, вторая переваривает новую информацию и обеспечивает возможность адаптации к новым условиям, контролируя и направляя обучение первой системы. И если системы первого типа в виде нейросетей в ряде практических приложений сейчас выходят на так называемое плато продуктивности Гартнера, то работающие прикладные решения на основе систем второго типа только еще предстоит создать, не говоря уже о гибридных нейросимвольных системах, работа над которыми только началась со стороны крупнейших игроков в этой отрасли.

В этом году, у российских исследователей, разработчиков, предпринимателей и государственных деятелей, заинтересованных в развитии «общего ИИ», появилась уникальная возможность — посетить первую международную конференцию AGI-2020http://agi-conf.org/2020/, которая пройдет в конце июня этого года в Санкт-Петербурге. Там можно будет узнать новости из первых рук от мировых лидеров в этой области.

Автор: Антон Колонин

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (2 votes)
Источник(и):

РСМД