Один гигантский шаг для машины, играющей в шахматы

В начале декабря исследователи из компании DeepMind, занимающейся искусственным интеллектом и принадлежащей Alphabet Inc., родительской корпорации, также владеющей и Google, рассказали о происходящем на передних рубежах шахмат.

Годом ранее, 5 декабря 2017 года, команда поразила шахматный мир, объявив о своём алгоритме машинного обучения (МО) AlphaZero, который сумел овладеть не только обычными шахматами, но и японскими шахматами сёги и игрой го. Алгоритм начал работу без какого бы то ни было понятия об играх, кроме базовых правил. Затем он начал играть сам с собой несколько миллионов раз и учиться на своих ошибках. Всего за несколько часов алгоритм стал наилучшим игроком, как среди людей, так и компьютеров, из всех, что видел мир.

Детали достижений AlphaZero и его внутреннего устройства в данный момент проходят формальное рецензирование, после чего будут опубликованы в журнале Science. Новая работа отвечает на серьёзную критику оригинальных заявления. К примеру, было трудно сказать, по-настоящему ли честно ли играл AlphaZero со своим оппонентом, вычислительным монстром Stockfish. Но все эти сомнения были развеяны.

За последние 12 месяцев AlphaZero не стал сильнее, зато стали убедительнее свидетельства его превосходства. Он явно представляет сорт разума, невиданный доселе людьми, над которым нам придётся размышлять ещё очень долго.

За последние 20 лет компьютерные шахматы прошли долгий путь. В 1997 году компьютерная шахматная программа от IBM, Deep Blue, сумела побить тогдашнего чемпиона мира среди людей, Гарри Каспарова, в матче из шести игр. Оглядываясь назад, можно сказать, что никакой загадки в этом достижении не было.

Deep Blue могла оценивать 200 млн позиций в секунду. Она никогда не уставала, никогда не ошибалась и не забывала, о чём думала незадолго до этого.

Так или иначе, она играла как машина, брутально и материалистично.

Она могла считать лучше Каспарова, но не могла думать лучше него.

В первой игре их матча, Deep Blue предсказуемо приняла предложенный Каспаровым обмен ладьи на слона, но проиграла 16 ходов спустя.

Сегодняшнее поколение сильнейших шахматных программ мира, к примеру, Stockfish и Komodo, играют не по-человечески. Они любят брать чужие фигуры. Они строят железную защиту. Но хотя они играют сильнее любого человека, у этих шахматных машин нет никакого понятия об игре.

Их нужно обучать базовым принципам шахмат. Эти принципы, оттачиваемые десятилетиями человеческого гроссмейстерского опыта, программируются в машину в виде сложных оценочных функций, отмечающих, чего нужно добиваться в позиции, и чего избегать: насколько нужно ценить безопасность короля, активность фигур, расстановку пешек, контроль над центром доски, и прочее, и как управлять компромиссами между этими вещами.

Сегодняшние шахматные машины, которым чужды все эти принципы, ведут себя как грубые животные: они чрезвычайно быстры и сильны, но им не хватает мозгов.

Но всё это поменялось после появления МО. Играя сами с собой, и обновляя свои нейросети при обучении на опыте, AlphaZero сама обнаружила принципы шахмат и быстро стала наилучшим игроком. Она не только смогла бы легко обыграть мастеров среди людей, она разгромила Stockfish, чемпиона по шахматам среди компьютеров. В матче на сто игр против внушительной машины, AlphaZero выиграла 28 раз и 72 раза свела игру к ничьей, не проиграв ни одной.

А самое неприятное было в том, что AlphaZero демонстрировала мышление. Она играла непохоже ни на один компьютер, интуитивно и красиво, с романтическим атакующим стилем. Она играла гамбиты и рисковала. В некоторых играх она парализовала Stockfish и игралась с ней. Проводя атаку в 10-й игре, AlphaZero отступила ферзём в свой угол доски, подальше от короля Stockfish, ведя себя не так, как нужно делать при атаке на короля.

Однако это странное отступление оказалось токсичным. Как ни отвечала Stockfish, она была обречена. Было похоже на то, будто бы AlphaZero ждёт, пока Stockfish после миллиардов перебранных комбинаций догадается, насколько безнадёжна её позиция, расслабится и мирно сдастся как поверженный бык перед матадором. Гроссмейстеры никогда не видели ничего подобного. AlphaZero играла с изяществом виртуоза и мощью машины. Это было первое беглое знакомство с потрясающим новым типом интеллекта.

shahmaty1.jpgГарри Каспаров, слева, играет против компьютера IBM Deep Blue в шестой и последней игре матча, прошедшего в Нью-Йорке в мае 1997 года. Фигуры за компьютер двигал Джозеф Хоан, инженер IBM.

Когда создатели впервые представили AlphaZero, некоторые наблюдатели жаловались, что у Stockfish отобрали возможность доступа к набору дебютов. На этот раз, даже со своим набором, она была разгромлена. И даже когда AlphaZero дала фору Stockfish в виде десятикратно увеличенного времени на расчёты, она всё равно её победила.

Впечатляет, что AlphaZero победила, думая не быстрее, а лучше; она изучала лишь 60 тысяч позиций в секунду, а не 60 млн, как Stockfish.

Она была умнее, зная, о чём нужно думать, а что игнорировать.

Самостоятельно раскрыв принципы шахмат, AlphaZero разработала стиль игры, «отражающий истину» игры, а не «приоритеты и предвзятость программистов», писал Каспаров в сопроводительном комментарии к статье в Science.

Теперь вопрос состоит в том, поможет ли МО людям раскрыть сходные истины по поводу вещей, действительно имеющих значение: великих нерешённых проблем науки и медицины, типа лекарства от рака или сознания; загадок иммунной системы, тайн генома.

Первые признаки вдохновляют. В августе две статьи в журнале Nature Medicine изучали вопрос применения МО к постановке медицинских диагнозов. В одной исследователи из DeepMind скооперировались с врачами из Глазного госпиталя Мурфилдс в Лондоне для разработки алгоритма с глубинным обучением, способного классифицировать широкий спектр патологий сетчатки не хуже экспертов-людей. В офтальмологии наблюдается серьёзный дефицит экспертов, способных интерпретировать миллионы диагностических снимков глаз, получаемые ежегодно; ИИ-ассистенты оказали бы неоценимую помощь.

В другой статье рассматривался алгоритм МО, распознающий наличие на снимках компьютерной томографии, сделанных у пациентов скорой, признаков инсульта, внутричерепного кровоизлияния или других неврологических проблем. Для жертв инсульта важна каждая минута; чем дольше задерживается лечение, тем хуже бывает результат. У неврологов даже есть поговорка: «Время – это мозг». Новый алгоритм отмечает эти и другие критические события с точностью, сравнимой с людьми-экспертами, однако работает в 150 раз быстрее. Скоростная диагностика позволит переводить наиболее срочные случаи вперёд очереди, после чего их уже может оценить человек-рентгенолог.

Раздражает в МО то, что алгоритмы не могут объяснить свои мысли. Мы не знаем, почему они работают, поэтому мы не знаем, можно ли им доверять. AlphaZero демонстрирует все признаки открытия важных принципов игры в шахматы, но не может поделиться этим пониманием с нами. По крайней мере, пока.

Людям нужно нечто большее, чем ответы. Нам нужно понимание, как и откуда взялись эти ответы.

До этого момента эта проблема будет источником напряжённости в нашем взаимодействии с компьютерами. На самом деле, в математике это уже давно происходит. Рассмотрим давнюю математическую задачу под названием теорема о четырёх красках. Она утверждает, что при определённых разумных ограничениях, любую карту соприкасающихся стран можно раскрасить четырьмя красками так, чтобы у двух любых соседних стран были разные цвета.

Хотя теорему доказали в 1977 году при помощи компьютера, ни один человек не может проверить все шаги доказательства. С тех пор доказательство подтвердили и упростили, но в нём всё равно присутствуют части, требующие вычислений с полным перебором, таких, которыми пользовались предшественники AlphaZero, играющие в шахматы. Такое положение дел возмутило многих математиков. Им нужно было не убедиться в правильности теоремы; они уже верили в это. Им хотелось понять, почему она верна, и такое доказательство ничем не помогло.

Но представьте, что настанет день, возможно, уже совсем скоро, когда AlphaZero превратится в алгоритм более общего назначения; назовём его AlphaInfinity. Как и его предок, у него будет превосходящий разум: он сможет выдавать прекрасные доказательства, такие же элегантные, как и игры, проведённые AlphaZero против Stockfish. И каждое доказательство будет демонстрировать, почему теорема была верна; AlphaInfinity не будет насильно заставлять вас принимать какие-то уродливые и сложные доказательства.

Для математиков и учёных такой день отметил бы зарю новой эры мышления. Но она может быть недолгой. Чем быстрее будут становиться машины, обгоняя людей, чьи нейроны работают с черепашьей скоростью на миллисекундных масштабах, тем быстрее наступит день, когда мы уже не будем поспевать за ними. Рассвет мышления человека может быстро превратиться в закат.

Допустим, существуют некие закономерности, которые ещё предстоит открыть – в регулировании генов или развитии рака; в работе иммунной системы; в танце субатомных частиц. Допустим, эти закономерности может предсказать только интеллект, сильно превосходящий наш. Если бы AlphaInfinity могла бы определить и понять их, она показалась бы нам оракулом.

Мы сидели бы у её ног и внимательно слушали. Мы не понимали бы, почему оракул всегда прав, но мы могли бы проверить её вычисления и предсказания в экспериментах и наблюдениях и подтвердить её откровения. В науке, знаковом занятии людей, наша роль свелась бы к роли наблюдателей, взирающих на происходящие в изумлении и смятении.

Возможно, когда-нибудь наши недостатки мышления уже не будут нас беспокоить. Ведь AlphaInfinity смогла бы вылечить все болезни, решить все научные задачи и заставить все остальные интеллектуальные поезда ходить по расписанию. Мы неплохо справлялись без особых размышлений первые 300 000 лет нашего существования как Homo sapiens. У нас не будет проблем с памятью, мы с гордостью будем вспоминать золотую эру человеческого разума, эту славную интерлюдию, длившуюся несколько тысячелетий, между непонимающим прошлым и необъяснимым будущим.

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (4 votes)
Источник(и):

Хабр