Нейронные сети рвут суперкомпьютер в шахматы. Что дальше?

Поразительные результаты тестирования обновленной версии искусственной нейронной сети AlphaZero опубликовала компания по разработке искусственного интеллекта DeepMind 7 декабря 2018 года, напомнив всем о том информационном взрыве, причиной которого стал шахматный матч с одной из сильнейших компьютерных программ Stockfish, сыгранный в декабре прошлого года.
 
Результаты не оставляют сомнения в том, что AlphaZero на сегодняшний день играет в шахматы сильнее всех в мире. Обновленная версия AlphaZero вновь разгромила прежнего компьютерного чемпиона — программу Stockfish (версия 8) — в новом 1000-партиевом матче. При этом AlphaZero удалось выиграть 155 партий, 839 раз — сыграть вничью и проиграть всего 6 партий.
 
AlphaZero также превзошел Stockfish в серии матчей c неравным временным контролем, уверенно побив программу с классическим алгоритмом принятия решений, даже в условиях предоставления ей 10-кратной форы по времени на обдумывание ходов.
 
Как сообщили в компании DeepMind, с практически идентичным результатом AlphaZero превзошел и девятую версию Stockfish — новейшую по состоянию на 13 января 2018 года.
 
По данным DeepMind, самообучающейся шахматной машине AlphaZero удалось обыграть прежнего компьютерного чемпиона, даже укомплектованного дебютными базами, хотя наличие баз всё же помогло Stockfish, позволив программе выиграть белым цветом несколько игр. Тем не менее, этого оказалось недостаточно для общего выигрыша матча.
Результаты AlphaZero против последней версии программы Stockfish, а также против программы Stockfish, укомплектованной дебютными базами (победы – зеленый; поражения – красный, ничьи – серый)
Из презентации компании DeepMind для журнала Science
 
Все это перечеркнуло главные аргументы о необъективности выводов, сделанных по результатам матча, сыгранного в конце 2017 года. Тогда, как считали многие, контроль времени по одной минуте на ход явно ущемлял возможности программы Stockfish.
 
С контролем три часа на партию плюс 15 секунд на каждый ход подобного аргумента приведено быть не может, так как предоставленное время является огромным для любого компьютера.
 
В партиях с неравным контролем времени программа Stockfish начала обыгрывать AlphaZero только тогда, когда ее преимущество перед соперником составило 30 к 1. В матче с 10 кратным преимуществом по времени в пользу Stockfish, самообучающаяся шахматная машина AlphaZero вновь одержала уверенную победу.
Результаты AlphaZero против восьмой версии программы Stockfish с неравным контролем времени (победы – зеленый; поражения – красный, ничьи – серый)
Из презентации компании DeepMind для журнала Science
 
Результаты, показанные AlphaZero в матчах с неравным контролем времени, свидетельствуют не только о том, что данная программа является намного более сильной, чем любой традиционный «шахматный движок», но и о том, что она использует намного более эффективный алгоритм расчета. По данным DeepMind, AlphaZero использует дерево поиска Монте-Карло, просчитывая приблизительно 60 тысяч ходов в секунду, что в тысячу раз уступает (!) возможностям Stockfish (60 миллионов ходов в секунду).
Иллюстрация расчета вариантов со стороны AlphaZero
Из презентации компании DeepMind для журнала Science
 
Что же поклонники компьютерных шахмат могут почерпнуть, познакомившись с этими результатами? Во-первых, AlphaZero утвердился в статусе сильнейшего шахматного игрока в мире. Но это еще не всё. Если Вы следите за развитием искусственного интеллекта, то продемонстрированные результаты окажутся для Вас еще более интригующими. Алгоритм расчета AlphaZero является одинаковым как для шахмат, так и для популярных в азиатских странах настольных игр «го» и «сёги».
 
AlphaZero смогла побить лучшие компьютерные программы во всех трех играх, имея в своем распоряжении только правила игры и несколько часов на самообучение. Обновленные результаты самообучающейся машины AlphaZero компания DeepMind предоставила ровно через год после первой победы, одержанной над Stockfish.
 
Комментируя партии AlphaZero, сыгранные в первом матче против Stockfish в декабре 2017 года, многие ведущие шахматные гроссмейстеры не скрывали своего изумления от увиденного. В числе аргументов, вносивших во всеобщую оценку некий элемент сдержанности, было то, что в 2017 году программа Stockfish была лишена электронных дебютных баз (того огромного опыта, который человечеству удалось накопить за сто с лишним лет развития шахматной теории), а также была существенно ограничена во времени. Тем не менее, сегодняшние результаты, предоставленные компанией DeepMind, показывают, что учет пожеланий критиков существенным образом не меняет картины.
 
Тогда экспертов шахматного мира поразила не столько филигранность техники AlphaZero, сколько способность машины принимать за доской совершенно, казалось бы, некомпьютерные «творческие» решения. Так, например, комментируя одну из партий матча, международный гроссмейстер Сергей Шипов обратил внимание на отказ AlphaZero от немедленного следования сильнейшему варианту и возвращение к нему через промежуточное повторение ходов, как если бы машиной руководило желание проверить реакцию соперника.
 
«Меня потрясли „человеческие“ рефлексы AlphaZero при выборе хода и удивительное для „новичка шахмат“ понимание позиции с нестандартным (нарушенным) материальным равновесием. Это, честно говоря, удивительно», — констатировал Шипов.
 
В свою очередь, другой российский гроссмейстер Петр Свидлер в 2017 году в беседе с Сергеем Шиповым, давая оценку игре AlphaZero, отметил факт выигрыша машиной нескольких «совершенно сногсшибательных партий в новоиндийской защите». Как заявил Свидлер, то, что продемонстрировала машина, лишенная дебютных баз и имеющая несколько часов на самообучение, — «это центральная теория, которую, я помню, Боря Гельфанд сотоварищи, Лёва Аронян (международные гроссмейстеры Борис Гельфанд и Левон Аронян — прим. ИА Красная Весна) поднимали с нуля лет десять назад».
 
«Железяка сама начинает так ходить?», — задается вопросом Свидлер. «Нам говорят, что книги у нее нет, — подчеркивает Свидлер, — что она в такую бесову силу играет, что, несколько часов поучившись, в состоянии повторять то, что люди годами искали в новоиндийской защите».
 
«Кроме восторга от того, что машина делает, у меня глаза полезли на лоб, когда я увидел эти дебюты. Потому что, ну, елки-палки, если на самом деле она в состоянии с нуля воспроизвести дебютные находки и еще усилить их — это, конечно, на меня сногсшибательное впечатление произвело», — добавил Свидлер, заключив при этом, что не верит в какую-либо фальсификацию со стороны компании DeepMind.
 
И, конечно, обратили внимание гроссмейстеры, в этой связи нельзя не задать вопрос о применении AlphaZero далеко за пределами мира шахмат.
 
«Они потратили четыре часа на шахматы, — рассуждает международный гроссмейстер Сергей Шипов, — потом за два часа они разбомбили сёги. Соответственно, ясно, что теперь они будут решать совершенно другие задачи. Для них шахматы — просто мелочь какая-то».
 
Соглашаясь с мнением своего коллеги, аналогичную точку зрения высказывает и Пётр Свидлер: «Совершенно понятно, что они занимаются созданием искусственного интеллекта не для того, чтобы играть в настольные игры».
 
«А чем же будет этот монстр заниматься на самом деле, не военной ли отраслью?», — спрашивает Сергей Шипов, обращая при этом внимание на то, что на фоне всех этих достижений в области создания искусственного интеллекта «человек становится каким-то уж совсем жалким и ничтожным».
 
Свидлер оставляет данный вопрос без ответа, согласившись, что проблема неконтролируемого развития в данной сфере действительно является поводом для беспокойства.
 
Александр Поспелов