Ученые раскрыли принцип работы искусственного интеллекта, выигравшего $2 млн у чемпионов по покеру

Система искусственного интеллекта Libratus. Фото: Carnegie Mellon University

Создатели системы искусственного интеллекта Libratus, выигравшего почти $2 млн у профессиональных игроков в покер в начале 2017 года, впервые раскрыли принцип ее работы. Соответствующая статья опубликована в Science.

Алгоритмы искусственного интеллекта достаточно давно научились обыгрывать людей в игры с открытой информацией (например, в шахматы или в го). Однако до последнего момента представлялось, что в играх с неполной информацией – таких как покер – машине практически невозможно победить человека. В покере игроки могут блефовать, вынуждая соперника поверить в наличие сильной комбинации, и источником информации об игроке зачастую являются только мимика, жесты и прочие малозаметные детали поведения; считалось, что правильно оценить эти факторы и победить в игре ИИ не сможет. Победа Libratus стала первым событием такого рода, когда проигравшими оказались лучшие игроки в покер в мире.

Алгоритм, который составили ученые, состоит из трех основных частей. В начале каждой сдачи Libratus рассматривал покер как абстрактную игру и, в зависимости от своих собственных карт выстраивал общую стратегию: на первые шаги эта стратегия была достаточно подробна, а на завершающий этап игры – пока только приблизительна.

На втором этапе алгоритм корректировал свою работу: если Libratus видел, что игрок делает неожиданный ход, он отдельно просчитывал его последствия и искал безопасные варианты, таким образом учитывая вероятность блефа или ошибки человека. На третьем этапе Libratus добавлял данные о размере ставок, которые в тех или иных ситуациях делают другие игроки, после чего окончательно корректировал стратегию.

В статье ученые сделали вывод, что идеи, заложенные в Libratus, можно использовать и для решения практически любых задач с неполной информацией.

Турнир, в котором участвовал Libratus, проводился в январе 2017 года. В рамках соревнования, длившегося 20 дней, искусственный интеллект играл в техасский холдем с четырьмя ведущими игроками мира – Джейсоном Лесом, Доном Кимом, Дэниэлом Макоули и Джимми Чоу. По результатам игры Libratus оказался сильнее всех четверых участников, выиграв фишки на сумму $1,8 млн.