SARTRE - Разработка покерного робота

SARTRE агент основан на использовании памяти для принятия решений в хедз-ап играх [3]. Этот робот использует историю рук, сыгранных предыдущими игроками для принятия собственных решений, вместо использования системы, принимающий решения относительно равновесных стратегий. Она использует историю раздач, сыгранную сильными игроками, для обучения и принятия дальнейших решений. База знаний этого агента основана на предыдущих играх AAAI CPC AAAI CPC - соревнование по покеру (Техасский холдем) среди компьютеров. . В 2008 робот Университета Альберты Hyperborean выиграл эти соревнования. База данных SARTRE была построена как раз на истории рук агента Hyperborean.

Каждый раунд торговли этого клиента представляется как путь в дереве, которые проверяет все возможные комбинации до текущего узла. Представляя два различных дерева, автор сделал попытку представить их разницу и объяснить свой выбор одного из двух путей. На рисунке 3 представлено это дерево, на котором "с" означает call, "f" - fold, and "r" - raise.

дерево последовательности действий [3]

Рис. 3. Дерево последовательности действий [3]

Возможные комбинации рук данного агента разбиты на 10 возможных категории, а именно: старшая карта, пара, две пары, тройка, стрит, флеш, фулл-хаус, каре, стирт флеш, роял флеш. После того как на столе появляются первые три карты, данный агент уже может сформировать свою руку и определить ее силу. После терна и ривера данная рука может быть улучшена, так как заранее не было известно какие карты выйдут на стол. Также данный робот в процессе игры различает такие комбинации как стирт и флеш на предмет их старшинства. Например, если получился флеш, и туз, который также участвует в этой комбинации находится не на столе, а у вас на руках, то система также это определяет. Это позволяет ей делать выводы о том, что у вас самый старший флеш из возможных и наоборот.

База знаний SARTRE основана на играх проведенных на CPC роботом Hyperborean. После каждой сыгранной руки, информация о ней добавлялась в базу SARTRE. Всего в данной базе накопилось около миллиона всевозможных случаев, которые включали 201335 различных вариантов префлопа, 300577 флопа, 281559 терна и 216597 ривера. Во время игры, когда ход переходил в агенту SARTRE, он обращался к своей базе знаний, и на их основе выбирал наиболее похожие на текущую ситуацию. После чего строилось дерево вероятностей, такое как на рисунке 3, и SARTRE принимал решение, основываясь на вероятностях в этом дереве.

Для тестирования данного агента, он участвовал в играх против робота FellOmen2 FellOmen2 - робот, занявший второе место на соревнованиях CPC 2008. В основе стратегии данного робота лежит эволюционный метод нахождения равновесного решения. и BluffBot BluffBot - робот, занявший второе место на соревнованиях CPC 2008. Стратегия игры этого агента основана на поиска равновесного решения по Нэшу.. Всего было проведено 6 игр, каждая из которых состояла из 6000 раздач против FellOmen2. Каждая такая игра, состояла из 3000 раздач, в которых роботам выдавались определенные карты, для снижения элемента случайности. После 3000 раздач, память обоих роботов очищалась, и следующие 3000 раундов, им выдавались на руки карты, другого робота. Таким образом, после сыгранных 36000 раздач SARTRE в среднем проигрывал 2.92 больших блайндов каждые 100 раздач. Как уже было отмечено, агент SARTRE играл по истории раздач робота Hyperborean, который в свою очередь выиграл матч против FellOmen2. Разработчики, говоря о поражении SARTRE против FellOmen2, ссылались на недостаточно точную работу алгоритма по определению категории рук и достаточно грубую выборку похожих вариантов дальнейших действий.

Что касается игр против BluffBot, то всего было сыграно 30000 раздач в обычном режиме, и результаты получились положительными. В среднем SARTRE выигрывал 7.48 больших блайндов каждые 100 раздач.

Исходя из информации о приведенных выше аналогах, можно сделать вывод, что существует два основных принципа, построения стратегии игры покерного агента:

    1. Основанная на поиске равновесного решения используя текущую информацию о раздаче; 2. Основанная на запоминании история раздач, для дальнейшего применения на практике.

По приведенным выше аналогам, нельзя с уверенностью сказать, какая из данных стратегий является более выигрышной - моделирование поведения игрока по истории раздач или использование равновесных стратегий. Скорее всего, качество стратегии зависит от качества ее реализации. Основной задачей данной работы является реализация и оценка эффективности стратегии игры в Техасский холдем, основанной на методах теории вероятностей, предложенных различными авторами.

Похожие статьи




SARTRE - Разработка покерного робота

Предыдущая | Следующая