AlphaDou: High-Performance End-to-End Doudizhu AI Integrating Bidding

要約

カード ゲーム用の人工知能は、AI 研究において長い間人気のトピックでした。
近年では、麻雀やテキサス ホールデムなどの複雑なカード ゲームが解決され、対応する AI プログラムは人間の専門家のレベルに達しています。
ただし、Doudizhu のゲームは、その広大な状態/アクション空間と、競争と協力に関する推論を含む独特の特性により、重大な課題を抱えており、ゲームを解決するのが非常に困難になっています。ディープ モンテカルロ アルゴリズム フレームワークを使用してトレーニングされた RL モデル Douzero は、
ドゥディジューで素晴らしいパフォーマンスを見せた。
しかし、その簡略化されたゲーム環境と実際のDoudizhu環境の間には差異があり、そのパフォーマンスは人間の専門家のパフォーマンスとは依然としてかなりの隔たりがあります。
この論文では、強化学習を使用してディープ モンテカルロ アルゴリズム フレームワークを修正し、勝率と期待値を同時に推定するニューラル ネットワークを取得します。
アクション スペースは期待値を使用して枝刈りされ、勝率に基づいて戦略が生成されます。
修正されたアルゴリズムにより、AI は入札やカードプレイなど、Doudizhu ゲームのあらゆるタスクを実行できるようになります。
このモデルは実際の Doudizhu 環境でトレーニングされ、公開されているモデルの中で最先端のパフォーマンスを達成しました。
この新しいフレームワークが、他の入札ベースのゲームにおける AI 開発に貴重な洞察を提供することを期待しています。

要約(オリジナル)

Artificial intelligence for card games has long been a popular topic in AI research. In recent years, complex card games like Mahjong and Texas Hold’em have been solved, with corresponding AI programs reaching the level of human experts. However, the game of Doudizhu presents significant challenges due to its vast state/action space and unique characteristics involving reasoning about competition and cooperation, making the game extremely difficult to solve.The RL model Douzero, trained using the Deep Monte Carlo algorithm framework, has shown excellent performance in Doudizhu. However, there are differences between its simplified game environment and the actual Doudizhu environment, and its performance is still a considerable distance from that of human experts. This paper modifies the Deep Monte Carlo algorithm framework by using reinforcement learning to obtain a neural network that simultaneously estimates win rates and expectations. The action space is pruned using expectations, and strategies are generated based on win rates. The modified algorithm enables the AI to perform the full range of tasks in the Doudizhu game, including bidding and cardplay. The model was trained in a actual Doudizhu environment and achieved state-of-the-art performance among publicly available models. We hope that this new framework will provide valuable insights for AI development in other bidding-based games.

arxiv情報

著者 Chang Lei,Huan Lei
発行日 2024-09-13 15:17:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.MA パーマリンク