要約
この論文では、2 人のプレーヤーのゼロサム マルコフ ゲーム (TZMG) の状態抽象化を紹介します。TZMG では、2 人のプレーヤーの利得は、環境を表す状態とそれぞれのアクションによって決定され、状態遷移はマルコフ決定プロセスに続きます。
たとえば、サッカーのようなゲームでは、プレーの状態に応じてアクションの値が変化するため、このようなゲームはマルコフ ゲームと呼ぶ必要があります。
TZMG では、状態の数が増加するにつれて、均衡の計算が難しくなります。
そこで、複数の異なる状態を 1 つの状態として扱うことで状態の数を減らす、状態抽象化を検討します。
状態抽象化を使用してマルコフ意思決定プロセスに最適なポリシーを見つけることについては、かなりの量の研究が行われています。
ただし、マルチプレイヤー設定では、状態抽象化を使用したゲームは、地上ゲームとは異なる平衡解を生み出す可能性があります。
状態抽象化を使用してゲームの平衡解を評価するために、地上ゲームの平衡解からの距離を表す双対性ギャップの境界を導出しました。
最後に、マルコフ サッカーを使用して状態の抽象化を実証し、均衡ポリシーを計算し、結果を調べます。
要約(オリジナル)
This paper introduces state abstraction for two-player zero-sum Markov games (TZMGs), where the payoffs for the two players are determined by the state representing the environment and their respective actions, with state transitions following Markov decision processes. For example, in games like soccer, the value of actions changes according to the state of play, and thus such games should be described as Markov games. In TZMGs, as the number of states increases, computing equilibria becomes more difficult. Therefore, we consider state abstraction, which reduces the number of states by treating multiple different states as a single state. There is a substantial body of research on finding optimal policies for Markov decision processes using state abstraction. However, in the multi-player setting, the game with state abstraction may yield different equilibrium solutions from those of the ground game. To evaluate the equilibrium solutions of the game with state abstraction, we derived bounds on the duality gap, which represents the distance from the equilibrium solutions of the ground game. Finally, we demonstrate our state abstraction with Markov Soccer, compute equilibrium policies, and examine the results.
arxiv情報
著者 | Hiroki Ishibashi,Kenshi Abe,Atsushi Iwasaki |
発行日 | 2024-12-20 13:28:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google