要約
マルコフ ゲームは、確率的で動的な環境における複数のプレーヤー間の相互作用をモデル化します。
マルコフ ゲームの各プレイヤーは、他のプレイヤーのポリシーに応じて、予想される割引報酬の合計を最大化します。
私たちは、アフィン マルコフ ゲームと呼ばれるマルコフ ゲームのクラスを定式化します。このクラスでは、アフィン報酬関数がプレイヤーのアクションを結合します。
我々は、新しい解決概念であるソフトベルマン均衡を導入します。この均衡では、各プレイヤーは限界合理的であり、よく知られているナッシュ均衡の概念のような純粋に合理的な政策ではなく、ソフトベルマン政策を選択します。
我々は、ソフトベルマン均衡の存在と一意性のための条件を提供し、順問題でそのような均衡を計算するための非線形最小二乗アルゴリズムを提案します。
次に、投影勾配アルゴリズムを介して、観察された状態アクションの軌跡からプレイヤーの報酬パラメーターを推測するという逆ゲーム問題を解決します。
捕食者と被食者の OpenAI Gym 環境での実験では、提案されたアルゴリズムによって推論された報酬パラメーターが、ベースライン アルゴリズムによって推論された報酬パラメーターよりも優れていることが示されています。これらのパラメーターは、均衡ポリシーと観察されたポリシーの間のカルバック ライブラーの乖離を少なくとも 2 桁減少させます。
要約(オリジナル)
Markov games model interactions among multiple players in a stochastic, dynamic environment. Each player in a Markov game maximizes its expected total discounted reward, which depends upon the policies of the other players. We formulate a class of Markov games, termed affine Markov games, where an affine reward function couples the players’ actions. We introduce a novel solution concept, the soft-Bellman equilibrium, where each player is boundedly rational and chooses a soft-Bellman policy rather than a purely rational policy as in the well-known Nash equilibrium concept. We provide conditions for the existence and uniqueness of the soft-Bellman equilibrium and propose a nonlinear least-squares algorithm to compute such an equilibrium in the forward problem. We then solve the inverse game problem of inferring the players’ reward parameters from observed state-action trajectories via a projected-gradient algorithm. Experiments in a predator-prey OpenAI Gym environment show that the reward parameters inferred by the proposed algorithm outperform those inferred by a baseline algorithm: they reduce the Kullback-Leibler divergence between the equilibrium policies and observed policies by at least two orders of magnitude.
arxiv情報
著者 | Shenghui Chen,Yue Yu,David Fridovich-Keil,Ufuk Topcu |
発行日 | 2023-09-08 17:33:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google