要約
望ましいナッシュ均衡、つまり調停を誘導するために、2 人のプレイヤーがいるゼロサム マルコフ ゲームで報酬を摂動する方法の研究を開始します。
このような問題では、2 レベルの最適化定式化が可能です。
下位レベルでは、与えられた報酬関数の下でナッシュ均衡を解く必要があるため、問題全体をエンド ツー エンドで最適化することが難しくなります。
上位レベルの勾配フィードバックを提供するナッシュ均衡を介して微分するバックプロパゲーション スキームを提案します。
特に、私たちの方法は、(正規化された) ナッシュ均衡 (NE) のブラック ボックス ソルバーのみを必要とします。
適切なブラック ボックス NE ソルバーを使用して提案されたフレームワークの収束分析を開発し、2 つのマルチエージェント強化学習 (MARL) 環境での経験的な成功を示します。
要約(オリジナル)
We initiate the study of how to perturb the reward in a zero-sum Markov game with two players to induce a desirable Nash equilibrium, namely arbitrating. Such a problem admits a bi-level optimization formulation. The lower level requires solving the Nash equilibrium under a given reward function, which makes the overall problem challenging to optimize in an end-to-end way. We propose a backpropagation scheme that differentiates through the Nash equilibrium, which provides the gradient feedback for the upper level. In particular, our method only requires a black-box solver for the (regularized) Nash equilibrium (NE). We develop the convergence analysis for the proposed framework with proper black-box NE solvers and demonstrate the empirical successes in two multi-agent reinforcement learning (MARL) environments.
arxiv情報
著者 | Jing Wang,Meichen Song,Feng Gao,Boyi Liu,Zhaoran Wang,Yi Wu |
発行日 | 2023-02-20 16:05:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google