Policy Optimization finds Nash Equilibrium in Regularized General-Sum LQ Games

要約

この論文では、General-Sum $N$-agent ゲームのナッシュ均衡 (NE) に対する相対エントロピー正則化の導入の影響を調査し、そのようなゲームの NE が線形ガウス ポリシーに準拠するという事実を明らかにします。
さらに、それは、エントロピー正則化の適切さに応じて、ゲーム内の NE の一意性のための十分な条件を示します。
ポリシー最適化は、NE を見つけることを目的とした強化学習 (RL) テクニックの基礎的なアプローチとして機能するため、この研究では、(エントロピー正則化の適切性を条件として) 証明可能な条件を達成できるポリシー最適化アルゴリズムの線形収束を証明します。
北東。
さらに、エントロピーの正則化が不十分であることが判明したシナリオでは、ゲーム内で $\epsilon$-NE の達成を容易にする $\delta$-augmentation 手法を提示します。

要約(オリジナル)

In this paper, we investigate the impact of introducing relative entropy regularization on the Nash Equilibria (NE) of General-Sum $N$-agent games, revealing the fact that the NE of such games conform to linear Gaussian policies. Moreover, it delineates sufficient conditions, contingent upon the adequacy of entropy regularization, for the uniqueness of the NE within the game. As Policy Optimization serves as a foundational approach for Reinforcement Learning (RL) techniques aimed at finding the NE, in this work we prove the linear convergence of a policy optimization algorithm which (subject to the adequacy of entropy regularization) is capable of provably attaining the NE. Furthermore, in scenarios where the entropy regularization proves insufficient, we present a $\delta$-augmentation technique, which facilitates the achievement of an $\epsilon$-NE within the game.

arxiv情報

著者 Muhammad Aneeq uz Zaman,Shubham Aggarwal,Melih Bastopcu,Tamer Başar
発行日 2024-09-13 16:59:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG, cs.MA パーマリンク