Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles

要約

非翻訳性を含むゼロサムゲームを解くために、有用なアプローチは、ナッシュ平衡(NE)を近似するために政策集団を維持することです。
以前の研究では、ポリシー空間応答オラクル(PSRO)アルゴリズムがそのようなゲームを解決するための効果的なフレームワークであることが示されています。
ただし、現在の方法は、新しいポリシーをゼロから初期化するか、最良の対応(BR)の単一の歴史的ポリシーを継承し、過去のポリシーを活用してより良いBRを生成する機会を逃しています。
この論文では、NASHポリシーフュージョンを採用してBRトレーニングの新しいポリシーを初期化するFusion-PSroを提案します。
Nash Policy Fusionは、現在のメタネの探査を開始する暗黙のガイドポリシーとして機能し、BRに近い近似を提供します。
さらに、過去のポリシーの加重移動平均を洞察してキャプチャし、各反復のメタNEに基づいてこれらの重みを動的に調整します。
この累積プロセスは、政策集団をさらに強化します。
古典的なベンチマークの経験的結果は、Fusion-PSroがより低い搾取性を達成し、それによりBRの政策初期化に関する以前の研究の欠点を軽減することを示しています。

要約(オリジナル)

For solving zero-sum games involving non-transitivity, a useful approach is to maintain a policy population to approximate the Nash Equilibrium (NE). Previous studies have shown that the Policy Space Response Oracles (PSRO) algorithm is an effective framework for solving such games. However, current methods initialize a new policy from scratch or inherit a single historical policy in Best Response (BR), missing the opportunity to leverage past policies to generate a better BR. In this paper, we propose Fusion-PSRO, which employs Nash Policy Fusion to initialize a new policy for BR training. Nash Policy Fusion serves as an implicit guiding policy that starts exploration on the current Meta-NE, thus providing a closer approximation to BR. Moreover, it insightfully captures a weighted moving average of past policies, dynamically adjusting these weights based on the Meta-NE in each iteration. This cumulative process further enhances the policy population. Empirical results on classic benchmarks show that Fusion-PSRO achieves lower exploitability, thereby mitigating the shortcomings of previous research on policy initialization in BR.

arxiv情報

著者 Jiesong Lian,Yucong Huang,Chengdong Ma,Mingzhi Wang,Ying Wen,Long Hu,Yixue Hao
発行日 2025-05-09 15:38:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG, cs.MA パーマリンク