Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles

要約

非推移性を伴うゼロサム ゲームを解決するための一般的なアプローチは、ナッシュ均衡 (NE) に近似するように人口ポリシーを維持することです。
以前の研究では、Policy Space Response Oracle (PSRO) がこれらのゲームにとって効果的なマルチエージェント強化学習フレームワークであることが示されています。
ただし、反復ごとに相手の混合ポリシーに対する最適応答 (BR) に近似するために新しいポリシーを最初から繰り返しトレーニングするのは非効率的でコストがかかります。
一部の PSRO 手法は過去の BR ポリシーを継承して新しい BR ポリシーを初期化しますが、このアプローチでは、特に挑戦的な対戦相手に対する新しいポリシーの探索が制限されます。この問題に対処するために、モデル融合を使用してポリシーを初期化する Fusion-PSRO を提案します。
BR にさらに近似します。
NE からの Top-k 確率を使用して、高品質の基本ポリシーを選択し、モデルの平均化を通じてそれらを新しい BR ポリシーに融合します。
このアプローチにより、初期化されたポリシーに複数のエキスパート ポリシーを組み込むことができるため、最初から継承または初期化する場合と比較して、困難な相手への対処が容易になります。
さらに、私たちの方法はポリシーの初期化のみを変更し、追加のトレーニングのオーバーヘッドなしでほぼ​​すべての PSRO バリアントに適用できるようにします。非推移的なマトリックス ゲーム、Leduc ポーカー、およびより複雑な Liars Dice を使用した実験では、Fusion-PSRO がパフォーマンスを向上させることが実証されています。
ほぼすべての PSRO 亜種をサポートし、悪用可能性を低く抑えます。

要約(オリジナル)

For solving zero-sum games involving non-transitivity, a common approach is to maintain population policies to approximate the Nash Equilibrium (NE). Previous research has shown that the Policy Space Response Oracle (PSRO) is an effective multi-agent reinforcement learning framework for these games. However, repeatedly training new policies from scratch to approximate the Best Response (BR) to opponents’ mixed policies at each iteration is inefficient and costly. While some PSRO methods initialize a new BR policy by inheriting from past BR policies, this approach limits the exploration of new policies, especially against challenging opponents.To address this issue, we propose Fusion-PSRO, which uses model fusion to initialize the policy for better approximation to BR. With Top-k probabilities from NE, we select high-quality base policies and fuse them into a new BR policy through model averaging. This approach allows the initialized policy to incorporate multiple expert policies, making it easier to handle difficult opponents compared to inheriting or initializing from scratch. Additionally, our method only modifies the policy initialization, enabling its application to nearly all PSRO variants without additional training overhead.Our experiments with non-transitive matrix games, Leduc poker, and the more complex Liars Dice demonstrate that Fusion-PSRO enhances the performance of nearly all PSRO variants, achieving lower exploitability.

arxiv情報

著者 Jiesong Lian,Yucong Huang,Mingzhi Wang,Chengdong Ma,Yixue Hao,Ying Wen,Yaodong Yang
発行日 2024-05-31 17:16:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG, cs.MA パーマリンク