Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles

要約

ゼロサムゲームを解くための一般的なアプローチは、ナッシュ均衡(NE)を近似するポリシーの集団を維持することである。これまでの研究で、PSRO(Policy Space Response Oracle)アルゴリズムは、このようなゲームを解くための効果的なマルチエージェント強化学習フレームワークであることが示されている。しかし、相手の混合政策に対するベストレスポンス(BR)を近似するために、反復毎にゼロから新しい政策を繰り返し学習することは、非効率的でコストがかかる。PSROの中には、過去のBR政策を継承して新しい政策を初期化するものもあるが、このアプローチでは、特に挑戦的な相手に対して、新しい政策の探索が制限される。この問題に対処するため、我々は、よりBRに近似したポリシーを初期化するためにポリシーフュージョンを採用するFusion-PSROを提案する。meta-NEから高品質な基本ポリシーを選択することで、ポリシーフュージョンはモデル平均化を通して基本ポリシーを新しいポリシーに融合する。この手法により、初期化されたポリシーは複数の専門家のポリシーを取り込むことができ、過去のBRポリシーからの継承やゼロからの初期化と比較して、困難な相手への対応が容易になる。さらに、本手法はポリシーの初期化フェーズを変更するだけであるため、追加の学習オーバーヘッドなしに、ほぼ全てのPSRO変種への適用が可能である。非遷移的行列ゲーム、Leduc Poker、より複雑なLiars Diceを用いた実験により、Fusion-PSROがほぼ全てのPSROの性能を向上させ、より低い悪用可能性を達成することが実証された。

要約(オリジナル)

A popular approach for solving zero-sum games is to maintain populations of policies to approximate the Nash Equilibrium (NE). Previous studies have shown that Policy Space Response Oracle (PSRO) algorithm is an effective multi-agent reinforcement learning framework for solving such games. However, repeatedly training new policies from scratch to approximate Best Response (BR) to opponents’ mixed policies at each iteration is both inefficient and costly. While some PSRO variants initialize a new policy by inheriting from past BR policies, this approach limits the exploration of new policies, especially against challenging opponents. To address this issue, we propose Fusion-PSRO, which employs policy fusion to initialize policies for better approximation to BR. By selecting high-quality base policies from meta-NE, policy fusion fuses the base policies into a new policy through model averaging. This approach allows the initialized policies to incorporate multiple expert policies, making it easier to handle difficult opponents compared to inheriting from past BR policies or initializing from scratch. Moreover, our method only modifies the policy initialization phase, allowing its application to nearly all PSRO variants without additional training overhead. Our experiments on non-transitive matrix games, Leduc Poker, and the more complex Liars Dice demonstrate that Fusion-PSRO enhances the performance of nearly all PSRO variants, achieving lower exploitability.

arxiv情報

著者 Jiesong Lian,Yucong Huang,Mingzhi Wang,Chengdong Ma,Yixue Hao,Ying Wen,Yaodong Yang
発行日 2024-06-03 08:43:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.GT, cs.LG, cs.MA パーマリンク