要約
タイトル:Mean Field Gamesを安定化する方策更新の正則化
要約:
– 本研究は、複数のエージェントが同じ環境で相互作用し、個別のリターンを最大化することを目的とする、非協力的なMulti-Agent Reinforcement Learning(MARL)を研究している。
– 多数のエージェントをスケーリングする場合、多くのエージェントが導入する結果の不安定性により課題が発生する。この問題に対処するために、Mean Field Games(MFG)は、非常に大きな人口のゲームを近似するために対称性と均質性の仮定に依存しています。
– 近年、ディープReinforcement Learningが使用され、より多くの状態を持つゲームにMFGをスケーリングする方法が開発されました。現在の方法は、q値や平均場分布の更新を平滑化するなどの平滑化技術に依存しています。
– この研究では、平均場方策に対するプロキシマル更新に基づく学習を安定化する異なるアプローチを提示します。我々はアルゴリズムをMean Field Proximal Policy Optimization(MF-PPO)と呼び、OpenSpielフレームワークでの我々の手法の有効性を実証しています。
要約(オリジナル)
This work studies non-cooperative Multi-Agent Reinforcement Learning (MARL) where multiple agents interact in the same environment and whose goal is to maximize the individual returns. Challenges arise when scaling up the number of agents due to the resultant non-stationarity that the many agents introduce. In order to address this issue, Mean Field Games (MFG) rely on the symmetry and homogeneity assumptions to approximate games with very large populations. Recently, deep Reinforcement Learning has been used to scale MFG to games with larger number of states. Current methods rely on smoothing techniques such as averaging the q-values or the updates on the mean-field distribution. This work presents a different approach to stabilize the learning based on proximal updates on the mean-field policy. We name our algorithm Mean Field Proximal Policy Optimization (MF-PPO), and we empirically show the effectiveness of our method in the OpenSpiel framework.
arxiv情報
著者 | Talal Algumaei,Ruben Solozabal,Reda Alami,Hakim Hacid,Merouane Debbah,Martin Takac |
発行日 | 2023-04-13 13:53:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI