Optimistic Multi-Agent Policy Gradient for Cooperative Tasks

要約

\textit{相対的過剰一般化} (RO) は、他のエージェントの準最適な動作に対する過剰適合により、エージェントが準最適な共同ポリシーに向かって収束するときに、マルチエージェントの協調学習タスクで発生します。
初期の研究では、表形式の Q 学習を使用する場合、楽観主義により \textit{RO} 問題が軽減されることが示されています。
ただし、関数近似では楽観主義が過大評価を増幅させ、複雑なタスクで失敗する可能性があります。
一方、最近のディープ マルチエージェント ポリシー グラディエント (MAPG) 手法は、多くの複雑なタスクでは成功していますが、深刻な \textit{RO} で失敗する可能性があります。
我々は、MAPG メソッドでの楽観的な更新を可能にし、RO 問題を軽減するための、一般的でありながらシンプルなフレームワークを提案します。
具体的には、\textit{Leaky ReLU} 関数を使用します。この関数では、単一のハイパーパラメータで楽観主義の度合いを選択し、ポリシーを更新する際の利点を再構成します。
直観的には、私たちの方法は、学習中の他のエージェントの最適ではない行動によって引き起こされる可能性のある、収益が低い個々のアクションに対して楽観的なままです。
楽観主義により、個々のエージェントが局所的な最適値に迅速に収束することが妨げられます。
また、提案された利点の変換を理解するために、オペレーターの視点からの正式な分析も提供します。
例示的なマトリックス ゲーム、複雑な \textit{マルチエージェント MuJoCo} および \textit{Overcooked} ベンチマークを含む、さまざまなタスクのセットに関する広範な評価で、提案されたメソッド\footnote{コードは \url{https://github にあります。
.com/wenshuaizhao/optimappo}.} は、テストされた 19 タスクのうち 13 タスクで強力なベースラインを上回り、残りのタスクと同等のパフォーマンスを示しました。

要約(オリジナル)

\textit{Relative overgeneralization} (RO) occurs in cooperative multi-agent learning tasks when agents converge towards a suboptimal joint policy due to overfitting to suboptimal behavior of other agents. In early work, optimism has been shown to mitigate the \textit{RO} problem when using tabular Q-learning. However, with function approximation optimism can amplify overestimation and thus fail on complex tasks. On the other hand, recent deep multi-agent policy gradient (MAPG) methods have succeeded in many complex tasks but may fail with severe \textit{RO}. We propose a general, yet simple, framework to enable optimistic updates in MAPG methods and alleviate the RO problem. Specifically, we employ a \textit{Leaky ReLU} function where a single hyperparameter selects the degree of optimism to reshape the advantages when updating the policy. Intuitively, our method remains optimistic toward individual actions with lower returns which are potentially caused by other agents’ sub-optimal behavior during learning. The optimism prevents the individual agents from quickly converging to a local optimum. We also provide a formal analysis from an operator view to understand the proposed advantage transformation. In extensive evaluations on diverse sets of tasks, including illustrative matrix games, complex \textit{Multi-agent MuJoCo} and \textit{Overcooked} benchmarks, the proposed method\footnote{Code can be found at \url{https://github.com/wenshuaizhao/optimappo}.} outperforms strong baselines on 13 out of 19 tested tasks and matches the performance on the rest.

arxiv情報

著者 Wenshuai Zhao,Yi Zhao,Zhiyuan Li,Juho Kannala,Joni Pajarinen
発行日 2023-11-03 14:47:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA パーマリンク