Local Optimization Achieves Global Optimality in Multi-Agent Reinforcement Learning

要約

タイトル:マルチエージェント強化学習において局所最適化はグローバル最適化を達成する

要約:

– マルチエージェント強化学習において、関数近似を活用したポリシーオプティマイゼーション手法が広く使われている。
– しかし、このようなアルゴリズムを統計的な保証を持って設計する方法がまだ見つかっていない。
– マルチエージェントポリシーオプティマイゼーションのランドスケープを特徴付ける多エージェントパフォーマンスの差分補題を活用し、局所アクション価値関数が各局所ポリシーに対して理想的な下降方向となることを発見した。
– これに基づいて、各エージェントの局所ポリシーをvanilla PPOに似た方法で更新するマルチエージェントPPOアルゴリズムを提案する。
– マルコフゲームの標準的な規則性条件と問題に依存する量がある場合、本アルゴリズムがサブリニアレートでグローバル最適ポリシーに収束することを証明する。
– オフポリシーの設定にも拡張し、ポリシー評価に悲観主義を導入し、実験と一致する。
– 協力的なマルコフゲームにおいて、測定可能な証明付きの最初のマルチエージェントPPOアルゴリズムである。

要約(オリジナル)

Policy optimization methods with function approximation are widely used in multi-agent reinforcement learning. However, it remains elusive how to design such algorithms with statistical guarantees. Leveraging a multi-agent performance difference lemma that characterizes the landscape of multi-agent policy optimization, we find that the localized action value function serves as an ideal descent direction for each local policy. Motivated by the observation, we present a multi-agent PPO algorithm in which the local policy of each agent is updated similarly to vanilla PPO. We prove that with standard regularity conditions on the Markov game and problem-dependent quantities, our algorithm converges to the globally optimal policy at a sublinear rate. We extend our algorithm to the off-policy setting and introduce pessimism to policy evaluation, which aligns with experiments. To our knowledge, this is the first provably convergent multi-agent PPO algorithm in cooperative Markov games.

arxiv情報

著者 Yulai Zhao,Zhuoran Yang,Zhaoran Wang,Jason D. Lee
発行日 2023-05-08 16:20:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.GT, cs.LG, cs.MA, stat.ML パーマリンク