The Gradient Convergence Bound of Federated Multi-Agent Reinforcement Learning with Efficient Communication

要約

この論文では、連合学習 (FL) のパラダイムにおけるマルチエージェントの協調的な意思決定のための独立強化学習 (IRL) について考察します。
ただし、FL では、特に多数のエージェントまたは反復が関与する場合、エージェントとリモート中央サーバーの間で過度の通信オーバーヘッドが発生します。
さらに、独立した学習環境の異質性により、複数のエージェントが非同期マルコフ決定プロセス (MDP) を実行する可能性があり、トレーニング サンプルとモデルの収束パフォーマンスに影響を与えます。
変動を考慮した周期的平均化 (VPA) 法とポリシーベースの深層強化学習 (DRL) アルゴリズム (つまり、近接ポリシー最適化 (PPO)) に加えて、この論文では確率的勾配降下法 (SGD) を対象とした 2 つの高度な最適化スキームを提案します。
): 1) 減衰ベースのスキームは、連続するローカル更新の進行に伴って、モデルのローカル勾配の重みを徐々に減衰させます。2) コンセンサスベースのスキームは、エージェントをグラフとして表すことにより、モデルのローカルな値を交換する影響を研究します。
代数的接続性の観点から見た、近くのエージェント間の勾配。
この論文はまた、開発された両方のスキームに対する新しい収束保証を提供し、理論分析とシミュレーション結果を通じてシステムの利用価値を向上させる際の優れた有効性と効率を実証します。

要約(オリジナル)

The paper considers independent reinforcement learning (IRL) for multi-agent collaborative decision-making in the paradigm of federated learning (FL). However, FL generates excessive communication overheads between agents and a remote central server, especially when it involves a large number of agents or iterations. Besides, due to the heterogeneity of independent learning environments, multiple agents may undergo asynchronous Markov decision processes (MDPs), which will affect the training samples and the model’s convergence performance. On top of the variation-aware periodic averaging (VPA) method and the policy-based deep reinforcement learning (DRL) algorithm (i.e., proximal policy optimization (PPO)), this paper proposes two advanced optimization schemes orienting to stochastic gradient descent (SGD): 1) A decay-based scheme gradually decays the weights of a model’s local gradients with the progress of successive local updates, and 2) By representing the agents as a graph, a consensus-based scheme studies the impact of exchanging a model’s local gradients among nearby agents from an algebraic connectivity perspective. This paper also provides novel convergence guarantees for both developed schemes, and demonstrates their superior effectiveness and efficiency in improving the system’s utility value through theoretical analyses and simulation results.

arxiv情報

著者 Xing Xu,Rongpeng Li,Zhifeng Zhao,Honggang Zhang
発行日 2023-05-29 12:53:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク