Distributed Dynamic Programming and an O.D.E. Framework of Distributed TD-Learning for Networked Multi-Agent Markov Decision Processes

要約

この論文の主な目的は、ネットワーク化されたマルチエージェント マルコフ決定問題 (MAMDP) に対する分散動的計画法 (DP) および分散時間差分 (TD) 学習アルゴリズムを調査することです。
私たちの研究では、個々のエージェントが自分の報酬にのみアクセスでき、他のエージェントの報酬についての洞察が欠けている分散型マルチエージェント フレームワークを採用しています。
さらに、各エージェントは、グラフで表される通信ネットワークを介して近隣のエージェントとパラメータを共有する機能を備えています。
私たちの貢献は 2 つの重要な点に要約できます。 1) 連続時間領域での平均化コンセンサス法にヒントを得た、新しい分散型 DP を導入します。
この DP の収束は、制御理論の観点から評価されます。
2) 前述の DP に基づいて、新しい分散 TD 学習アルゴリズムを考案し、その収束を証明します。
私たちが提案する分散型 DP の際立った特徴は、それぞれが異なる役割を持つ 2 つの独立した動的システムを組み込んでいることです。
この特性は、新しい分散型 TD 学習戦略の舞台を設定し、その収束はボルカー・マインの定理を使用して直接確立できます。

要約(オリジナル)

The primary objective of this paper is to investigate distributed dynamic programming (DP) and distributed temporal difference (TD) learning algorithms for networked multi-agent Markov decision problems (MAMDPs). In our study, we adopt a distributed multi-agent framework where individual agents have access only to their own rewards, lacking insights into the rewards of other agents. Additionally, each agent has the ability to share its parameters with neighboring agents through a communication network, represented by a graph. Our contributions can be summarized in two key points: 1) We introduce a novel distributed DP, inspired by the averaging consensus method in the continuous-time domain. The convergence of this DP is assessed through control theory perspectives. 2) Building upon the aforementioned DP, we devise a new distributed TD-learning algorithm and prove its convergence. A standout feature of our proposed distributed DP is its incorporation of two independent dynamic systems, each with a distinct role. This characteristic sets the stage for a novel distributed TD-learning strategy, the convergence of which can be directly established using the Borkar-Meyn theorem.

arxiv情報

著者 Donghwan Lee
発行日 2023-08-07 15:52:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SY, eess.SY パーマリンク