要約
この論文の主な目的は、ネットワーク化されたマルチエージェント マルコフ決定問題 (MAMDP) の分散常微分方程式 (ODE) および分散時間差分 (TD) 学習アルゴリズムを調査することです。
私たちの研究では、個々のエージェントが自分の報酬にのみアクセスでき、他のエージェントの報酬についての洞察が欠けている分散型マルチエージェント フレームワークを採用しています。
さらに、各エージェントは、グラフで表される通信ネットワークを介して近隣のエージェントとパラメータを共有する機能を備えています。
私たちの貢献は 2 つの重要な点に要約できます。 1) 連続時間領域での平均コンセンサス法にヒントを得た、新しい分散型 ODE を導入します。
ODE の収束は、制御理論の観点から評価されます。
2) 前述の ODE に基づいて、新しい分散 TD 学習アルゴリズムを考案します。
私たちが提案する分散 ODE の 1 つの際立った特徴は、それぞれが異なる役割を持つ 2 つの独立した動的システムを組み込んでいることです。
この特性は、新しい分散型 TD 学習戦略の舞台を設定し、その収束はボルカー・マインの定理を使用して確立できる可能性があります。
要約(オリジナル)
The primary objective of this paper is to investigate distributed ordinary differential equation (ODE) and distributed temporal difference (TD) learning algorithms for networked multi-agent Markov decision problems (MAMDPs). In our study, we adopt a distributed multi-agent framework where individual agents have access only to their own rewards, lacking insights into the rewards of other agents. Additionally, each agent has the ability to share its parameters with neighboring agents through a communication network, represented by a graph. Our contributions can be summarized in two key points: 1) We introduce novel distributed ODEs, inspired by the averaging consensus method in the continuous-time domain. The convergence of the ODEs is assessed through control theory perspectives. 2) Building upon the aforementioned ODEs, we devise new distributed TD-learning algorithms. A standout feature of one of our proposed distributed ODEs is its incorporation of two independent dynamic systems, each with a distinct role. This characteristic sets the stage for a novel distributed TD-learning strategy, the convergence of which can potentially be established using Borkar-Meyn theorem.
arxiv情報
著者 | Donghwan Lee,Han-Dong Lim,Do Wan Kim |
発行日 | 2023-08-17 08:45:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google