Distributed Dynamic Programming forNetworked Multi-Agent Markov Decision Processes

要約

この論文の主な目的は、ネットワーク化されたマルチエージェント マルコフ決定問題 (MDP) を解決するために分散動的プログラミング (DP) を調査することです。
各エージェントが自分の報酬を除いて他のエージェントの報酬にアクセスできない、分散型マルチエージェントのケースを考えます。
さらに、各エージェントは、グラフで表される通信ネットワークを介して近隣エージェントとパラメータを共有できます。
連続時間領域における分散型 DP を提案し、制御理論の観点からその収束を証明します。
提案された分析は、分散時間差分学習アルゴリズムの予備的な常微分方程式 (ODE) 分析とみなすことができ、その収束はボルカー・マインの定理と単一時間スケール アプローチを使用して証明できます。

要約(オリジナル)

The main goal of this paper is to investigate distributed dynamic programming (DP) to solve networked multi-agent Markov decision problems (MDPs). We consider a distributed multi-agent case, where each agent does not have an access to the rewards of other agents except for its own reward. Moreover, each agent can share their parameters with its neighbors over a communication network represented by a graph. We propose a distributed DP in the continuous-time domain, and prove its convergence through control theoretic viewpoints. The proposed analysis can be viewed as a preliminary ordinary differential equation (ODE) analysis of a distributed temporal difference learning algorithm, whose convergence can be proved using Borkar-Meyn theorem and the single time-scale approach.

arxiv情報

著者 Okyong Choi,Donghwan Lee
発行日 2023-07-31 14:25:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SY, eess.SY パーマリンク