Federated Temporal Difference Learning with Linear Function Approximation under Environmental Heterogeneity

要約

政策評価問題を考慮することにより、環境の不均一性の下での連合強化学習の研究を開始します。
私たちのセットアップには、同じ状態とアクション空間を共有するが、報酬関数と状態遷移カーネルが異なる環境と対話する $N$ エージェントが含まれます。
エージェントが中央サーバーを介して通信できると仮定すると、情報を交換することで共通ポリシーの評価プロセスが促進されますか?
この質問に答えるために、マルコフ サンプリング、エージェント環境の不均一性、および通信を節約するための複数のローカル更新を考慮しながら、線形関数近似を使用した連合時間差分 (TD) 学習アルゴリズムの最初の包括的な有限時間分析を提供します。
私たちの分析は、いくつかの新しい要素に決定的に依存しています。(i) エージェントの基礎となるマルコフ決定プロセス (MDP) の不均一性の関数として TD 固定点の摂動限界を導き出す。
(ii) 仮想 MDP を導入して、連合 TD アルゴリズムのダイナミクスを厳密に近似する。
(iii) 仮想 MDP を使用してフェデレーション最適化への明示的な接続を確立します。
これらの部分をまとめると、低異質性領域ではモデル推定値の交換がエージェント数の線形収束の高速化につながることを厳密に証明します。

要約(オリジナル)

We initiate the study of federated reinforcement learning under environmental heterogeneity by considering a policy evaluation problem. Our setup involves $N$ agents interacting with environments that share the same state and action space but differ in their reward functions and state transition kernels. Assuming agents can communicate via a central server, we ask: Does exchanging information expedite the process of evaluating a common policy? To answer this question, we provide the first comprehensive finite-time analysis of a federated temporal difference (TD) learning algorithm with linear function approximation, while accounting for Markovian sampling, heterogeneity in the agents’ environments, and multiple local updates to save communication. Our analysis crucially relies on several novel ingredients: (i) deriving perturbation bounds on TD fixed points as a function of the heterogeneity in the agents’ underlying Markov decision processes (MDPs); (ii) introducing a virtual MDP to closely approximate the dynamics of the federated TD algorithm; and (iii) using the virtual MDP to make explicit connections to federated optimization. Putting these pieces together, we rigorously prove that in a low-heterogeneity regime, exchanging model estimates leads to linear convergence speedups in the number of agents.

arxiv情報

著者 Han Wang,Aritra Mitra,Hamed Hassani,George J. Pappas,James Anderson
発行日 2024-07-01 14:07:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク