要約
政策反復(Policy Iteration: PI)の発展は、強化学習(Reinforcement Learning: RL)の最近のアルゴリズムに多くのインスピレーションを与えてきた。PIの理論は集中学習の文脈では豊富であるが、連合環境下での研究はまだ始まったばかりである。本論文では、近似PI(API)の連合型バージョンを調査し、環境の不均一性によってもたらされる近似誤差を考慮して、その誤差境界を導出する。適切なクライアント選択スキームにより、この誤差境界を低減できることを理論的に証明する。この理論結果に基づき、環境の不均一性によって生じる付加的な近似誤差を緩和するためのクライアント選択アルゴリズムを提案する。実験の結果、提案アルゴリズムは、母集団分布から異質性の低いクライアントを効果的に選択することで、連合山岳車問題、Mujoco Hopper問題、SUMOに基づく自律走行車訓練問題において、他の偏りや不偏のクライアント選択手法を凌駕することが示された。
要約(オリジナル)
The development of Policy Iteration (PI) has inspired many recent algorithms for Reinforcement Learning (RL), including several policy gradient methods that gained both theoretical soundness and empirical success on a variety of tasks. The theory of PI is rich in the context of centralized learning, but its study under the federated setting is still in the infant stage. This paper investigates the federated version of Approximate PI (API) and derives its error bound, taking into account the approximation error introduced by environment heterogeneity. We theoretically prove that a proper client selection scheme can reduce this error bound. Based on the theoretical result, we propose a client selection algorithm to alleviate the additional approximation error caused by environment heterogeneity. Experiment results show that the proposed algorithm outperforms other biased and unbiased client selection methods on the federated mountain car problem, the Mujoco Hopper problem, and the SUMO-based autonomous vehicle training problem by effectively selecting clients with a lower level of heterogeneity from the population distribution.
arxiv情報
| 著者 | Zhijie Xie,S. H. Song |
| 発行日 | 2025-05-02 14:33:22+00:00 |
| arxivサイト | arxiv_id(pdf) |