要約
フェデレーション強化学習 (RL) により、ローカル データ トラジェクトリを共有せずに、複数の分散エージェントの協調的な意思決定が可能になります。
この研究では、環境の同じ遷移カーネルを共有しながら、各エージェントが異なるタスクに対応する独自のプライベート報酬関数を持つマルチタスク設定を検討します。
無限水平マルコフ意思決定プロセスに焦点を当て、目標は、各エージェントが所定のグラフ トポロジ上でのみ隣接するエージェントと通信する分散方式で、すべてのエージェントの割引合計報酬の合計を最大化するグローバルに最適なポリシーを学習することです。
私たちは、ソフトマックスパラメータ化の下で表形式の設定でフェデレーションバニラメソッドとエントロピー正規化自然ポリシー勾配(NPG)メソッドを開発します。このメソッドでは、不完全な情報共有の影響を軽減するためにグローバルQ関数を推定するために勾配追跡が適用されます。
我々は、正確なポリシー評価の下で、非漸近的なグローバル収束保証を確立します。この場合、レートは状態アクション空間のサイズにほぼ依存せず、ネットワークのサイズと接続性の影響が明らかになります。
私たちの知る限り、ポリシー最適化を使用してフェデレーション マルチタスク RL に対してほぼ次元フリーのグローバル コンバージェンスが確立されたのはこれが初めてです。
さらに、関数近似を使用したマルチタスク RL 用のフェデレーション ナチュラル アクター クリティカル (NAC) 手法を提案することで、表形式の設定を超えて、関数近似の誤差を考慮して有限時間サンプルの複雑さを確立します。
要約(オリジナル)
Federated reinforcement learning (RL) enables collaborative decision making of multiple distributed agents without sharing local data trajectories. In this work, we consider a multi-task setting, in which each agent has its own private reward function corresponding to different tasks, while sharing the same transition kernel of the environment. Focusing on infinite-horizon Markov decision processes, the goal is to learn a globally optimal policy that maximizes the sum of the discounted total rewards of all the agents in a decentralized manner, where each agent only communicates with its neighbors over some prescribed graph topology. We develop federated vanilla and entropy-regularized natural policy gradient (NPG) methods in the tabular setting under softmax parameterization, where gradient tracking is applied to estimate the global Q-function to mitigate the impact of imperfect information sharing. We establish non-asymptotic global convergence guarantees under exact policy evaluation, where the rates are nearly independent of the size of the state-action space and illuminate the impacts of network size and connectivity. To the best of our knowledge, this is the first time that near dimension-free global convergence is established for federated multi-task RL using policy optimization. We further go beyond the tabular setting by proposing a federated natural actor critic (NAC) method for multi-task RL with function approximation, and establish its finite-time sample complexity taking the errors of function approximation into account.
arxiv情報
著者 | Tong Yang,Shicong Cen,Yuting Wei,Yuxin Chen,Yuejie Chi |
発行日 | 2024-08-16 16:34:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google