要約
統合強化学習 (FedRL) を使用すると、複数のエージェントが、エージェントと環境の対話中に収集されたローカル トラジェクトリを共有することなく、ポリシーを共同して学習できます。
ただし、実際には、さまざまなエージェントが直面する環境は異種であることが多く、個々のエージェントの既存の FedRL アルゴリズムによって学習された単一のポリシーではパフォーマンスが低下します。
このペーパーでは、さらに一歩進んで、異種環境のエージェント間で共有される可能性のある共通構造を利用する \emph{personalized} FedRL フレームワーク (PFedRL) を紹介します。
具体的には、PFedRL-Rep という名前の PFedRL アルゴリズムのクラスを開発します。このクラスは、(1) すべてのエージェント間で共同して共有される特徴表現、および (2) ローカル環境に合わせてパーソナライズされたエージェント固有の重みベクトルを学習します。
時間差分 (TD) 学習と線形表現を備えたフレームワークの特定のインスタンスである PFedTD-Rep の収束を分析します。
私たちの知る限り、PFedRL 設定におけるエージェントの数に関して線形収束の高速化を証明したのは私たちが初めてです。
これを達成するために、PFedTD-Rep がマルコフ ノイズを使用した統合 2 タイムスケール確率近似の例であることを示します。
実験結果は、PFedTD-Rep がディープ Q ネットワーク (DQN) に基づく制御設定の拡張と併せて、異種環境での学習を改善するだけでなく、新しい環境へのより良い一般化も提供することを示しています。
要約(オリジナル)
Federated reinforcement learning (FedRL) enables multiple agents to collaboratively learn a policy without sharing their local trajectories collected during agent-environment interactions. However, in practice, the environments faced by different agents are often heterogeneous, leading to poor performance by the single policy learned by existing FedRL algorithms on individual agents. In this paper, we take a further step and introduce a \emph{personalized} FedRL framework (PFedRL) by taking advantage of possibly shared common structure among agents in heterogeneous environments. Specifically, we develop a class of PFedRL algorithms named PFedRL-Rep that learns (1) a shared feature representation collaboratively among all agents, and (2) an agent-specific weight vector personalized to its local environment. We analyze the convergence of PFedTD-Rep, a particular instance of the framework with temporal difference (TD) learning and linear representations. To the best of our knowledge, we are the first to prove a linear convergence speedup with respect to the number of agents in the PFedRL setting. To achieve this, we show that PFedTD-Rep is an example of the federated two-timescale stochastic approximation with Markovian noise. Experimental results demonstrate that PFedTD-Rep, along with an extension to the control setting based on deep Q-networks (DQN), not only improve learning in heterogeneous settings, but also provide better generalization to new environments.
arxiv情報
著者 | Guojun Xiong,Shufan Wang,Daniel Jiang,Jian Li |
発行日 | 2024-11-22 15:42:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google