要約
強化学習は最近前例のない人気を博していますが、依然としてサンプルの非効率性に悩まされています。
この課題に対処するために、エージェントがローカル推定を集約することで単一のポリシーを共同で学習する連合強化学習 (FedRL) が登場しました。
ただし、この集約ステップでは多大な通信コストがかかります。
この論文では、 \textit{周期的集約} と (直接/エラーフィードバック) 圧縮メカニズムの両方を組み込んだ通信効率の高い FedRL アプローチである CompFedRL を提案します。
具体的には、生成モデル設定を使用した圧縮フェデレーテッド $Q$ 学習を検討します。この学習では、中央サーバーがローカル エージェントからの圧縮 $Q$ 推定値を定期的に集約することで最適な $Q$ 関数を学習します。
初めて、アルゴリズムの有限時間解析を提供することで、これら 2 つのメカニズム (とらえどころのない) の影響を特徴づけ、直接圧縮またはエラー フィードバック圧縮を利用した場合の強力な収束動作を実証しました。
私たちの限界は、通信コストを削減しながら、エージェントおよびその他のフェデレーション ハイパーパラメーターの数に関するソリューションの精度が向上していることを示しています。
私たちの理論を裏付けるために、Top-$K$ および Sparsified-$K$ スパース化演算子を考慮した詳細な数値実験も行って、結果を検証します。
要約(オリジナル)
Reinforcement learning has recently gained unprecedented popularity, yet it still grapples with sample inefficiency. Addressing this challenge, federated reinforcement learning (FedRL) has emerged, wherein agents collaboratively learn a single policy by aggregating local estimations. However, this aggregation step incurs significant communication costs. In this paper, we propose CompFedRL, a communication-efficient FedRL approach incorporating both \textit{periodic aggregation} and (direct/error-feedback) compression mechanisms. Specifically, we consider compressed federated $Q$-learning with a generative model setup, where a central server learns an optimal $Q$-function by periodically aggregating compressed $Q$-estimates from local agents. For the first time, we characterize the impact of these two mechanisms (which have remained elusive) by providing a finite-time analysis of our algorithm, demonstrating strong convergence behaviors when utilizing either direct or error-feedback compression. Our bounds indicate improved solution accuracy concerning the number of agents and other federated hyperparameters while simultaneously reducing communication costs. To corroborate our theory, we also conduct in-depth numerical experiments to verify our findings, considering Top-$K$ and Sparsified-$K$ sparsification operators.
arxiv情報
著者 | Ali Beikmohammadi,Sarit Khirirat,Sindri Magnússon |
発行日 | 2024-10-14 16:11:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google