Federated Offline Reinforcement Learning: Collaborative Single-Policy Coverage Suffices

要約

オフライン データを使用して最適なポリシーを学習しようとするオフライン強化学習 (RL) は、オンライン データ収集が実行不可能または高価な重要なアプリケーションでの可能性があるため、大きな関心を集めています。
この研究では、複数のエージェントでオフライン データセットを共同で活用することを目的として、オフライン RL のフェデレーション ラーニングの利点を調査します。
有限水平エピソード表形式マルコフ決定プロセス (MDP) に焦点を当て、フェデレーテッド オフライン RL 向けに調整された人気のあるモデルフリー Q 学習アルゴリズムのバリアントである FedLCB-Q を設計します。
FedLCB-Q は、エージェントのローカル Q 関数を新しい学習率スケジュールで更新し、重要度の平均化と慎重に設計された悲観的ペナルティ項を使用して中央サーバーで集約します。
サンプルの複雑さの分析により、適切に選択されたパラメーターと同期スケジュールにより、ローカル データセットが集合的に状態アクションをカバーしている限り、個々のエージェントに高品質のデータセットを必要とせずに、FedLCB-Q がエージェントの数に関して直線的な高速化を達成することが明らかになりました。
最適なポリシーが訪問するスペースを示し、フェデレーション環境でのコラボレーションの力を強調します。
実際、サンプルの複雑さは単一エージェントの対応するものとほぼ一致しており、あたかもすべてのデータが水平線の長さの多項式因数まで中央の場所に保存されているかのように見えます。
さらに、FedLCB-Q は通信効率が高く、通信ラウンド数は対数係数までのホライズン長に対して線形のみです。

要約(オリジナル)

Offline reinforcement learning (RL), which seeks to learn an optimal policy using offline data, has garnered significant interest due to its potential in critical applications where online data collection is infeasible or expensive. This work explores the benefit of federated learning for offline RL, aiming at collaboratively leveraging offline datasets at multiple agents. Focusing on finite-horizon episodic tabular Markov decision processes (MDPs), we design FedLCB-Q, a variant of the popular model-free Q-learning algorithm tailored for federated offline RL. FedLCB-Q updates local Q-functions at agents with novel learning rate schedules and aggregates them at a central server using importance averaging and a carefully designed pessimistic penalty term. Our sample complexity analysis reveals that, with appropriately chosen parameters and synchronization schedules, FedLCB-Q achieves linear speedup in terms of the number of agents without requiring high-quality datasets at individual agents, as long as the local datasets collectively cover the state-action space visited by the optimal policy, highlighting the power of collaboration in the federated setting. In fact, the sample complexity almost matches that of the single-agent counterpart, as if all the data are stored at a central location, up to polynomial factors of the horizon length. Furthermore, FedLCB-Q is communication-efficient, where the number of communication rounds is only linear with respect to the horizon length up to logarithmic factors.

arxiv情報

著者 Jiin Woo,Laixi Shi,Gauri Joshi,Yuejie Chi
発行日 2024-02-08 18:09:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, stat.ML パーマリンク