要約
この研究では、多様なマルコフ意思決定プロセス (MDP) にわたって動作する価値ベースのエージェントのコンテキストで、連合強化学習 (FedRL) を詳しく掘り下げます。
既存の FedRL メソッドは通常、エージェント全体の値関数を平均することでエージェントの学習を集約し、パフォーマンスを向上させます。
ただし、この集約戦略は、エージェントが多様な最適値関数に収束する異種環境では最適とは言えません。
この問題に対処するために、さまざまな MDP にわたる個々のエージェントの学習を強化するように設計された Convergence-Aware Sampling with scReening (CAESAR) 集約スキームを導入します。
CAESAR は、サーバーによって使用される集約戦略であり、収束を意識したサンプリングとスクリーニング メカニズムを組み合わせたものです。
CAESAR は、同一の MDP で学習するエージェントが同じ最適値関数に収束するという事実を利用することで、より熟練したエージェントからの知識の選択的同化を可能にし、それによって全体的な学習効率を大幅に向上させます。
私たちは仮説を経験的に検証し、カスタム構築された GridWorld 環境と古典的な FrozenLake-v1 タスクの両方を使用して、エージェントの学習効率を高める CAESAR の有効性を実証します。それぞれがさまざまなレベルの環境の不均一性を示します。
要約(オリジナル)
In this study, we delve into Federated Reinforcement Learning (FedRL) in the context of value-based agents operating across diverse Markov Decision Processes (MDPs). Existing FedRL methods typically aggregate agents’ learning by averaging the value functions across them to improve their performance. However, this aggregation strategy is suboptimal in heterogeneous environments where agents converge to diverse optimal value functions. To address this problem, we introduce the Convergence-AwarE SAmpling with scReening (CAESAR) aggregation scheme designed to enhance the learning of individual agents across varied MDPs. CAESAR is an aggregation strategy used by the server that combines convergence-aware sampling with a screening mechanism. By exploiting the fact that agents learning in identical MDPs are converging to the same optimal value function, CAESAR enables the selective assimilation of knowledge from more proficient counterparts, thereby significantly enhancing the overall learning efficiency. We empirically validate our hypothesis and demonstrate the effectiveness of CAESAR in enhancing the learning efficiency of agents, using both a custom-built GridWorld environment and the classical FrozenLake-v1 task, each presenting varying levels of environmental heterogeneity.
arxiv情報
著者 | Hei Yi Mak,Flint Xiaofeng Fan,Luca A. Lanzendörfer,Cheston Tan,Wei Tsang Ooi,Roger Wattenhofer |
発行日 | 2024-03-29 13:05:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google