要約
深層強化学習 (RL) を使用してトレーニングされた自律エージェントは、たとえトレーニング中に遭遇した環境と特徴を共有していても、新しい環境にうまく一般化する能力に欠けていることがよくあります。
この研究では、個々の環境インスタンスまたはレベルのサンプリングが RL エージェントのゼロショット汎化 (ZSG) 能力にどのような影響を与えるかを調査します。
基本層を共有するディープアクタークリティカルアーキテクチャの場合、値の損失に応じてレベルに優先順位を付けると、エージェントの内部表現と生成されたトレーニングデータ内の一連のトレーニングレベルの間の相互情報が最小限に抑えられることがわかりました。
これは、特定の適応サンプリング戦略によって達成される正則化に対する新しい理論的正当化を提供します。
次に、レベル生成の制御を前提とした教師なし環境設計 (UED) 手法に注目します。
既存の UED 手法ではトレーニングの分布が大幅に変化する可能性があり、これが ZSG パフォーマンスの低下につながる可能性があることがわかりました。
過剰適合と分布シフトの両方を防ぐために、データ正規化環境設計 (DRED) を導入します。
DRED は、レベル パラメーターの初期セットのグラウンド トゥルース分布を近似するようにトレーニングされた生成モデルを使用してレベルを生成します。
DRED は、そのグラウンディングにより、適応レベル サンプリング戦略や UED 手法に比べて ZSG の大幅な改善を実現します。
私たちのコードと実験データは https://github.com/uoe-agents/dred で入手できます。
要約(オリジナル)
Autonomous agents trained using deep reinforcement learning (RL) often lack the ability to successfully generalise to new environments, even when these environments share characteristics with the ones they have encountered during training. In this work, we investigate how the sampling of individual environment instances, or levels, affects the zero-shot generalisation (ZSG) ability of RL agents. We discover that, for deep actor-critic architectures sharing their base layers, prioritising levels according to their value loss minimises the mutual information between the agent’s internal representation and the set of training levels in the generated training data. This provides a novel theoretical justification for the regularisation achieved by certain adaptive sampling strategies. We then turn our attention to unsupervised environment design (UED) methods, which assume control over level generation. We find that existing UED methods can significantly shift the training distribution, which translates to low ZSG performance. To prevent both overfitting and distributional shift, we introduce data-regularised environment design (DRED). DRED generates levels using a generative model trained to approximate the ground truth distribution of an initial set of level parameters. Through its grounding, DRED achieves significant improvements in ZSG over adaptive level sampling strategies and UED methods. Our code and experimental data are available at https://github.com/uoe-agents/dred.
arxiv情報
| 著者 | Samuel Garcin,James Doran,Shangmin Guo,Christopher G. Lucas,Stefano V. Albrecht |
| 発行日 | 2024-06-05 14:44:10+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google