How the level sampling process impacts zero-shot generalisation in deep reinforcement learning

要約

深層強化学習 (RL) によって訓練された自律エージェントの広範な導入を妨げる主な制限は、訓練中に遭遇する環境と同様の特性を共有する場合でも、新しい環境に一般化する能力が限られていることです。
この研究では、過剰適合と過剰一般化という 2 つの障害モードを考慮して、個々の環境インスタンスまたはレベルの不均一なサンプリング戦略が RL エージェントのゼロショット汎化 (ZSG) 能力にどのような影響を与えるかを調査します。
最初のステップとして、エージェントの内部表現と一連のトレーニング レベルの間の相互情報量 (MI) を測定します。これは、インスタンスの過剰適合とよく相関していることがわかります。
均一サンプリングとは対照的に、値の損失に基づいてレベルに優先順位を付ける適応サンプリング戦略は、より低い MI を維持するのにより効果的であり、このクラスの技術に新たな理論的根拠を提供します。
次に、教師なし環境設計 (UED) 手法に注目します。この手法は、新しいトレーニング レベルを適応的に生成し、固定セットからサンプリングする手法より効果的に MI を最小化します。
ただし、UED 手法はトレーニング分布を大幅に変更し、その結果、過度の一般化が発生し、対象の分布よりも ZSG のパフォーマンスが低下することがわかりました。
インスタンスの過剰適合と過剰一般化の両方を防ぐために、自己教師あり環境設計 (SSED) を導入します。
SSED は、変分オートエンコーダを使用してレベルを生成し、関心のある分布とのシフトを最小限に抑えながら MI を効果的に削減し、固定セットレベルのサンプリング戦略や UED 手法と比べて ZSG で統計的に有意な改善をもたらします。

要約(オリジナル)

A key limitation preventing the wider adoption of autonomous agents trained via deep reinforcement learning (RL) is their limited ability to generalise to new environments, even when these share similar characteristics with environments encountered during training. In this work, we investigate how a non-uniform sampling strategy of individual environment instances, or levels, affects the zero-shot generalisation (ZSG) ability of RL agents, considering two failure modes: overfitting and over-generalisation. As a first step, we measure the mutual information (MI) between the agent’s internal representation and the set of training levels, which we find to be well-correlated to instance overfitting. In contrast to uniform sampling, adaptive sampling strategies prioritising levels based on their value loss are more effective at maintaining lower MI, which provides a novel theoretical justification for this class of techniques. We then turn our attention to unsupervised environment design (UED) methods, which adaptively generate new training levels and minimise MI more effectively than methods sampling from a fixed set. However, we find UED methods significantly shift the training distribution, resulting in over-generalisation and worse ZSG performance over the distribution of interest. To prevent both instance overfitting and over-generalisation, we introduce self-supervised environment design (SSED). SSED generates levels using a variational autoencoder, effectively reducing MI while minimising the shift with the distribution of interest, and leads to statistically significant improvements in ZSG over fixed-set level sampling strategies and UED methods.

arxiv情報

著者 Samuel Garcin,James Doran,Shangmin Guo,Christopher G. Lucas,Stefano V. Albrecht
発行日 2023-10-05 12:08:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク