Skill-aware Mutual Information Optimisation for Generalisation in Reinforcement Learning

要約

メタ強化学習 (Meta-RL) エージェントは、異なる最適なスキル (つまり、異なる行動モード) を必要とするさまざまな環境特徴を持つタスク間で動作するのに苦労する可能性があります。
Meta-RL エージェントの汎用性を高めるために、対照学習に基づくコンテキスト エンコーダーを使用することは現在広く研究されていますが、$\log$-$K$ の呪いとも呼ばれる、大きなサンプル サイズの要件などの課題に直面しています。
さまざまなタスクに対する RL の一般化を改善するために、まず、スキルに応じてコンテキストの埋め込みを区別するのに役立つ最適化目標である Skill-aware Mutual Information (SaMI) を導入します。これにより、RL エージェントがタスク全体で異なるスキルを識別して実行できるようになります。
次に、SaMI 目標を最適化するために使用される $K$ サンプル推定量である、Skill-aware Noise Contrastive Estimation (SaNCE) を提案します。
実際に RL エージェントに SaNCE を装備するためのフレームワークを提供し、修正された MuJoCo および Panda-gym ベンチマークで実験的検証を実施します。
私たちは、SaMI を最大化することによって学習する RL エージェントが、目に見えないタスクに対するゼロショット汎化を大幅に改善することを経験的に発見しました。
さらに、SaNCE を搭載したコンテキスト エンコーダーは、利用可能なサンプル数の減少に対してより優れた堅牢性を示し、$\log$-$K$ の呪いを克服する可能性を備えています。

要約(オリジナル)

Meta-Reinforcement Learning (Meta-RL) agents can struggle to operate across tasks with varying environmental features that require different optimal skills (i.e., different modes of behaviours). Using context encoders based on contrastive learning to enhance the generalisability of Meta-RL agents is now widely studied but faces challenges such as the requirement for a large sample size, also referred to as the $\log$-$K$ curse. To improve RL generalisation to different tasks, we first introduce Skill-aware Mutual Information (SaMI), an optimisation objective that aids in distinguishing context embeddings according to skills, thereby equipping RL agents with the ability to identify and execute different skills across tasks. We then propose Skill-aware Noise Contrastive Estimation (SaNCE), a $K$-sample estimator used to optimise the SaMI objective. We provide a framework for equipping an RL agent with SaNCE in practice and conduct experimental validation on modified MuJoCo and Panda-gym benchmarks. We empirically find that RL agents that learn by maximising SaMI achieve substantially improved zero-shot generalisation to unseen tasks. Additionally, the context encoder equipped with SaNCE demonstrates greater robustness to reductions in the number of available samples, thus possessing the potential to overcome the $\log$-$K$ curse.

arxiv情報

著者 Xuehui Yu,Mhairi Dunion,Xin Li,Stefano V. Albrecht
発行日 2024-06-07 10:35:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク