要約
オフライン目標条件強化学習(GCRL)は、疎な報酬関数を用いて、オフラインデータセットから純粋に環境中の複数の目標を達成することを学習することを課題としている。オフラインGCRLは、報酬関数を手作業で設計することなく、既存のデータセットを活用して多様で再利用可能なスキルを学習できる汎化エージェントを開発する上で極めて重要です。しかし、教師あり学習や対比学習に基づくGCRLの現代的なアプローチは、オフライン設定では最適でないことが多い。GCRLの代替的な視点は、占有率のマッチングを最適化するが、識別器を学習する必要があり、これはその後、下流のRLのための擬似報酬として機能する。学習された識別器の不正確さは連鎖し、結果として得られる政策に悪影響を及ぼす可能性がある。我々は、混合分布マッチングという新しいレンズの下でのGCRLへの新しいアプローチを提示し、識別器フリーの手法へと導く:SMOReである。重要な洞察は、GCRLの占有率マッチングの観点と凸双対定式化を組み合わせることで、最適でないオフラインデータをより良く活用できる学習目的を導き出すことである。SMOReは、特定の目標に到達するための、ある状態での行動の重要性を表すスコアまたは非正規化密度を学習する。SMOReは原理的であり、高次元観測を含むロボット操作と運動タスクで構成される完全オフラインGCRLベンチマークを用いた我々の広範な実験により、SMOReが最先端のベースラインを大幅に上回ることが示された。
要約(オリジナル)
Offline Goal-Conditioned Reinforcement Learning (GCRL) is tasked with learning to achieve multiple goals in an environment purely from offline datasets using sparse reward functions. Offline GCRL is pivotal for developing generalist agents capable of leveraging pre-existing datasets to learn diverse and reusable skills without hand-engineering reward functions. However, contemporary approaches to GCRL based on supervised learning and contrastive learning are often suboptimal in the offline setting. An alternative perspective on GCRL optimizes for occupancy matching, but necessitates learning a discriminator, which subsequently serves as a pseudo-reward for downstream RL. Inaccuracies in the learned discriminator can cascade, negatively influencing the resulting policy. We present a novel approach to GCRL under a new lens of mixture-distribution matching, leading to our discriminator-free method: SMORe. The key insight is combining the occupancy matching perspective of GCRL with a convex dual formulation to derive a learning objective that can better leverage suboptimal offline data. SMORe learns scores or unnormalized densities representing the importance of taking an action at a state for reaching a particular goal. SMORe is principled and our extensive experiments on the fully offline GCRL benchmark composed of robot manipulation and locomotion tasks, including high-dimensional observations, show that SMORe can outperform state-of-the-art baselines by a significant margin.
arxiv情報
著者 | Harshit Sikchi,Rohan Chitnis,Ahmed Touati,Alborz Geramifard,Amy Zhang,Scott Niekum |
発行日 | 2023-11-03 16:19:33+00:00 |
arxivサイト | arxiv_id(pdf) |