SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning


オフライン目標条件付き強化学習 (GCRL) は、スパース報酬関数を使用して純粋にオフライン データセットから環境内で複数の目標を達成するための学習を行います。
オフライン GCRL は、報酬関数を手作業でエンジニアリングすることなく、既存のデータセットを活用して多様で再利用可能なスキルを学習できるジェネラリスト エージェントを開発する上で極めて重要です。
ただし、教師あり学習と対照学習に基づく GCRL への現代のアプローチは、オフライン環境では最適ではないことがよくあります。
GCRL に関する別の観点では、占有マッチングを最適化しますが、弁別器を学習する必要があり、これはその後、下流の RL に対する疑似報酬として機能します。
私たちは、混合分布マッチングという新しいレンズの下で GCRL に対する新しいアプローチを提案し、弁別器のない手法である SMORe を導き出します。
重要な洞察は、GCRL の占有マッチングの観点と凸双対定式化を組み合わせて、次善のオフライン データをより効果的に活用できる学習目標を導き出すことです。
SMORe は、特定の目標を達成するために、ある状態で行動を起こすことの重要性を表すスコアまたは非正規化密度を学習します。
SMORe は原則に基づいており、高次元の観察を含む、ロボット操作と移動タスクで構成される完全オフラインの GCRL ベンチマークでの広範な実験により、SMORe が最先端のベースラインを大幅に上回るパフォーマンスを発揮できることが示されています。


Offline Goal-Conditioned Reinforcement Learning (GCRL) is tasked with learning to achieve multiple goals in an environment purely from offline datasets using sparse reward functions. Offline GCRL is pivotal for developing generalist agents capable of leveraging pre-existing datasets to learn diverse and reusable skills without hand-engineering reward functions. However, contemporary approaches to GCRL based on supervised learning and contrastive learning are often suboptimal in the offline setting. An alternative perspective on GCRL optimizes for occupancy matching, but necessitates learning a discriminator, which subsequently serves as a pseudo-reward for downstream RL. Inaccuracies in the learned discriminator can cascade, negatively influencing the resulting policy. We present a novel approach to GCRL under a new lens of mixture-distribution matching, leading to our discriminator-free method: SMORe. The key insight is combining the occupancy matching perspective of GCRL with a convex dual formulation to derive a learning objective that can better leverage suboptimal offline data. SMORe learns scores or unnormalized densities representing the importance of taking an action at a state for reaching a particular goal. SMORe is principled and our extensive experiments on the fully offline GCRL benchmark composed of robot manipulation and locomotion tasks, including high-dimensional observations, show that SMORe can outperform state-of-the-art baselines by a significant margin.


著者 Harshit Sikchi,Rohan Chitnis,Ahmed Touati,Alborz Geramifard,Amy Zhang,Scott Niekum
発行日 2024-02-29 03:47:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク