要約
教師なし事前トレーニングは、最近、コンピューター ビジョンと自然言語処理の基盤となっています。
強化学習 (RL) では、目標条件付き RL は、大量のラベルなし (報酬なし) データを利用するための類似した自己教師ありアプローチを提供できる可能性があります。
ただし、遠く離れた目標の正確な値関数を正確に推定するのは難しいため、多様なオフライン データから直接学習できる目標条件付き RL の効果的なアルゴリズムを構築することは困難です。
それにもかかわらず、目標達成の問題には構造があり、遠くの目標に到達するには、まず近くのサブ目標を通過する必要があります。
通常、近くの目標に対するアクションの質を評価することは、遠く離れた目標に対する評価よりも簡単であるため、この構造は非常に役立ちます。
この考えに基づいて、オフライン データからの目標条件付き RL のための階層アルゴリズムを提案します。
アクションのない 1 つの値関数を使用して、この構造を活用できる 2 つのポリシーを学習します。1 つは状態をアクションとして扱い、サブ目標 (の潜在的な表現) を予測する高レベルのポリシー、もう 1 つはアクションを予測する低レベルのポリシーです。
この副目標を達成したことに対して。
分析と教訓的な例を通じて、この階層分解によって推定値関数のノイズに対してどのように方法が堅牢になるかを示します。
次に、私たちの方法をオフラインの目標達成ベンチマークに適用し、私たちの方法が従来の方法の妨げとなる長期的なタスクを解決できること、高次元の画像観察に拡張できること、アクションフリーのデータを容易に利用できることを示します。
私たちのコードは https://seohong.me/projects/hiql/ で入手できます。
要約(オリジナル)
Unsupervised pre-training has recently become the bedrock for computer vision and natural language processing. In reinforcement learning (RL), goal-conditioned RL can potentially provide an analogous self-supervised approach for making use of large quantities of unlabeled (reward-free) data. However, building effective algorithms for goal-conditioned RL that can learn directly from diverse offline data is challenging, because it is hard to accurately estimate the exact value function for faraway goals. Nonetheless, goal-reaching problems exhibit structure, such that reaching distant goals entails first passing through closer subgoals. This structure can be very useful, as assessing the quality of actions for nearby goals is typically easier than for more distant goals. Based on this idea, we propose a hierarchical algorithm for goal-conditioned RL from offline data. Using one action-free value function, we learn two policies that allow us to exploit this structure: a high-level policy that treats states as actions and predicts (a latent representation of) a subgoal and a low-level policy that predicts the action for reaching this subgoal. Through analysis and didactic examples, we show how this hierarchical decomposition makes our method robust to noise in the estimated value function. We then apply our method to offline goal-reaching benchmarks, showing that our method can solve long-horizon tasks that stymie prior methods, can scale to high-dimensional image observations, and can readily make use of action-free data. Our code is available at https://seohong.me/projects/hiql/
arxiv情報
著者 | Seohong Park,Dibya Ghosh,Benjamin Eysenbach,Sergey Levine |
発行日 | 2023-10-28 06:07:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google