要約
教師なし事前トレーニング戦略は、自然言語処理とコンピューター ビジョンにおいて非常に効果的であることが証明されています。
同様に、教師なし強化学習 (RL) には、さまざまな下流タスクの学習を加速できる、潜在的に役立つさまざまな動作を発見できる可能性があります。
これまでの教師なし RL アプローチは、主に純粋な探索と相互情報スキルの学習に焦点を当てていました。
しかし、これまでの試みにもかかわらず、教師なし RL を真にスケーラブルにすることは依然として大きな未解決の課題のままです。純粋な探索アプローチは、大きな状態空間を持つ複雑な環境では困難を伴う可能性があり、考えられるすべての遷移をカバーするのは実行不可能であり、相互情報スキル学習アプローチは完全に失敗する可能性があります。
インセンティブがないため、環境を探索することはできません。
教師なし RL を複雑な高次元環境に拡張可能にするために、私たちは Metric-Aware Abstraction (METRA) と呼ぶ新しい教師なし RL 目標を提案します。
私たちの主なアイデアは、状態空間全体を直接カバーするのではなく、時間的距離によって状態空間 $S$ に計量的に接続されているコンパクトな潜在空間 $Z$ のみをカバーすることです。
METRA は、潜在空間内であらゆる方向に移動することを学習することで、状態空間をほぼカバーし、高次元環境に拡張可能な、扱いやすい多様な動作のセットを取得します。
5 つの移動および操作環境での実験を通じて、METRA が複雑なピクセルベースの環境でもさまざまな有用な動作を発見できることを実証しました。これは、ピクセルベースの四足動物およびヒューマノイドにおける多様な移動動作を発見する最初の教師なし RL 手法です。
私たちのコードとビデオは https://seohong.me/projects/metra/ で入手できます。
要約(オリジナル)
Unsupervised pre-training strategies have proven to be highly effective in natural language processing and computer vision. Likewise, unsupervised reinforcement learning (RL) holds the promise of discovering a variety of potentially useful behaviors that can accelerate the learning of a wide array of downstream tasks. Previous unsupervised RL approaches have mainly focused on pure exploration and mutual information skill learning. However, despite the previous attempts, making unsupervised RL truly scalable still remains a major open challenge: pure exploration approaches might struggle in complex environments with large state spaces, where covering every possible transition is infeasible, and mutual information skill learning approaches might completely fail to explore the environment due to the lack of incentives. To make unsupervised RL scalable to complex, high-dimensional environments, we propose a novel unsupervised RL objective, which we call Metric-Aware Abstraction (METRA). Our main idea is, instead of directly covering the entire state space, to only cover a compact latent space $Z$ that is metrically connected to the state space $S$ by temporal distances. By learning to move in every direction in the latent space, METRA obtains a tractable set of diverse behaviors that approximately cover the state space, being scalable to high-dimensional environments. Through our experiments in five locomotion and manipulation environments, we demonstrate that METRA can discover a variety of useful behaviors even in complex, pixel-based environments, being the first unsupervised RL method that discovers diverse locomotion behaviors in pixel-based Quadruped and Humanoid. Our code and videos are available at https://seohong.me/projects/metra/
arxiv情報
著者 | Seohong Park,Oleh Rybkin,Sergey Levine |
発行日 | 2024-03-10 04:30:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google