要約
目標条件付き計画は、豊富な観察結果の学習された低次元表現から恩恵を受けます。
通常、変分オートエンコーダまたは逆ダイナミクスから学習されたコンパクトな潜在表現は、目標条件付きの意思決定を可能にしますが、状態到達可能性を無視し、パフォーマンスを妨げます。
この論文では、効果的な計画と目標条件付きのポリシー学習のために、到達可能な状態を相互に関連付ける表現を学びます。
まず、マルチステップ逆ダイナミクスを使用して潜在表現を学習し (気が散る情報を除去するため)、次にこの表現を変換して、到達可能な状態を $\ell_2$ 空間内で関連付けます。
私たちの提案は、さまざまなシミュレーション テストベッドで厳密にテストされています。
報酬ベースの設定における数値結果は、サンプリング効率の大幅な向上を示しています。
さらに、報酬のない設定では、このアプローチにより階層化された状態の抽象化が実現され、追加サンプルなしでアドホックな目標を達成するための計算効率の高い階層計画が可能になります。
要約(オリジナル)
Goal-conditioned planning benefits from learned low-dimensional representations of rich observations. While compact latent representations typically learned from variational autoencoders or inverse dynamics enable goal-conditioned decision making, they ignore state reachability, hampering their performance. In this paper, we learn a representation that associates reachable states together for effective planning and goal-conditioned policy learning. We first learn a latent representation with multi-step inverse dynamics (to remove distracting information), and then transform this representation to associate reachable states together in $\ell_2$ space. Our proposals are rigorously tested in various simulation testbeds. Numerical results in reward-based settings show significant improvements in sampling efficiency. Further, in reward-free settings this approach yields layered state abstractions that enable computationally efficient hierarchical planning for reaching ad hoc goals with zero additional samples.
arxiv情報
著者 | Anurag Koul,Shivakanth Sujit,Shaoru Chen,Ben Evans,Lili Wu,Byron Xu,Rajan Chari,Riashat Islam,Raihan Seraj,Yonathan Efroni,Lekan Molu,Miro Dudik,John Langford,Alex Lamb |
発行日 | 2024-06-11 03:32:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google