要約
目標条件付き計画は、豊富な高次元観察の学習された低次元表現から恩恵を受けます。
通常、変分オートエンコーダーや逆ダイナミクスから学習されるコンパクトな潜在表現は、目標条件付き計画を可能にしますが、状態アフォーダンスを無視するため、サンプル効率の高い計画能力が妨げられます。
この論文では、効果的な今後の計画を立てるために、到達可能な状態を相互に関連付ける表現を学びます。
まず、マルチステップの逆ダイナミクスを使用して潜在表現を学習します (気が散る情報を除去するため)。
次に、この表現を変換して、$\ell_2$ 空間内で到達可能な状態を関連付けます。
私たちの提案は、さまざまなシミュレーション テストベッドで厳密にテストされています。
報酬ベースおよび報酬なしの設定における数値結果は、サンプリング効率の大幅な向上を示し、計算効率の高い階層計画を可能にする階層化された状態の抽象化をもたらします。
要約(オリジナル)
Goal-conditioned planning benefits from learned low-dimensional representations of rich, high-dimensional observations. While compact latent representations, typically learned from variational autoencoders or inverse dynamics, enable goal-conditioned planning they ignore state affordances, thus hampering their sample-efficient planning capabilities. In this paper, we learn a representation that associates reachable states together for effective onward planning. We first learn a latent representation with multi-step inverse dynamics (to remove distracting information); and then transform this representation to associate reachable states together in $\ell_2$ space. Our proposals are rigorously tested in various simulation testbeds. Numerical results in reward-based and reward-free settings show significant improvements in sampling efficiency, and yields layered state abstractions that enable computationally efficient hierarchical planning.
arxiv情報
著者 | Anurag Koul,Shivakanth Sujit,Shaoru Chen,Ben Evans,Lili Wu,Byron Xu,Rajan Chari,Riashat Islam,Raihan Seraj,Yonathan Efroni,Lekan Molu,Miro Dudik,John Langford,Alex Lamb |
発行日 | 2023-11-06 21:16:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google