Implicit Subgoal Planning with Variational Autoencoders for Long-Horizon Sparse Reward Robotic Tasks

要約

従来の強化学習アプローチにおける典型的な非効率な探索と希薄な報酬により、ロボット工学における長期的なタスクに固有の課題が続いています。
これらの課題を軽減するために、分割統治方式を通じて長期的なタスクを達成するための新しいアルゴリズムである変分オートエンコーダーベースのサブゴール推論 (VAESI) を導入します。
VAESI は、変分オートエンコーダー (VAE) ベースのサブゴール ジェネレーター、後知恵サンプラー、および値セレクターの 3 つのコンポーネントで構成されます。
VAE ベースのサブ目標ジェネレーターは、サブ目標を推測し、これらのサブ目標のコンテキストで最終目標について推論する人間の能力からインスピレーションを得ています。
これは、サブゴールを生成するように設計された明示的なエンコーダー モデルと、最終ゴールを予測することで生成されたサブゴールの品質を向上させるように設計された暗黙的なデコーダー モデルで構成されます。
さらに、Hindsight サンプラーはオフライン データセットから有効なサブ目標を選択し、生成されたサブ目標の実現可能性を高めます。
値セレクターは、強化学習の値関数を利用して、サブ目標候補から最適なサブ目標をフィルターします。
私たちの方法を検証するために、シミュレーションと現実世界の両方で、1 つの移動タスクと 3 つの操作タスクを含む、いくつかの長期タスクを実行します。
得られた定量的および定性的データは、私たちのアプローチが他のベースライン手法と比較して有望なパフォーマンスを達成していることを示しています。
これらの実験結果は、ウェブサイト \url{https://sites.google.com/view/vaesi/home} でご覧いただけます。

要約(オリジナル)

The challenges inherent to long-horizon tasks in robotics persist due to the typical inefficient exploration and sparse rewards in traditional reinforcement learning approaches. To alleviate these challenges, we introduce a novel algorithm, Variational Autoencoder-based Subgoal Inference (VAESI), to accomplish long-horizon tasks through a divide-and-conquer manner. VAESI consists of three components: a Variational Autoencoder (VAE)-based Subgoal Generator, a Hindsight Sampler, and a Value Selector. The VAE-based Subgoal Generator draws inspiration from the human capacity to infer subgoals and reason about the final goal in the context of these subgoals. It is composed of an explicit encoder model, engineered to generate subgoals, and an implicit decoder model, designed to enhance the quality of the generated subgoals by predicting the final goal. Additionally, the Hindsight Sampler selects valid subgoals from an offline dataset to enhance the feasibility of the generated subgoals. The Value Selector utilizes the value function in reinforcement learning to filter the optimal subgoals from subgoal candidates. To validate our method, we conduct several long-horizon tasks in both simulation and the real world, including one locomotion task and three manipulation tasks. The obtained quantitative and qualitative data indicate that our approach achieves promising performance compared to other baseline methods. These experimental results can be seen in the website \url{https://sites.google.com/view/vaesi/home}.

arxiv情報

著者 Fangyuan Wang,Anqing Duan,Peng Zhou,Shengzeng Huo,Guodong Guo,Chenguang Yang,David Navarro-Alarcon
発行日 2023-12-25 01:21:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク