Hierarchical Visual Policy Learning for Long-Horizon Robot Manipulation in Densely Cluttered Scenes

要約

この作業では、密集して乱雑なシーンにおける長期的な操作タスクに取り組むことに焦点を当てています。
このようなタスクでは、オブジェクト間の深刻なオクルージョンを効果的に管理し、視覚的観察に基づいてアクションを継続的に生成するポリシーが必要です。
我々は、乱雑なシーンの長期的視野操作 (HCLM) のためのビジョンベースの階層型ポリシーを提案します。
これは、高レベルのポリシーと 3 つのオプションを使用して、プッシュ、ピック、および配置という 3 つのパラメーター化されたアクション プリミティブを選択してインスタンス化します。
まず、動作クローン作成 (BC) によってピック アンド プレイスのオプションをトレーニングします。
その後、階層強化学習 (HRL) を使用して、高レベルのポリシーとプッシュ オプションをトレーニングします。
HRL 中に、プッシュ オプションの更新を強化する空間拡張 Q 更新 (SEQ) と、高レベルのポリシー更新における非定常遷移の問題を軽減する 2 段階更新スキーム (TSUS) を提案します。
HCLM は、さまざまなタスクの成功率と効率の点でベースライン手法を大幅に上回っていることを実証します。
また、より多くの追加ブロックを使用して、より乱雑な環境に一般化できるこのメソッドの機能も強調します。

要約(オリジナル)

In this work, we focus on addressing the long-horizon manipulation tasks in densely cluttered scenes. Such tasks require policies to effectively manage severe occlusions among objects and continually produce actions based on visual observations. We propose a vision-based Hierarchical policy for Cluttered-scene Long-horizon Manipulation (HCLM). It employs a high-level policy and three options to select and instantiate three parameterized action primitives: push, pick, and place. We first train the pick and place options by behavior cloning (BC). Subsequently, we use hierarchical reinforcement learning (HRL) to train the high-level policy and push option. During HRL, we propose a Spatially Extended Q-update (SEQ) to augment the updates for the push option and a Two-Stage Update Scheme (TSUS) to alleviate the non-stationary transition problem in updating the high-level policy. We demonstrate that HCLM significantly outperforms baseline methods in terms of success rate and efficiency in diverse tasks. We also highlight our method’s ability to generalize to more cluttered environments with more additional blocks.

arxiv情報

著者 Hecheng Wang,Lizhe Qi,Bin Fang,Yunquan Sun
発行日 2023-12-05 11:57:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク