DexDiff: Towards Extrinsic Dexterity Manipulation of Ungraspable Objects in Unrestricted Environments

要約

大きくて平らな物体 (本や鍋など) を掴むことは、掴むことができない作業であると見なされることも多く、掴む姿勢が到達できないため、重大な課題が生じます。
以前の作品では、壁やテーブルの端などの外的器用さを活用して、そのような物体を掴んでいました。
しかし、それらはタスク固有のポリシーに限定されており、事前に把握した条​​件を見つけるためのタスク計画が欠けています。
これにより、さまざまな環境や外部の器用さの制約に適応することが困難になります。
したがって、我々は、外部の器用さを備えた長期計画のための堅牢なロボット操作手法である DexDiff を紹介します。
具体的には、ビジョン言語モデル (VLM) を利用して環境状態を認識し、高レベルのタスク計画を生成し、続いて目標条件付き行動拡散 (GCAD) モデルを利用して一連の低レベルの行動を予測します。
このモデルは、目標条件として高レベルの計画に基づく累積報酬を使用して、オフライン データから低レベルのポリシーを学習するため、ロボットの動作の予測を向上させることができます。
実験結果は、私たちの方法が把握できないタスクを効果的に実行するだけでなく、これまで見えなかったオブジェクトにも一般化できることを示しています。
シミュレーションでの成功率が 47% 高く、ベースラインを上回り、現実世界のシナリオでの効率的な導入と操作が容易になります。

要約(オリジナル)

Grasping large and flat objects (e.g. a book or a pan) is often regarded as an ungraspable task, which poses significant challenges due to the unreachable grasping poses. Previous works leverage Extrinsic Dexterity like walls or table edges to grasp such objects. However, they are limited to task-specific policies and lack task planning to find pre-grasp conditions. This makes it difficult to adapt to various environments and extrinsic dexterity constraints. Therefore, we present DexDiff, a robust robotic manipulation method for long-horizon planning with extrinsic dexterity. Specifically, we utilize a vision-language model (VLM) to perceive the environmental state and generate high-level task plans, followed by a goal-conditioned action diffusion (GCAD) model to predict the sequence of low-level actions. This model learns the low-level policy from offline data with the cumulative reward guided by high-level planning as the goal condition, which allows for improved prediction of robot actions. Experimental results demonstrate that our method not only effectively performs ungraspable tasks but also generalizes to previously unseen objects. It outperforms baselines by a 47% higher success rate in simulation and facilitates efficient deployment and manipulation in real-world scenarios.

arxiv情報

著者 Chengzhong Ma,Houxue Yang,Hanbo Zhang,Zeyang Liu,Chao Zhao,Jian Tang,Xuguang Lan,Nanning Zheng
発行日 2024-09-09 10:43:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク