DexDiffuser: Interaction-aware Diffusion Planning for Adaptive Dexterous Manipulation

要約

高度なロボット工学には、接触を多く含むインタラクションによる器用な操作が不可欠です。
最近の拡散ベースの計画アプローチは、より単純な操作タスクには有望ですが、多くの場合、非現実的なゴースト状態 (例: オブジェクトが手を触れずに自動的に移動する) を生成したり、複雑な連続インタラクションを処理する際の適応性に欠けたりします。
この研究では、適応型の器用な操作のためのインタラクションを意識した拡散計画フレームワークである DexDiffuser を紹介します。
DexDiffuser は、インタラクション前の接触位置合わせと接触後の目標指向制御で構成される二相拡散プロセスを通じて関節の状態と動作のダイナミクスをモデル化し、目標に適応した一般化可能な器用な操作を可能にします。
さらに、ダイナミクスモデルベースのデュアルガイダンスを組み込み、自動ガイダンス関数生成に大規模な言語モデルを活用して、物理的相互作用の汎用性を強化し、言語の手がかりを通じて多様な目標適応を促進します。
ドアを開ける、ペンとブロックの向きを変える、ハンマーで叩くなどの物理的インタラクションタスクの実験では、トレーニング分布外の目標に対する DexDiffuser の有効性が実証され、既存の方法と比較して平均成功率の 2 倍以上 (59.2% 対 29.5%) を達成しました。
当社のフレームワークは、30 度のドア開口で 70.0% の成功率、ペンとブロックのハーフサイドの再方向付けでそれぞれ 40.0% と 36.7%、ハンマー ネイルのハーフ ドライブで 46.7% の成功率を達成しており、接触の多い操作における堅牢性と柔軟性を強調しています。

要約(オリジナル)

Dexterous manipulation with contact-rich interactions is crucial for advanced robotics. While recent diffusion-based planning approaches show promise for simpler manipulation tasks, they often produce unrealistic ghost states (e.g., the object automatically moves without hand contact) or lack adaptability when handling complex sequential interactions. In this work, we introduce DexDiffuser, an interaction-aware diffusion planning framework for adaptive dexterous manipulation. DexDiffuser models joint state-action dynamics through a dual-phase diffusion process which consists of pre-interaction contact alignment and post-contact goal-directed control, enabling goal-adaptive generalizable dexterous manipulation. Additionally, we incorporate dynamics model-based dual guidance and leverage large language models for automated guidance function generation, enhancing generalizability for physical interactions and facilitating diverse goal adaptation through language cues. Experiments on physical interaction tasks such as door opening, pen and block re-orientation, and hammer striking demonstrate DexDiffuser’s effectiveness on goals outside training distributions, achieving over twice the average success rate (59.2% vs. 29.5%) compared to existing methods. Our framework achieves 70.0% success on 30-degree door opening, 40.0% and 36.7% on pen and block half-side re-orientation respectively, and 46.7% on hammer nail half drive, highlighting its robustness and flexibility in contact-rich manipulation.

arxiv情報

著者 Zhixuan Liang,Yao Mu,Yixiao Wang,Tianxing Chen,Wenqi Shao,Wei Zhan,Masayoshi Tomizuka,Ping Luo,Mingyu Ding
発行日 2024-12-09 17:28:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク