要約
現在のロボットピックアンドプレイスポリシーでは、通常、トレーニングと推論全体で一貫したグリッパー構成が必要です。
この制約は、特に新しいエンドエフェクターに適応する際に、特に模倣学習ベースのアプローチに高い再訓練または微調整コストを課します。
この問題を軽減するために、ハイブリッド学習最適化フレームワークを備えた拡散ベースのポリシーを提示し、再訓練ポリシーのための追加のデータ収集なしに、新しいグリッパーへのゼロショット適応を可能にします。
トレーニング中、ポリシーはベースグリッパーを使用して収集されたデモから操作プリミティブを学びます。
推論では、拡散ベースの最適化戦略が運動学的および安全性の制約を動的に強制し、生成された軌道が目に見えないグリッパーの物理的特性と一致するようにします。
これは、衝突回避とタスクの実現可能性を維持しながら、グリッパー固有のパラメーター(たとえば、ツール中心点オフセット、顎の幅)に軌道を適応させる制約された除去手順を通じて達成されます。
3Dプリントされた指先、柔軟なシリコングリッパー、Robotiq 2F-85グリッパーなど、6つのグリッパー構成にわたってフランカパンダロボットのメソッドを検証します。
私たちのアプローチは、グリッパー全体で93.3%の平均タスク成功率(拡散ポリシーベースラインで23.3-26.7%)を達成し、16〜23.5 cmのツールセンターポイントバリエーションと7.5〜11.5 cmの顎幅をサポートします。
結果は、制約された拡散が、模倣学習のサンプル効率を維持しながら、堅牢なクロスグリッパー操作を可能にし、グリッパー固有の再訓練の必要性を排除できることを示しています。
ビデオとコードはhttps://github.com/yaoxt3/gadpで入手できます。
要約(オリジナル)
Current robotic pick-and-place policies typically require consistent gripper configurations across training and inference. This constraint imposes high retraining or fine-tuning costs, especially for imitation learning-based approaches, when adapting to new end-effectors. To mitigate this issue, we present a diffusion-based policy with a hybrid learning-optimization framework, enabling zero-shot adaptation to novel grippers without additional data collection for retraining policy. During training, the policy learns manipulation primitives from demonstrations collected using a base gripper. At inference, a diffusion-based optimization strategy dynamically enforces kinematic and safety constraints, ensuring that generated trajectories align with the physical properties of unseen grippers. This is achieved through a constrained denoising procedure that adapts trajectories to gripper-specific parameters (e.g., tool-center-point offsets, jaw widths) while preserving collision avoidance and task feasibility. We validate our method on a Franka Panda robot across six gripper configurations, including 3D-printed fingertips, flexible silicone gripper, and Robotiq 2F-85 gripper. Our approach achieves a 93.3% average task success rate across grippers (vs. 23.3-26.7% for diffusion policy baselines), supporting tool-center-point variations of 16-23.5 cm and jaw widths of 7.5-11.5 cm. The results demonstrate that constrained diffusion enables robust cross-gripper manipulation while maintaining the sample efficiency of imitation learning, eliminating the need for gripper-specific retraining. Video and code are available at https://github.com/yaoxt3/GADP.
arxiv情報
著者 | Xiangtong Yao,Yirui Zhou,Yuan Meng,Liangyu Dong,Lin Hong,Zitao Zhang,Zhenshan Bing,Kai Huang,Fuchun Sun,Alois Knoll |
発行日 | 2025-02-21 17:35:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google