AffordDP: Generalizable Diffusion Policy with Transferable Affordance

要約

拡散ベースのポリシーは、ドメイン外分布に苦労しながら、ロボット操作タスクで印象的なパフォーマンスを示しています。
最近の取り組みは、拡散ポリシーの視覚的特徴を改善することにより、一般化を強化しようとしました。
ただし、それらの一般化は通常、同様の外観を持つ同じカテゴリに限定されています。
私たちの重要な洞察は、アフォーダンスを活用して、エージェントがオブジェクトと「どこに」、「どのように」を定義する操作前に、まったく目に見えないオブジェクトのインスタンスとカテゴリに一般化を大幅に強化することです。
新しいカテゴリ間で一般化可能な操作用に設計されたTransferable Affordance(AfforeDP)を使用して、拡散ポリシーを導入します。
3Dコンタクトポイントと接触後の軌跡を介したアフォーデンスをモデル化し、複雑なタスクの重要な静的情報と動的情報をキャプチャします。
ドメイン内データから目に見えないオブジェクトへの転送可能なアフォーダンスは、基礎ビジョンモデルとポイントクラウド登録手法を使用して6D変換マトリックスを推定することにより達成されます。
さらに重要なことは、アクションシーケンスの生成を改良できる拡散サンプリング中に、アフォーダンスガイダンスを組み込むことです。
このガイダンスは、生成されたアクションが、アクション空間のマニホールド内で生成されたアクションを維持しながら、目に見えないオブジェクトの希望する操作に徐々に移動するよう指示します。
シミュレートされた環境と現実世界の両方の環境からの実験結果は、SOFFERDPが以前の拡散ベースの方法よりも一貫して優れていることを示しており、他の人が失敗する目に見えないインスタンスやカテゴリに成功裏に一般化します。

要約(オリジナル)

Diffusion-based policies have shown impressive performance in robotic manipulation tasks while struggling with out-of-domain distributions. Recent efforts attempted to enhance generalization by improving the visual feature encoding for diffusion policy. However, their generalization is typically limited to the same category with similar appearances. Our key insight is that leveraging affordances–manipulation priors that define ‘where’ and ‘how’ an agent interacts with an object–can substantially enhance generalization to entirely unseen object instances and categories. We introduce the Diffusion Policy with transferable Affordance (AffordDP), designed for generalizable manipulation across novel categories. AffordDP models affordances through 3D contact points and post-contact trajectories, capturing the essential static and dynamic information for complex tasks. The transferable affordance from in-domain data to unseen objects is achieved by estimating a 6D transformation matrix using foundational vision models and point cloud registration techniques. More importantly, we incorporate affordance guidance during diffusion sampling that can refine action sequence generation. This guidance directs the generated action to gradually move towards the desired manipulation for unseen objects while keeping the generated action within the manifold of action space. Experimental results from both simulated and real-world environments demonstrate that AffordDP consistently outperforms previous diffusion-based methods, successfully generalizing to unseen instances and categories where others fail.

arxiv情報

著者 Shijie Wu,Yihang Zhu,Yunao Huang,Kaizhen Zhu,Jiayuan Gu,Jingyi Yu,Ye Shi,Jingya Wang
発行日 2025-03-20 10:03:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク