要約
拡散ベースのポリシーは、ドメイン外の配布に苦労しながらも、ロボット操作タスクで優れたパフォーマンスを示しました。
最近の取り組みでは、拡散政策のための視覚的特徴のエンコーディングを改善することで一般化を強化しようとしました。
ただし、それらの一般化は、通常、類似した外観を持つ同じカテゴリに限定されます。
私たちの重要な洞察は、アフォーダンス (エージェントがオブジェクトと「どこで」「どのように」対話するかを定義する事前操作) を活用することで、まったく目に見えないオブジェクトのインスタンスやカテゴリへの一般化を大幅に強化できるということです。
新しいカテゴリ間で一般化可能な操作を目的として設計された、移転可能なアフォーダンスを備えた拡散ポリシー (AffordDP) を導入します。
AffordDP は、3D 接触点と接触後の軌跡を通じてアフォーダンスをモデル化し、複雑なタスクに不可欠な静的および動的情報をキャプチャします。
ドメイン内データから目に見えないオブジェクトへの転送可能なアフォーダンスは、基本的なビジョン モデルと点群登録技術を使用して 6D 変換行列を推定することによって実現されます。
さらに重要なのは、アクション シーケンスの生成を洗練できる拡散サンプリング中にアフォーダンス ガイダンスを組み込むことです。
このガイダンスは、生成されたアクションをアクション空間の多様体内に保ちながら、生成されたアクションが、目に見えないオブジェクトに対する望ましい操作に向けて徐々に移動するように指示します。
シミュレートされた環境と現実世界の両方の環境からの実験結果は、AffordDP が以前の拡散ベースの手法を常に上回っており、他の手法では失敗する目に見えないインスタンスやカテゴリにうまく一般化できることを示しています。
要約(オリジナル)
Diffusion-based policies have shown impressive performance in robotic manipulation tasks while struggling with out-of-domain distributions. Recent efforts attempted to enhance generalization by improving the visual feature encoding for diffusion policy. However, their generalization is typically limited to the same category with similar appearances. Our key insight is that leveraging affordances–manipulation priors that define ‘where’ and ‘how’ an agent interacts with an object–can substantially enhance generalization to entirely unseen object instances and categories. We introduce the Diffusion Policy with transferable Affordance (AffordDP), designed for generalizable manipulation across novel categories. AffordDP models affordances through 3D contact points and post-contact trajectories, capturing the essential static and dynamic information for complex tasks. The transferable affordance from in-domain data to unseen objects is achieved by estimating a 6D transformation matrix using foundational vision models and point cloud registration techniques. More importantly, we incorporate affordance guidance during diffusion sampling that can refine action sequence generation. This guidance directs the generated action to gradually move towards the desired manipulation for unseen objects while keeping the generated action within the manifold of action space. Experimental results from both simulated and real-world environments demonstrate that AffordDP consistently outperforms previous diffusion-based methods, successfully generalizing to unseen instances and categories where others fail.
arxiv情報
著者 | Shijie Wu,Yihang Zhu,Yunao Huang,Kaizhen Zhu,Jiayuan Gu,Jingyi Yu,Ye Shi,Jingya Wang |
発行日 | 2024-12-04 09:08:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google