GenDP: 3D Semantic Fields for Category-Level Generalizable Diffusion Policy

要約

拡散ベースのポリシーは、複雑なロボット操作タスクの実行において顕著な能力を示していますが、ジオメトリとセマンティクスの明示的な特徴付けが欠けているため、目に見えないオブジェクトやレイアウトに一般化する能力が制限されることがよくあります。
拡散ポリシーの一般化機能を強化するために、3D 意味フィールドを介して明示的な空間情報と意味情報を組み込む新しいフレームワークを導入します。
大規模な基礎視覚モデルを使用したマルチビュー RGBD 観察から 3D 記述子フィールドを生成し、これらの記述子フィールドを参照記述子と比較して、意味フィールドを取得します。
提案された方法は、ジオメトリとセマンティクスを明示的に考慮し、カテゴリレベルの一般化、幾何学的曖昧さの解決、および微妙な幾何学的詳細への注意を必要とするタスクで強力な一般化機能を可能にします。
私たちは、複数のオブジェクト カテゴリからのさまざまな形状とテクスチャを持つ多関節オブジェクトとインスタンスを含む 8 つのタスクにわたってメソッドを評価します。
私たちの方法は、目に見えないインスタンスに対する拡散ポリシーの平均成功率を 20% から 93% に高めることで、その有効性を実証しています。
さらに、パフォーマンス向上の原因を解釈するための詳細な分析と視覚化を提供し、私たちの方法がどのように新しいインスタンスに一般化できるかを説明します。

要約(オリジナル)

Diffusion-based policies have shown remarkable capability in executing complex robotic manipulation tasks but lack explicit characterization of geometry and semantics, which often limits their ability to generalize to unseen objects and layouts. To enhance the generalization capabilities of Diffusion Policy, we introduce a novel framework that incorporates explicit spatial and semantic information via 3D semantic fields. We generate 3D descriptor fields from multi-view RGBD observations with large foundational vision models, then compare these descriptor fields against reference descriptors to obtain semantic fields. The proposed method explicitly considers geometry and semantics, enabling strong generalization capabilities in tasks requiring category-level generalization, resolving geometric ambiguities, and attention to subtle geometric details. We evaluate our method across eight tasks involving articulated objects and instances with varying shapes and textures from multiple object categories. Our method demonstrates its effectiveness by increasing Diffusion Policy’s average success rate on unseen instances from 20% to 93%. Additionally, we provide a detailed analysis and visualization to interpret the sources of performance gain and explain how our method can generalize to novel instances.

arxiv情報

著者 Yixuan Wang,Guang Yin,Binghao Huang,Tarik Kelestemur,Jiuguang Wang,Yunzhu Li
発行日 2024-10-23 00:51:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク