Learning 2D Invariant Affordance Knowledge for 3D Affordance Grounding

要約

3D オブジェクト アフォーダンス グランディングは、3D オブジェクト上の機能領域を予測することを目的としており、ロボット工学における幅広いアプリケーションの基礎を築きました。
最近の進歩では、3D 領域と単一の人間とオブジェクトのインタラクション画像の間のマッピングを学習することで、この問題に取り組んでいます。
ただし、3D オブジェクトの幾何学的構造と人間とオブジェクトのインタラクション画像内のオブジェクトは常に一致するとは限らず、一般化が不十分になります。
この問題に対処するために、同じアフォーダンス カテゴリ内の複数の人間とオブジェクトのインタラクション画像から一般化可能な不変アフォーダンス知識を学習することを提案します。
具体的には、\textbf{M}ulti-\textbf{I}mage Guided Invariant-\textbf{F}eature-Aware 3D \textbf{A}ffordance \textbf{G}rounding (\textbf{MIFAG}) フレームワークを導入します。

複数の人間とオブジェクトのインタラクション画像にわたる共通のインタラクション パターンを識別することで、3D オブジェクトのアフォーダンス領域を基盤とします。
まず、不変アフォーダンス知識抽出モジュール (\textbf{IAM}) は、反復更新戦略を利用して、複数の画像から位置合わせされたアフォーダンス知識を徐々に抽出し、それをアフォーダンス辞書に統合します。
次に、アフォーダンス ディクショナリ アダプティブ フュージョン モジュール (\textbf{ADM}) は、複数の画像内のすべてのアフォーダンス候補を考慮した包括的な点群表現を学習します。
さらに、マルチイメージおよびポイント アフォーダンス (\textbf{MIPA}) ベンチマークが構築されており、さまざまな実験比較において、私たちの手法は既存の最先端の手法を上回っています。
プロジェクトページ: \url{https://goxq.github.io/mifag}

要約(オリジナル)

3D Object Affordance Grounding aims to predict the functional regions on a 3D object and has laid the foundation for a wide range of applications in robotics. Recent advances tackle this problem via learning a mapping between 3D regions and a single human-object interaction image. However, the geometric structure of the 3D object and the object in the human-object interaction image are not always consistent, leading to poor generalization. To address this issue, we propose to learn generalizable invariant affordance knowledge from multiple human-object interaction images within the same affordance category. Specifically, we introduce the \textbf{M}ulti-\textbf{I}mage Guided Invariant-\textbf{F}eature-Aware 3D \textbf{A}ffordance \textbf{G}rounding (\textbf{MIFAG}) framework. It grounds 3D object affordance regions by identifying common interaction patterns across multiple human-object interaction images. First, the Invariant Affordance Knowledge Extraction Module (\textbf{IAM}) utilizes an iterative updating strategy to gradually extract aligned affordance knowledge from multiple images and integrate it into an affordance dictionary. Then, the Affordance Dictionary Adaptive Fusion Module (\textbf{ADM}) learns comprehensive point cloud representations that consider all affordance candidates in multiple images. Besides, the Multi-Image and Point Affordance (\textbf{MIPA}) benchmark is constructed and our method outperforms existing state-of-the-art methods on various experimental comparisons. Project page: \url{https://goxq.github.io/mifag}

arxiv情報

著者 Xianqiang Gao,Pingrui Zhang,Delin Qu,Dong Wang,Zhigang Wang,Yan Ding,Bin Zhao,Xuelong Li
発行日 2024-08-23 12:27:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク