要約
オープンボキャブラリー 3D オブジェクト アフォーダンス グラウンディングは、任意の命令で 3D オブジェクト上の「アクションの可能性」領域を予測することを目的としています。これは、ロボットが実際のシナリオを一般的に認識し、操作上の変更に応答するために重要です。
既存の方法は、3D ジオメトリとの相互作用を表す画像または言語を組み合わせて、外部相互作用事前分布を導入することに重点を置いています。
ただし、暗黙的な不変幾何学や潜在的な相互作用の意図を活用できないため、限られた意味空間に対して依然として脆弱です。
通常、人間は多段階の推論を通じて複雑なタスクに取り組み、連想的思考と類推的思考を活用してさまざまな状況に対応します。
これを考慮して、オープンボキャブラリー 3D オブジェクト アフォーダンス グラウンディングのための GREAT (GeometRy-intEntion collAboraTive inference) を提案します。これは、オブジェクトの不変ジオメトリ属性をマイニングし、潜在的なインタラクション シナリオでアナログ的に推論を実行してアフォーダンス知識を形成する新しいフレームワークです。
3D オブジェクト アフォーダンスを確立するためのジオメトリとビジュアル コンテンツの両方に関する知識。
さらに、このタスクをサポートするために、現在最大の 3D オブジェクト アフォーダンス データセットであるポイント イメージ アフォーダンス データセット v2 (PIADv2) を導入します。
広範な実験により、GREAT の有効性と優位性が実証されています。
コードとデータセットはプロジェクトで入手できます。
要約(オリジナル)
Open-Vocabulary 3D object affordance grounding aims to anticipate “action possibilities” regions on 3D objects with arbitrary instructions, which is crucial for robots to generically perceive real scenarios and respond to operational changes. Existing methods focus on combining images or languages that depict interactions with 3D geometries to introduce external interaction priors. However, they are still vulnerable to a limited semantic space by failing to leverage implied invariant geometries and potential interaction intentions. Normally, humans address complex tasks through multi-step reasoning and respond to diverse situations by leveraging associative and analogical thinking. In light of this, we propose GREAT (GeometRy-intEntion collAboraTive inference) for Open-Vocabulary 3D Object Affordance Grounding, a novel framework that mines the object invariant geometry attributes and performs analogically reason in potential interaction scenarios to form affordance knowledge, fully combining the knowledge with both geometries and visual contents to ground 3D object affordance. Besides, we introduce the Point Image Affordance Dataset v2 (PIADv2), the largest 3D object affordance dataset at present to support the task. Extensive experiments demonstrate the effectiveness and superiority of GREAT. Code and dataset are available at project.
arxiv情報
著者 | Yawen Shao,Wei Zhai,Yuhang Yang,Hongchen Luo,Yang Cao,Zheng-Jun Zha |
発行日 | 2024-11-29 11:23:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google