GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency

要約

セマンティック キューから 3D オブジェクト上のアフォーダンス領域を特定することは、ロボット工学や人間と機械のインタラクションにとって不可欠です。
しかし、既存の 3D アフォーダンス学習手法は、注釈付きデータが限られていることと、幾何学的エンコーディングに重点を置いた 3D バックボーンに依存しているため、一般化と堅牢性に苦労しており、現実世界のノイズやデータ破損に対する回復力が欠けていることがよくあります。
私たちは、大規模な事前トレーニング済み 2D モデルを活用することで 3D アフォーダンス学習の一般化と堅牢性を強化するように設計された新しいフレームワークである GEAL を提案します。
ガウス スプラッティングを備えたデュアル ブランチ アーキテクチャを採用して、3D 点群と 2D 表現の間の一貫したマッピングを確立し、まばらな点群からリアルな 2D レンダリングを可能にします。
粒度適応型融合モジュールと 2D-3D 一貫性調整モジュールにより、クロスモーダル調整と知識伝達がさらに強化され、3D ブランチが 2D モデルの豊富なセマンティクスと一般化機能の恩恵を受けることができます。
堅牢性を総合的に評価するために、PIAD-C と LASO-C という 2 つの新しい破損ベースのベンチマークを導入します。
公開データセットと当社のベンチマークに関する広範な実験により、GEAL が既知のオブジェクト カテゴリや新しいオブジェクト カテゴリ、さらには破損したデータにわたって既存の手法よりも一貫して優れたパフォーマンスを示し、さまざまな条件下で堅牢で適応性のあるアフォーダンス予測を実証していることが示されています。
コードと破損のデータセットは一般に公開されています。

要約(オリジナル)

Identifying affordance regions on 3D objects from semantic cues is essential for robotics and human-machine interaction. However, existing 3D affordance learning methods struggle with generalization and robustness due to limited annotated data and a reliance on 3D backbones focused on geometric encoding, which often lack resilience to real-world noise and data corruption. We propose GEAL, a novel framework designed to enhance the generalization and robustness of 3D affordance learning by leveraging large-scale pre-trained 2D models. We employ a dual-branch architecture with Gaussian splatting to establish consistent mappings between 3D point clouds and 2D representations, enabling realistic 2D renderings from sparse point clouds. A granularity-adaptive fusion module and a 2D-3D consistency alignment module further strengthen cross-modal alignment and knowledge transfer, allowing the 3D branch to benefit from the rich semantics and generalization capacity of 2D models. To holistically assess the robustness, we introduce two new corruption-based benchmarks: PIAD-C and LASO-C. Extensive experiments on public datasets and our benchmarks show that GEAL consistently outperforms existing methods across seen and novel object categories, as well as corrupted data, demonstrating robust and adaptable affordance prediction under diverse conditions. Code and corruption datasets have been made publicly available.

arxiv情報

著者 Dongyue Lu,Lingdong Kong,Tianxin Huang,Gim Hee Lee
発行日 2024-12-12 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク