Multi-Object 3D Grounding with Dynamic Modules and Language-Informed Spatial Attention

要約

マルチオブジェクト 3D グラウンディングには、点群からの特定のクエリ フレーズに基づいて 3D ボックスの位置を特定することが含まれます。
これは、視覚的理解、人間とコンピューターの対話、ロボット工学などの分野で多数の応用が必要な、挑戦的かつ重要なタスクです。
この課題に取り組むために、私たちは 3 つの革新を組み込んだ 2 段階のアプローチである D-LISA を導入します。
1 つ目は、可変かつ学習可能な数のボックス提案を可能にするダイナミック ビジョン モジュールです。
2 つ目は、各提案の特徴を抽出する動的なカメラの位置決めです。
3 つ目は、最終予測を出力するための提案をより適切に検討する、言語情報に基づいた空間注意モジュールです。
経験的に、私たちの方法は複数の物体の 3D グラウンディングにおいて最先端の方法よりも 12.8% (絶対) 優れており、単一の物体の 3D グラウンディングにおいても競争力があることが実験により示されています。

要約(オリジナル)

Multi-object 3D Grounding involves locating 3D boxes based on a given query phrase from a point cloud. It is a challenging and significant task with numerous applications in visual understanding, human-computer interaction, and robotics. To tackle this challenge, we introduce D-LISA, a two-stage approach incorporating three innovations. First, a dynamic vision module that enables a variable and learnable number of box proposals. Second, a dynamic camera positioning that extracts features for each proposal. Third, a language-informed spatial attention module that better reasons over the proposals to output the final prediction. Empirically, experiments show that our method outperforms the state-of-the-art methods on multi-object 3D grounding by 12.8% (absolute) and is competitive in single-object 3D grounding.

arxiv情報

著者 Haomeng Zhang,Chiao-An Yang,Raymond A. Yeh
発行日 2024-10-29 17:52:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク