要約
特定の自然言語のセマンティクスに従って 3D シーン内のオブジェクトをローカライズすることは、マルチメディア理解の分野における基本的かつ重要なタスクであり、ロボット工学や自動運転などのさまざまな現実世界のアプリケーションに利益をもたらします。
しかし、既存の 3D オブジェクトのグラウンディング手法の大部分は、個々のオブジェクトを説明する単一文の入力に制限されており、より実際的な 3D の場合における複数のオブジェクトのより文脈に沿った説明を理解して推論することができません。
この目的を達成するために、単一の文ではなくより複雑な段落で説明される複数のオブジェクトを共同で位置特定する、3D Dense Object Grounding (3D DOG) と呼ばれる新しい挑戦的なタスクを導入します。
センテンスガイド付きオブジェクトをそれぞれ個別に単純に位置特定するのではなく、同じ段落で説明されている密集したオブジェクトが意味的に関連しており、3D シーンの焦点の合った領域に空間的に配置されていることが多いことがわかりました。
より正確な位置特定のために、高密度で参照されるオブジェクトのこのような意味的および空間的関係を調査するために、3DOGSFormer という名前の 3D DOG 用の新しい Stacked Transformer ベースのフレームワークを提案します。
具体的には、まずコンテキストクエリ駆動のローカルトランスデコーダを考案し、各ターゲットオブジェクトの初期接地提案を生成します。
次に、ローカル オブジェクトの特徴を利用してそれらの相関関係を学習し、初期接地提案をさらに洗練する提案ガイド型グローバル変圧器デコーダーを採用します。
3 つの困難なベンチマーク (Nr3D、Sr3D、および ScanRefer) での広範な実験により、私たちが提案した 3DOGSFormer が、最先端の 3D 単一オブジェクト グラウンディング手法およびその密集オブジェクト バリアントよりも大幅に優れていることがわかりました。
要約(オリジナル)
Localizing objects in 3D scenes according to the semantics of a given natural language is a fundamental yet important task in the field of multimedia understanding, which benefits various real-world applications such as robotics and autonomous driving. However, the majority of existing 3D object grounding methods are restricted to a single-sentence input describing an individual object, which cannot comprehend and reason more contextualized descriptions of multiple objects in more practical 3D cases. To this end, we introduce a new challenging task, called 3D Dense Object Grounding (3D DOG), to jointly localize multiple objects described in a more complicated paragraph rather than a single sentence. Instead of naively localizing each sentence-guided object independently, we found that dense objects described in the same paragraph are often semantically related and spatially located in a focused region of the 3D scene. To explore such semantic and spatial relationships of densely referred objects for more accurate localization, we propose a novel Stacked Transformer based framework for 3D DOG, named 3DOGSFormer. Specifically, we first devise a contextual query-driven local transformer decoder to generate initial grounding proposals for each target object. Then, we employ a proposal-guided global transformer decoder that exploits the local object features to learn their correlation for further refining initial grounding proposals. Extensive experiments on three challenging benchmarks (Nr3D, Sr3D, and ScanRefer) show that our proposed 3DOGSFormer outperforms state-of-the-art 3D single-object grounding methods and their dense-object variants by significant margins.
arxiv情報
| 著者 | Wencan Huang,Daizong Liu,Wei Hu | 
| 発行日 | 2023-09-05 13:27:19+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
