要約
具体化された3D接地は、自我中心の視点から人間の指示に記載されているターゲットオブジェクトをローカライズすることを目的としています。
ほとんどの方法は通常、2段階のパラダイムに従います。このパラダイムでは、訓練された3D検出器の最適化されたバックボーンパラメーターを使用して、接地モデルを初期化します。
この研究では、基本的な質問を探ります。具体化された3D接地は、検出から十分な利益をもたらしますか?
この質問に答えるために、ターゲットカテゴリによってフィルタリングされた予測ボックスを使用して、検出モデルの接地性能を評価します。
驚くべきことに、命令固有のトレーニングのないこれらの検出モデルは、言語の指示で明示的にトレーニングされた接地モデルを上回ります。
これは、カテゴリレベルの具体化された3D接地でさえ、より微調整されたコンテキスト対応の接地は言うまでもなく、十分に解決されない可能性があることを示しています。
この発見に動機付けられて、私たちはDeTrクエリを検出と接地の両方のオブジェクト表現として共有し、基本的なカテゴリ分類とボックス検出の恩恵を受けることを可能にするDETRクエリを提案します。
このフレームワークに基づいて、命令関連の領域とクエリレベルのセマンティックをクエリ表現に組み込んだクエリごとの変調モジュールを強調する地域の活性化接地モジュールをさらに導入し、言語指示のコンテキスト認識の理解を強化します。
驚くべきことに、Degroundは、EmbodiedScan検証セットの全体的な精度で、最先端のモデルBIP3Dを7.52 \%よりも優れています。
ソースコードは、https://github.com/zyn213/degroundで公開されます。
要約(オリジナル)
Embodied 3D grounding aims to localize target objects described in human instructions from ego-centric viewpoint. Most methods typically follow a two-stage paradigm where a trained 3D detector’s optimized backbone parameters are used to initialize a grounding model. In this study, we explore a fundamental question: Does embodied 3D grounding benefit enough from detection? To answer this question, we assess the grounding performance of detection models using predicted boxes filtered by the target category. Surprisingly, these detection models without any instruction-specific training outperform the grounding models explicitly trained with language instructions. This indicates that even category-level embodied 3D grounding may not be well resolved, let alone more fine-grained context-aware grounding. Motivated by this finding, we propose DEGround, which shares DETR queries as object representation for both DEtection and Grounding and enables the grounding to benefit from basic category classification and box detection. Based on this framework, we further introduce a regional activation grounding module that highlights instruction-related regions and a query-wise modulation module that incorporates sentence-level semantic into the query representation, strengthening the context-aware understanding of language instructions. Remarkably, DEGround outperforms state-of-the-art model BIP3D by 7.52\% at overall accuracy on the EmbodiedScan validation set. The source code will be publicly available at https://github.com/zyn213/DEGround.
arxiv情報
著者 | Yani Zhang,Dongming Wu,Hao Shi,Yingfei Liu,Tiancai Wang,Haoqiang Fan,Xingping Dong |
発行日 | 2025-06-05 16:11:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google