NuGrounding: A Multi-View 3D Visual Grounding Framework in Autonomous Driving

要約

マルチビュー3D視覚接地は、自動運転車が自然言語を解釈し、複雑な環境でターゲットオブジェクトをローカライズするために重要です。
ただし、既存のデータセットとメソッドは、粗粒の言語の指示と、言語的理解と3D幾何学的推論の統合が不十分です。
この目的のために、自律運転におけるマルチビュー3D視覚接地のための最初の大規模なベンチマークであるNugroundingを紹介します。
ナグラウンドを構築して階層的なマルチレベルの命令を生成し、人間の指導パターンの包括的なカバレッジを確保するための接地(HOG)メソッドの階層を提示します。
この挑戦的なデータセットに取り組むために、マルチモーダルLLM(MLLM)の指導理解能力と専門の検出モデルの正確なローカリゼーション能力をシームレスに組み合わせた新しいパラダイムを提案します。
私たちのアプローチでは、2つのデカップされたタスクトークンと、3D幾何情報情報とセマンティック命令を集約するためのコンテキストクエリを紹介し、その後、正確なローカリゼーションのための空間セマンチックな特徴融合を改良するための融合デコーダーが続きます。
広範な実験は、この方法が、代表的な3Dシーンの理解方法から積極的なマージンで適応したベースラインを大幅に上回り、50.8%と54.7%の改善で0.59、リコールで0.64を達成することを示しています。

要約(オリジナル)

Multi-view 3D visual grounding is critical for autonomous driving vehicles to interpret natural languages and localize target objects in complex environments. However, existing datasets and methods suffer from coarse-grained language instructions, and inadequate integration of 3D geometric reasoning with linguistic comprehension. To this end, we introduce NuGrounding, the first large-scale benchmark for multi-view 3D visual grounding in autonomous driving. We present a Hierarchy of Grounding (HoG) method to construct NuGrounding to generate hierarchical multi-level instructions, ensuring comprehensive coverage of human instruction patterns. To tackle this challenging dataset, we propose a novel paradigm that seamlessly combines instruction comprehension abilities of multi-modal LLMs (MLLMs) with precise localization abilities of specialist detection models. Our approach introduces two decoupled task tokens and a context query to aggregate 3D geometric information and semantic instructions, followed by a fusion decoder to refine spatial-semantic feature fusion for precise localization. Extensive experiments demonstrate that our method significantly outperforms the baselines adapted from representative 3D scene understanding methods by a significant margin and achieves 0.59 in precision and 0.64 in recall, with improvements of 50.8% and 54.7%.

arxiv情報

著者 Fuhao Li,Huan Jin,Bin Gao,Liaoyuan Fan,Lihui Jiang,Long Zeng
発行日 2025-03-28 13:55:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク