ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with GPT and Prototype Guidance

要約

マルチビュー入力から 3D シーンを理解することで、3D ビジュアル グラウンディングにおけるビューの不一致の問題が軽減されることが証明されています。
ただし、既存の方法は通常、テキスト モダリティに埋め込まれたビュー キューを無視し、さまざまなビューの相対的な重要性を比較検討できません。
この論文では、ViewRefer を提案します。これは、テキストと 3D モダリティの両方からビューの知識を把握する方法を探る 3D ビジュアル グラウンディングのためのマルチビュー フレームワークです。
テキスト ブランチの場合、ViewRefer は大規模な言語モデル (GPT など) の多様な言語知識を活用して、単一のグラウンディング テキストを複数の幾何学的に一貫した記述に拡張します。
一方、3Dモダリティでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間注意を備えたトランスフォーマー融合モジュールが導入されています。
その上で、さまざまなビューのシーンに依存しない知識を記憶し、2 つの観点からフレームワークを強化する学習可能なマルチビュー プロトタイプのセットをさらに提示します。
-最終予測中のガイド付きスコアリング戦略。
設計されたパラダイムにより、ViewRefer は 3 つのベンチマークで優れたパフォーマンスを達成し、Sr3D、Nr3D、および ScanRefer で +2.8%、+1.2%、および +0.73% で 2 番目に優れたパフォーマンスを上回ります。
コードは https://github.com/ZiyuGuo99/ViewRefer3D で公開されます。

要約(オリジナル)

Understanding 3D scenes from multi-view inputs has been proven to alleviate the view discrepancy issue in 3D visual grounding. However, existing methods normally neglect the view cues embedded in the text modality and fail to weigh the relative importance of different views. In this paper, we propose ViewRefer, a multi-view framework for 3D visual grounding exploring how to grasp the view knowledge from both text and 3D modalities. For the text branch, ViewRefer leverages the diverse linguistic knowledge of large-scale language models, e.g., GPT, to expand a single grounding text to multiple geometry-consistent descriptions. Meanwhile, in the 3D modality, a transformer fusion module with inter-view attention is introduced to boost the interaction of objects across views. On top of that, we further present a set of learnable multi-view prototypes, which memorize scene-agnostic knowledge for different views, and enhance the framework from two perspectives: a view-guided attention module for more robust text features, and a view-guided scoring strategy during the final prediction. With our designed paradigm, ViewRefer achieves superior performance on three benchmarks and surpasses the second-best by +2.8%, +1.2%, and +0.73% on Sr3D, Nr3D, and ScanRefer. Code will be released at https://github.com/ZiyuGuo99/ViewRefer3D.

arxiv情報

著者 Ziyu Guo,Yiwen Tang,Renrui Zhang,Dong Wang,Zhigang Wang,Bin Zhao,Xuelong Li
発行日 2023-03-29 17:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク