ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with GPT and Prototype Guidance

要約

タイトル:ViewRefer:GPTとプロトタイプガイダンスを使った3Dビジュアルグラウンディングのマルチビューノウハウの把握

要約:
– 3Dシーンを理解するためのマルチビュー入力は、3Dビジュアルグラウンディングにおけるビューの不一致の問題を軽減することが証明されてきた。
– しかし、既存の手法は通常、テキストモダリティに埋め込まれたビューキューを無視し、異なるビューの相対的な重要性を評価することに失敗してしまいます。
– 本論文では、ビューの知識をテキストと3Dモダリティから把握する方法を探究する3DビジュアルグラウンディングのマルチビューフレームワークであるViewReferを提案します。
– ViewReferは、テキストブランチでは、大規模言語モデル(GPTなど)の多様な言語知識を活用して、単一のグラウンディングテキストを複数のジオメトリに一貫した説明に展開します。
– 同時に、3Dモダリティでは、ビュー間のオブジェクトの相互作用を促進するために、トランスフォーマー融合モジュールとビュー間注意を導入します。
– さらに、学習可能なマルチビュープロトタイプを提供し、異なるビューに対するシーン依存性のない知識を記憶し、より堅牢なテキスト特徴のためのビューガイド付き注意モジュール、および最終的な予測中のビューガイドスコアリング戦略を強化します。
– ViewReferは、3つのベンチマークで優れた性能を発揮し、Sr3D、Nr3D、およびScanReferでは、2番目に優れた成績を上回り、それぞれ+2.8%、+ 1.2%、および+ 0.73%です。 プログラムはhttps://github.com/ZiyuGuo99/ViewRefer3Dでリリースされます。

要約(オリジナル)

Understanding 3D scenes from multi-view inputs has been proven to alleviate the view discrepancy issue in 3D visual grounding. However, existing methods normally neglect the view cues embedded in the text modality and fail to weigh the relative importance of different views. In this paper, we propose ViewRefer, a multi-view framework for 3D visual grounding exploring how to grasp the view knowledge from both text and 3D modalities. For the text branch, ViewRefer leverages the diverse linguistic knowledge of large-scale language models, e.g., GPT, to expand a single grounding text to multiple geometry-consistent descriptions. Meanwhile, in the 3D modality, a transformer fusion module with inter-view attention is introduced to boost the interaction of objects across views. On top of that, we further present a set of learnable multi-view prototypes, which memorize scene-agnostic knowledge for different views, and enhance the framework from two perspectives: a view-guided attention module for more robust text features, and a view-guided scoring strategy during the final prediction. With our designed paradigm, ViewRefer achieves superior performance on three benchmarks and surpasses the second-best by +2.8%, +1.2%, and +0.73% on Sr3D, Nr3D, and ScanRefer. Code will be released at https://github.com/ZiyuGuo99/ViewRefer3D.

arxiv情報

著者 Ziyu Guo,Yiwen Tang,Renrui Zhang,Dong Wang,Zhigang Wang,Bin Zhao,Xuelong Li
発行日 2023-04-06 17:09:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク