要約
大規模言語モデル (LLM) が 3D 環境と対話できるようにすることは困難です。
既存のアプローチは、グラウンド トゥルース (GT) ジオメトリまたは補助モデルによって再構成された 3D シーンから点群を抽出します。
CLIP からのテキストと画像が整列された 2D フィーチャは、点群にリフトされ、LLM の入力として機能します。
ただし、このソリューションには 3D ポイントツーポイント接続が確立されていないため、空間構造情報が不足します。
同時に、シーンの幾何学的表現と意味論的表現の間の統合と統一が欠如しているため、3D シーンの理解レベルが低下します。
この論文では、3D シーンの LLM に不可欠な、統一されたシーン表現と再構成フレームワークを持つことの重要性を示します。
具体的には、Uni3DR^2 が、凍結された事前トレーニング済み 2D 基盤モデル (CLIP や SAM など) とマルチスケール集約 3D デコーダを介して、3D 幾何学的およびセマンティックを意識した表現特徴を抽出します。
私たちが学習した 3D 表現は、再構築プロセスに貢献するだけでなく、LLM に貴重な知識を提供します。
実験結果は、Uni3DR^2 が 3D 再構成データセット ScanNet のベースラインを超えて納得のいくゲインをもたらしていることを検証しています (F スコアが +1.8\% 増加)。
LLM に適用すると、当社の Uni3DR^2-LLM は、3D 視覚言語理解データセット ScanQA でベースラインを上回る優れたパフォーマンスを示します (評価セットとテスト セットで BLEU-1 をそれぞれ +4.0\% と +4.2\% 増加させます)
)。
さらに、ScanQA と 3DMV-VQA の両方で追加の GT 点群を使用する最先端の方法よりも優れたパフォーマンスを発揮します。
要約(オリジナル)
Enabling Large Language Models (LLMs) to interact with 3D environments is challenging. Existing approaches extract point clouds either from ground truth (GT) geometry or 3D scenes reconstructed by auxiliary models. Text-image aligned 2D features from CLIP are then lifted to point clouds, which serve as inputs for LLMs. However, this solution lacks the establishment of 3D point-to-point connections, leading to a deficiency of spatial structure information. Concurrently, the absence of integration and unification between the geometric and semantic representations of the scene culminates in a diminished level of 3D scene understanding. In this paper, we demonstrate the importance of having a unified scene representation and reconstruction framework, which is essential for LLMs in 3D scenes. Specifically, we introduce Uni3DR^2 extracts 3D geometric and semantic aware representation features via the frozen pre-trained 2D foundation models (e.g., CLIP and SAM) and a multi-scale aggregate 3D decoder. Our learned 3D representations not only contribute to the reconstruction process but also provide valuable knowledge for LLMs. Experimental results validate that our Uni3DR^2 yields convincing gains over the baseline on the 3D reconstruction dataset ScanNet (increasing F-Score by +1.8\%). When applied to LLMs, our Uni3DR^2-LLM exhibits superior performance over the baseline on the 3D vision-language understanding dataset ScanQA (increasing BLEU-1 by +4.0\% and +4.2\% on the val set and test set, respectively). Furthermore, it outperforms the state-of-the-art method that uses additional GT point clouds on both ScanQA and 3DMV-VQA.
arxiv情報
著者 | Tao Chu,Pan Zhang,Xiaoyi Dong,Yuhang Zang,Qiong Liu,Jiaqi Wang |
発行日 | 2024-04-19 17:58:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google