要約
最近、大規模言語モデル (LLM) とマルチモーダル大規模言語モデル (MLLM) は、命令追従と 2D 画像理解において有望であることが示されています。
これらのモデルは強力ですが、特にまばらな屋外 LiDAR データに関しては、より困難な 3D 物理シーンを理解できるようにはまだ開発されていません。
このペーパーでは、生の LiDAR データを入力として受け取り、LLM の優れた推論能力を利用して屋外の 3D シーンを包括的に理解する LiDAR-LLM を紹介します。
当社の LiDAR-LLM の中心的な洞察は、3D キャプション、3D グラウンディング、3D 質問応答などのタスクを含む言語モデリング問題として 3D 屋外シーンの認識を再定式化することです。特に、3D LiDAR とテキストのペアリングが不足しているためです。
データに基づいて、3 段階のトレーニング戦略を導入し、関連するデータセットを生成し、3D モダリティを LLM の言語埋め込み空間と段階的に調整します。
さらに、3D エンコーダを LLM に接続するための View-Aware Transformer (VAT) を設計します。これにより、モダリティ ギャップを効果的に橋渡しし、LLM の視覚的特徴の空間方向の理解を強化します。
私たちの実験では、LiDAR-LLM が 3D シーンに関するさまざまな指示を理解し、複雑な空間推論を実行する優れた機能を備えていることがわかりました。
LiDAR-LLM は、3D キャプション タスクで 40.9 BLEU-1 を達成し、3D グラウンディング タスクで 63.1\% の分類精度と 14.3\% BEV mIoU を達成します。
ウェブページ: https://sites.google.com/view/lidar-llm
要約(オリジナル)
Recently, Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) have shown promise in instruction following and 2D image understanding. While these models are powerful, they have not yet been developed to comprehend the more challenging 3D physical scenes, especially when it comes to the sparse outdoor LiDAR data. In this paper, we introduce LiDAR-LLM, which takes raw LiDAR data as input and harnesses the remarkable reasoning capabilities of LLMs to gain a comprehensive understanding of outdoor 3D scenes. The central insight of our LiDAR-LLM is the reformulation of 3D outdoor scene cognition as a language modeling problem, encompassing tasks such as 3D captioning, 3D grounding, 3D question answering, etc. Specifically, due to the scarcity of 3D LiDAR-text pairing data, we introduce a three-stage training strategy and generate relevant datasets, progressively aligning the 3D modality with the language embedding space of LLM. Furthermore, we design a View-Aware Transformer (VAT) to connect the 3D encoder with the LLM, which effectively bridges the modality gap and enhances the LLM’s spatial orientation comprehension of visual features. Our experiments show that LiDAR-LLM possesses favorable capabilities to comprehend various instructions regarding 3D scenes and engage in complex spatial reasoning. LiDAR-LLM attains a 40.9 BLEU-1 on the 3D captioning task and achieves a 63.1\% classification accuracy and a 14.3\% BEV mIoU on the 3D grounding task. Web page: https://sites.google.com/view/lidar-llm
arxiv情報
著者 | Senqiao Yang,Jiaming Liu,Ray Zhang,Mingjie Pan,Zoey Guo,Xiaoqi Li,Zehui Chen,Peng Gao,Yandong Guo,Shanghang Zhang |
発行日 | 2023-12-21 17:52:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google