LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness

要約

大規模マルチモーダル モデル (LMM) の最近の進歩により、2D 視覚理解タスクにおける習熟度が大幅に向上し、画像やビデオを効果的に処理して理解できるようになりました。
しかし、3D シーンを理解するための 3D 認識を備えた LMM の開発は、大規模な 3D ビジョン言語データセットと強力な 3D エンコーダの欠如によって妨げられてきました。
この論文では、LLaVA-3D と呼ばれるシンプルかつ効果的なフレームワークを紹介します。
LLaVA の強力な 2D 理解事前分布を活用することで、当社の LLaVA-3D は、2D 理解機能を損なうことなく、LLaVA を 3D シーンの理解に効率的に適応させます。
これを実現するために、2D CLIP パッチ フィーチャを 3D 空間内の対応する位置に接続する、シンプルかつ効果的な表現である 3D パッチを採用します。
3D パッチを 2D LMM に統合し、2D と 3D の視覚言語命令の調整を共同で採用することで、2D 画像理解と 3D シーン理解の両方のための統一アーキテクチャを確立します。
実験結果は、LLaVA-3D が 3D ビジョン言語データセットでトレーニングされた場合、既存の 3D LMM よりも 3.5 倍高速に収束することを示しています。
さらに、LLaVA-3D は、さまざまな 3D タスクにわたって最先端のパフォーマンスを実現するだけでなく、LLaVA と同等の 2D 画像理解および視覚言語会話機能も維持します。

要約(オリジナル)

Recent advancements in Large Multimodal Models (LMMs) have greatly enhanced their proficiency in 2D visual understanding tasks, enabling them to effectively process and understand images and videos. However, the development of LMMs with 3D-awareness for 3D scene understanding has been hindered by the lack of large-scale 3D vision-language datasets and powerful 3D encoders. In this paper, we introduce a simple yet effective framework called LLaVA-3D. Leveraging the strong 2D understanding priors from LLaVA, our LLaVA-3D efficiently adapts LLaVA for 3D scene understanding without compromising 2D understanding capabilities. To achieve this, we employ a simple yet effective representation, 3D Patch, which connects 2D CLIP patch features with their corresponding positions in 3D space. By integrating the 3D Patches into 2D LMMs and employing joint 2D and 3D vision-language instruction tuning, we establish a unified architecture for both 2D image understanding and 3D scene understanding. Experimental results show that LLaVA-3D converges 3.5x faster than existing 3D LMMs when trained on 3D vision-language datasets. Moreover, LLaVA-3D not only achieves state-of-the-art performance across various 3D tasks but also maintains comparable 2D image understanding and vision-language conversation capabilities with LLaVA.

arxiv情報

著者 Chenming Zhu,Tai Wang,Wenwei Zhang,Jiangmiao Pang,Xihui Liu
発行日 2024-09-26 17:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク