要約
大規模 2D ビジョン言語モデル (2D-LLM) は、単純なプロジェクターを使用して大規模言語モデル (LLM) と画像をブリッジすることにより、大きな注目を集めています。
彼らの成功に触発されて、大規模な 3D 点群言語モデル (3D-LLM) も点群を LLM に統合します。
ただし、点群を LLM と直接調整するには、通常、A100 で数百 GPU 時間かかる高価なトレーニング コストが必要となり、3D-LLM の開発の妨げとなります。
このペーパーでは、1 台の RTX 3090 でわずか 27 時間のトレーニング中に複数の SOTA 結果を達成する効率的で強力な 3D-LLM である MiniGPT-3D を紹介します。具体的には、2D からの 2D 事前分布を使用して 3D 点群を LLM と位置合わせすることを提案します。
LLM は、2D と 3D の視覚情報の類似性を活用できます。
カスケード方式でモダリティを調整するための新しい 4 段階のトレーニング戦略と、高効率で適応的に機能を集約するためのクエリ エキスパート モジュールの混合を導入します。
さらに、パラメータ効率の高い微調整手法である LoRA および Norm 微調整を利用しているため、学習可能なパラメータはわずか 4,780 万個であり、これは既存の手法よりも最大 260 分の 1 です。
広範な実験により、MiniGPT-3D は 3D オブジェクトの分類とキャプションタスクで SOTA を達成し、トレーニング コストが大幅に低くなることが示されています。
特に、MiniGPT-3D は、ShapeLLM-13B と比較して、困難なオブジェクト キャプション タスクの GPT-4 評価スコアが 8.12 増加していますが、後者は 8 A800 で合計 160 GPU 時間のコストがかかります。
私たちは効率的な 3D-LLM を最初に検討し、コミュニティに新しい洞察を提供します。
コードと重みは https://github.com/TangYuan96/MiniGPT-3D で入手できます。
要約(オリジナル)
Large 2D vision-language models (2D-LLMs) have gained significant attention by bridging Large Language Models (LLMs) with images using a simple projector. Inspired by their success, large 3D point cloud-language models (3D-LLMs) also integrate point clouds into LLMs. However, directly aligning point clouds with LLM requires expensive training costs, typically in hundreds of GPU-hours on A100, which hinders the development of 3D-LLMs. In this paper, we introduce MiniGPT-3D, an efficient and powerful 3D-LLM that achieves multiple SOTA results while training for only 27 hours on one RTX 3090. Specifically, we propose to align 3D point clouds with LLMs using 2D priors from 2D-LLMs, which can leverage the similarity between 2D and 3D visual information. We introduce a novel four-stage training strategy for modality alignment in a cascaded way, and a mixture of query experts module to adaptively aggregate features with high efficiency. Moreover, we utilize parameter-efficient fine-tuning methods LoRA and Norm fine-tuning, resulting in only 47.8M learnable parameters, which is up to 260x fewer than existing methods. Extensive experiments show that MiniGPT-3D achieves SOTA on 3D object classification and captioning tasks, with significantly cheaper training costs. Notably, MiniGPT-3D gains an 8.12 increase on GPT-4 evaluation score for the challenging object captioning task compared to ShapeLLM-13B, while the latter costs 160 total GPU-hours on 8 A800. We are the first to explore the efficient 3D-LLM, offering new insights to the community. Code and weights are available at https://github.com/TangYuan96/MiniGPT-3D.
arxiv情報
著者 | Yuan Tang,Xu Han,Xianzhi Li,Qiao Yu,Yixue Hao,Long Hu,Min Chen |
発行日 | 2024-05-02 16:04:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google