要約
大規模言語モデル (LLM) で 3D 物理世界を理解できるようにすることは、依然として大きな課題です。
大規模な 3D テキスト ペア データセットが不足しているため、LLM の成功は 3D 理解においてまだ再現されていません。
この論文では、この問題を再考し、3D データによる効率的な点言語理解という新しいタスクを提案します。
目標は、LLM が最小限の 3D 点群とテキスト データのペアで堅牢な 3D オブジェクトの理解を実現できるようにすることです。
このタスクに対処するために、3D データの不足を補うためにより多くのテキスト データを活用する GreenPLM を導入します。
まず、CLIP を使用して画像とテキストを位置合わせすることにヒントを得て、事前トレーニングされた点群テキスト エンコーダを利用して、3D 点群空間をテキスト空間にマッピングします。
このマッピングにより、テキスト空間と LLM をシームレスに接続できるようになります。
ポイントとテキストと LLM の接続が確立されると、中間テキスト空間を拡張することでテキストと LLM の位置合わせがさらに強化され、それによって 3D 点群データへの依存が軽減されます。
具体的には、3D オブジェクトの 600 万件のフリーテキスト説明を生成し、LLM がさまざまなモダリティ間の本質的なつながりをより適切に探索できるように、3 段階のトレーニング戦略を設計しています。
効率的なモダリティ調整を実現するために、トークン プーリング用のゼロパラメーター クロス アテンション モジュールを設計します。
広範な実験結果によると、GreenPLM は、優れた 3D 理解を達成するために、既存の最先端モデルで使用される 3D トレーニング データの 12% のみを必要とします。
注目すべきことに、GreenPLM はテキストのみのデータを使用しても競争力のあるパフォーマンスを達成します。
コードと重みは、https://github.com/TangYuan96/GreenPLM から入手できます。
要約(オリジナル)
Enabling Large Language Models (LLMs) to comprehend the 3D physical world remains a significant challenge. Due to the lack of large-scale 3D-text pair datasets, the success of LLMs has yet to be replicated in 3D understanding. In this paper, we rethink this issue and propose a new task: 3D Data-Efficient Point-Language Understanding. The goal is to enable LLMs to achieve robust 3D object understanding with minimal 3D point cloud and text data pairs. To address this task, we introduce GreenPLM, which leverages more text data to compensate for the lack of 3D data. First, inspired by using CLIP to align images and text, we utilize a pre-trained point cloud-text encoder to map the 3D point cloud space to the text space. This mapping leaves us to seamlessly connect the text space with LLMs. Once the point-text-LLM connection is established, we further enhance text-LLM alignment by expanding the intermediate text space, thereby reducing the reliance on 3D point cloud data. Specifically, we generate 6M free-text descriptions of 3D objects, and design a three-stage training strategy to help LLMs better explore the intrinsic connections between different modalities. To achieve efficient modality alignment, we design a zero-parameter cross-attention module for token pooling. Extensive experimental results show that GreenPLM requires only 12% of the 3D training data used by existing state-of-the-art models to achieve superior 3D understanding. Remarkably, GreenPLM also achieves competitive performance using text-only data. The code and weights are available at: https://github.com/TangYuan96/GreenPLM.
arxiv情報
著者 | Yuan Tang,Xu Han,Xianzhi Li,Qiao Yu,Jinfeng Xu,Yixue Hao,Long Hu,Min Chen |
発行日 | 2024-08-28 17:38:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google