More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding

要約

大規模な言語モデル(LLM)が3Dの物理的世界を理解できるようにすることは、依然として重要な課題です。
大規模な3Dテキストペアデータセットが不足しているため、LLMSの成功はまだ3D理解で再現されていません。
この論文では、この問題を再考し、新しいタスクを提案します:3Dデータ効率の良いポイント言語理解。
目標は、最小限の3DポイントクラウドとテキストデータペアでLLMが堅牢な3Dオブジェクト理解を実現できるようにすることです。
このタスクに対処するために、3Dデータの不足を補うためにより多くのテキストデータを活用するGreenPLMを導入します。
まず、クリップを使用して画像とテキストを合わせることに触発され、事前に訓練されたポイントクラウドテキストエンコーダを使用して、3Dポイントクラウドスペースをテキストスペースにマッピングします。
このマッピングにより、テキストスペースをLLMSにシームレスに接続する必要があります。
Point-Text-LLM接続が確立されると、中間テキスト空間を拡張することにより、テキストLLMアライメントをさらに強化し、それにより3Dポイントクラウドデータへの依存を減らします。
具体的には、3Dオブジェクトの6mのフリーテキスト説明を生成し、LLMSが異なるモダリティ間の本質的な接続をよりよく調査できるように3段階のトレーニング戦略を設計します。
効率的なモダリティアラインメントを実現するために、トークンプーリング用のゼロパラメータークロスアテンションモジュールを設計します。
広範な実験結果は、GreenPLMが優れた3D理解を達成するために既存の最先端モデルで使用される3Dトレーニングデータの12%しか必要ないことを示しています。
驚くべきことに、GreenPlmはテキストのみのデータを使用して競争力のあるパフォーマンスを達成しています。
コードと重みは、https://github.com/tangyuan96/greenplmで入手できます。

要約(オリジナル)

Enabling Large Language Models (LLMs) to comprehend the 3D physical world remains a significant challenge. Due to the lack of large-scale 3D-text pair datasets, the success of LLMs has yet to be replicated in 3D understanding. In this paper, we rethink this issue and propose a new task: 3D Data-Efficient Point-Language Understanding. The goal is to enable LLMs to achieve robust 3D object understanding with minimal 3D point cloud and text data pairs. To address this task, we introduce GreenPLM, which leverages more text data to compensate for the lack of 3D data. First, inspired by using CLIP to align images and text, we utilize a pre-trained point cloud-text encoder to map the 3D point cloud space to the text space. This mapping leaves us to seamlessly connect the text space with LLMs. Once the point-text-LLM connection is established, we further enhance text-LLM alignment by expanding the intermediate text space, thereby reducing the reliance on 3D point cloud data. Specifically, we generate 6M free-text descriptions of 3D objects, and design a three-stage training strategy to help LLMs better explore the intrinsic connections between different modalities. To achieve efficient modality alignment, we design a zero-parameter cross-attention module for token pooling. Extensive experimental results show that GreenPLM requires only 12% of the 3D training data used by existing state-of-the-art models to achieve superior 3D understanding. Remarkably, GreenPLM also achieves competitive performance using text-only data. The code and weights are available at: https://github.com/TangYuan96/GreenPLM.

arxiv情報

著者 Yuan Tang,Xu Han,Xianzhi Li,Qiao Yu,Jinfeng Xu,Yixue Hao,Long Hu,Min Chen
発行日 2025-05-22 16:09:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク