PiSA: A Self-Augmented Data Engine and Training Strategy for 3D Understanding with Large Models

要約

3Dマルチモーダル大手言語モデル(MLLM)は最近、実質的な進歩を遂げました。
ただし、主に3Dデータセットの量と準最適品質が限られているため、それらの可能性は未開拓のままです。
現在のアプローチは、2D MLLMSから知識を転送して3D命令データを拡大しようとしますが、モダリティとドメインのギャップに直面しています。
この目的のために、3D Spatial Semanticsで濃縮された指導ポイント言語データセットを生成するための新しいフレームワークであるPisa-Engine(Point-self-augmented-engine)を紹介します。
既存の3D MLLMは、注釈のための点雲の包括的な理解を提供し、2D MLLMSは補完的な情報を提供することで相互検証に優れていることを観察します。
PISA-Engineは、既製のMLLMSからの全体的な2Dおよび3Dの洞察を統合することにより、高品質のデータ生成の連続サイクルを可能にします。
Pointllmをベースラインとして選択し、この共進化トレーニングフレームワークを採用して、Pointllm-PISAと呼ばれる強化された3D MLLMを開発します。
さらに、以前の3Dベンチマークの制限を特定します。これは、粗い言語キャプションとカテゴリの多様性が不十分なことが多く、不正確な評価をもたらします。
このギャップに対処するために、詳細で多様なラベルを備えた6つの重要な側面をカバーする包括的な3DベンチマークであるPisa-Benchをさらに紹介します。
実験結果は、Pointllm-PISAのゼロショット3DオブジェクトキャプションとPISAベンチの生成分類における最先端のパフォーマンスを示しており、それぞれ46.45%(+8.33%)と63.75%(+16.25%)の大幅な改善を達成しています。
コード、データセット、ベンチマークをリリースします。

要約(オリジナル)

3D Multimodal Large Language Models (MLLMs) have recently made substantial advancements. However, their potential remains untapped, primarily due to the limited quantity and suboptimal quality of 3D datasets. Current approaches attempt to transfer knowledge from 2D MLLMs to expand 3D instruction data, but still face modality and domain gaps. To this end, we introduce PiSA-Engine (Point-Self-Augmented-Engine), a new framework for generating instruction point-language datasets enriched with 3D spatial semantics. We observe that existing 3D MLLMs offer a comprehensive understanding of point clouds for annotation, while 2D MLLMs excel at cross-validation by providing complementary information. By integrating holistic 2D and 3D insights from off-the-shelf MLLMs, PiSA-Engine enables a continuous cycle of high-quality data generation. We select PointLLM as the baseline and adopt this co-evolution training framework to develop an enhanced 3D MLLM, termed PointLLM-PiSA. Additionally, we identify limitations in previous 3D benchmarks, which often feature coarse language captions and insufficient category diversity, resulting in inaccurate evaluations. To address this gap, we further introduce PiSA-Bench, a comprehensive 3D benchmark covering six key aspects with detailed and diverse labels. Experimental results demonstrate PointLLM-PiSA’s state-of-the-art performance in zero-shot 3D object captioning and generative classification on our PiSA-Bench, achieving significant improvements of 46.45% (+8.33%) and 63.75% (+16.25%), respectively. We will release the code, datasets, and benchmark.

arxiv情報

著者 Zilu Guo,Hongbin Lin,Zhihao Yuan,Chaoda Zheng,Pengshuo Qiu,Dongzhi Jiang,Renrui Zhang,Chun-Mei Feng,Zhen Li
発行日 2025-03-13 16:37:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク