Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs

要約

2Dビジョン言語モデル(VLMS)の顕著な進歩は、3D質問応答、密度の高いキャプション、視覚的接地などのタスクの3D設定に拡張することに関心を抱いています。
通常、画像エンコーダーを介して画像を処理する2D VLMとは異なり、複雑な空間構造を備えた3Dシーンでは、多様なモデルアーキテクチャを可能にします。
エンコーダー設計に基づいて、このペーパーでは、最近の3D VLMを3Dオブジェクト中心の2D画像ベース、および3Dシーン中心のアプローチに分類します。
3Dシーン中心のVLMが2D対応物とのアーキテクチャの類似性にもかかわらず、最新の3Dオブジェクト中心および2D画像ベースのアプローチと比較して、比較的低いパフォーマンスを示しています。
このギャップを理解するために、詳細な分析を実施し、3Dシーン中心のVLMSが3Dシーンエンコーダーへの依存度が限られていることを明らかにし、トレイン前のステージは2D VLMSよりも効果が低いようです。
さらに、データスケーリングの利点は、より大きなデータセットではあまり顕著ではないことがわかります。
私たちの調査によると、これらのモデルはクロスモーダルアライメント機能を持っていますが、頻繁な回答分布に対して言語的手がかりと過剰に依存する傾向があり、それにより3Dエンコーダーの効果的な利用が減少することが示唆されています。
これらの制限に対処し、本物の3Dシーンの理解を奨励するために、ショートカット学習を混乱させ、3D理解を改善するために設計された新しい3D関連性識別QAデータセットを導入します。
私たちの調査結果は、3D VLMSでの3D理解を改善するための高度な評価と改善された戦略の必要性を強調しています。

要約(オリジナル)

Remarkable progress in 2D Vision-Language Models (VLMs) has spurred interest in extending them to 3D settings for tasks like 3D Question Answering, Dense Captioning, and Visual Grounding. Unlike 2D VLMs that typically process images through an image encoder, 3D scenes, with their intricate spatial structures, allow for diverse model architectures. Based on their encoder design, this paper categorizes recent 3D VLMs into 3D object-centric, 2D image-based, and 3D scene-centric approaches. Despite the architectural similarity of 3D scene-centric VLMs to their 2D counterparts, they have exhibited comparatively lower performance compared with the latest 3D object-centric and 2D image-based approaches. To understand this gap, we conduct an in-depth analysis, revealing that 3D scene-centric VLMs show limited reliance on the 3D scene encoder, and the pre-train stage appears less effective than in 2D VLMs. Furthermore, we observe that data scaling benefits are less pronounced on larger datasets. Our investigation suggests that while these models possess cross-modal alignment capabilities, they tend to over-rely on linguistic cues and overfit to frequent answer distributions, thereby diminishing the effective utilization of the 3D encoder. To address these limitations and encourage genuine 3D scene understanding, we introduce a novel 3D Relevance Discrimination QA dataset designed to disrupt shortcut learning and improve 3D understanding. Our findings highlight the need for advanced evaluation and improved strategies for better 3D understanding in 3D VLMs.

arxiv情報

著者 Haoyuan Li,Yanpeng Zhou,Yufei Gao,Tao Tang,Jianhua Han,Yujie Yuan,Dave Zhenyu Chen,Jiawang Bian,Hang Xu,Xiaodan Liang
発行日 2025-06-06 07:09:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク