3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation

要約

ビジョン言語モデル(VLM)は、多様な視覚的および言語的タスクで顕著なパフォーマンスを示していますが、3D空間構造の理解において根本的に限られたままです。
私たちは、アーキテクチャを変更せずに、人間に触発された幾何学的キューを前処理したVLMに注入する軽量で注釈のない微調整フレームワークである幾何学的蒸留を提案します。
(1)スパース対応、(2)相対深さの関係、および(3)既製の3Dファンデーションモデル(例:Mast3R、VGGT)からの密なコスト量を蒸留することにより、私たちの方法は、自然な画像テキスト入力と互換性がある間、ジオメトリを認識する表現を形作ります。
3Dビジョン言語の推論と3D認識ベンチマークに関する広範な評価を通じて、私たちの方法は一貫して以前のアプローチを上回り、計算コストが大幅に低い3D空間推論を達成しました。
私たちの作品は、3D理解で2Dトレーニングを受けたVLMSをブリッジするスケーラブルで効率的なパスを示し、空間的に接地されたマルチモーダルタスクでより広く使用されています。

要約(オリジナル)

Vision-Language Models (VLMs) have shown remarkable performance on diverse visual and linguistic tasks, yet they remain fundamentally limited in their understanding of 3D spatial structures. We propose Geometric Distillation, a lightweight, annotation-free fine-tuning framework that injects human-inspired geometric cues into pretrained VLMs without modifying their architecture. By distilling (1) sparse correspondences, (2) relative depth relations, and (3) dense cost volumes from off-the-shelf 3D foundation models (e.g., MASt3R, VGGT), our method shapes representations to be geometry-aware while remaining compatible with natural image-text inputs. Through extensive evaluations on 3D vision-language reasoning and 3D perception benchmarks, our method consistently outperforms prior approaches, achieving improved 3D spatial reasoning with significantly lower computational cost. Our work demonstrates a scalable and efficient path to bridge 2D-trained VLMs with 3D understanding, opening up wider use in spatially grounded multimodal tasks.

arxiv情報

著者 Seonho Lee,Jiho Choi,Inha Kang,Jiwook Kim,Junsung Park,Hyunjung Shim
発行日 2025-06-11 15:56:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク