要約
ビジョン言語モデル(VLM)は、多様な視覚的および言語的タスクで顕著なパフォーマンスを示していますが、3D空間構造の理解において根本的に限られたままです。
私たちは、アーキテクチャを変更せずに、人間に触発された幾何学的キューを前処理したVLMに注入する軽量で注釈のない微調整フレームワークである幾何学的蒸留を提案します。
(1)スパース対応、(2)相対深さの関係、および(3)既製の3Dファンデーションモデル(例:Mast3R、VGGT)からの密なコスト量を蒸留することにより、私たちの方法は、自然な画像テキスト入力と互換性がある間、ジオメトリを認識する表現を形作ります。
3Dビジョン言語の推論と3D認識ベンチマークに関する広範な評価を通じて、私たちの方法は一貫して以前のアプローチを上回り、計算コストが大幅に低い3D空間推論を達成しました。
私たちの作品は、3D理解で2Dトレーニングを受けたVLMSをブリッジするスケーラブルで効率的なパスを示し、空間的に接地されたマルチモーダルタスクでより広く使用されています。
要約(オリジナル)
Vision-Language Models (VLMs) have shown remarkable performance on diverse visual and linguistic tasks, yet they remain fundamentally limited in their understanding of 3D spatial structures. We propose Geometric Distillation, a lightweight, annotation-free fine-tuning framework that injects human-inspired geometric cues into pretrained VLMs without modifying their architecture. By distilling (1) sparse correspondences, (2) relative depth relations, and (3) dense cost volumes from off-the-shelf 3D foundation models (e.g., MASt3R, VGGT), our method shapes representations to be geometry-aware while remaining compatible with natural image-text inputs. Through extensive evaluations on 3D vision-language reasoning and 3D perception benchmarks, our method consistently outperforms prior approaches, achieving improved 3D spatial reasoning with significantly lower computational cost. Our work demonstrates a scalable and efficient path to bridge 2D-trained VLMs with 3D understanding, opening up wider use in spatially grounded multimodal tasks.
arxiv情報
著者 | Seonho Lee,Jiho Choi,Inha Kang,Jiwook Kim,Junsung Park,Hyunjung Shim |
発行日 | 2025-06-11 15:56:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google