GPT4Scene: Understand 3D Scenes from Videos with Vision-Language Models

要約

近年、2D Vision-Language Model (VLM) は、画像とテキストの理解タスクにおいて大幅な進歩を遂げました。
しかし、身体化された知性にとって重要な 3D 空間理解における能力は依然として限られています。
最近の進歩により、3D 点群とマルチビュー画像が入力として活用され、有望な結果が得られています。
しかし、私たちは、3D 空間を理解するために視覚的な手がかりにのみ依存する、人間の知覚に触発された純粋に視覚ベースのソリューションを検討することを提案します。
この論文は、3D 空間知識における VLM の限界を実証的に調査し、VLM の主な欠点がシーンと個々のフレーム間のグローバルとローカルの対応の欠如にあることを明らかにしました。
これに対処するために、VLM トレーニングと推論における新しい視覚的プロンプト パラダイムである GPT4Scene を導入します。これは、グローバルとローカルの関係を構築するのに役立ち、屋内シーンの 3D 空間理解を大幅に向上させます。
具体的には、GPT4Scene はビデオから 3D 鳥瞰図 (BEV) 画像を構築し、フレームと BEV 画像の両方にわたって一貫したオブジェクト ID をマークします。
次にモデルは、連結された BEV 画像とマーカー付きビデオ フレームを入力します。
ゼロショット評価では、GPT4Scene は GPT-4o などのクローズドソース VLM よりもパフォーマンスを向上させます。
さらに、オープンソース VLM を微調整するために 165,000 のテキスト アノテーションで構成される処理済みビデオ データセットを準備し、すべての 3D 理解タスクで最先端のパフォーマンスを実現します。
驚くべきことに、GPT4Scene パラダイムでトレーニングした後、明示的な対応としての視覚的なプロンプトと BEV 画像がなくても、推論中に VLM は一貫して向上しました。
これは、提案されたパラダイムが、VLM が 3D シーンを理解するための固有の能力を開発するのに役立ち、これにより、3D シーンを理解するために事前トレーニングされた VLM を拡張する非侵襲的アプローチへの道が開かれることを示しています。

要約(オリジナル)

In recent years, 2D Vision-Language Models (VLMs) have made significant strides in image-text understanding tasks. However, their performance in 3D spatial comprehension, which is critical for embodied intelligence, remains limited. Recent advances have leveraged 3D point clouds and multi-view images as inputs, yielding promising results. However, we propose exploring a purely vision-based solution inspired by human perception, which merely relies on visual cues for 3D spatial understanding. This paper empirically investigates the limitations of VLMs in 3D spatial knowledge, revealing that their primary shortcoming lies in the lack of global-local correspondence between the scene and individual frames. To address this, we introduce GPT4Scene, a novel visual prompting paradigm in VLM training and inference that helps build the global-local relationship, significantly improving the 3D spatial understanding of indoor scenes. Specifically, GPT4Scene constructs a 3D Bird’s Eye View (BEV) image from the video and marks consistent object IDs across both frames and the BEV image. The model then inputs the concatenated BEV image and video frames with markers. In zero-shot evaluations, GPT4Scene improves performance over closed-source VLMs like GPT-4o. Additionally, we prepare a processed video dataset consisting of 165K text annotation to fine-tune open-source VLMs, achieving state-of-the-art performance on all 3D understanding tasks. Surprisingly, after training with the GPT4Scene paradigm, VLMs consistently improve during inference, even without visual prompting and BEV image as explicit correspondence. It demonstrates that the proposed paradigm helps VLMs develop an intrinsic ability to understand 3D scenes, which paves the way for a noninvasive approach to extending pre-trained VLMs for 3D scene understanding.

arxiv情報

著者 Zhangyang Qi,Zhixiong Zhang,Ye Fang,Jiaqi Wang,Hengshuang Zhao
発行日 2025-01-09 16:41:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク