要約
ビジュアル ファウンデーション モデル (VFM) が広範なデータセットでトレーニングされているものの、多くの場合 2D 画像に限定されていることを考えると、自然な疑問が生じます。「VFM は 3D 世界をどの程度理解しているのでしょうか?」
アーキテクチャとトレーニング プロトコル (つまり、目標、代理タスク) が異なるため、公平かつ包括的にユーザーの 3D 認識を調査するための統一フレームワークが緊急に必要とされています。
3D プロービングに関する既存の研究では、単一ビューの 2.5D 推定 (深度と法線など) または 2 ビューの疎な 2D 対応関係 (マッチングやトラッキングなど) を提案しています。
残念ながら、これらのタスクはテクスチャ認識を無視しており、グラウンドトゥルースとして 3D データを必要とするため、評価セットの規模と多様性が制限されます。
これらの問題に対処するために、ポーズを付けていない画像から抽出された VFM 特徴から 3D ガウス属性を読み出す Feat2GS を導入します。
これにより、3D データを必要とせずに、新しいビュー合成を通じてジオメトリとテクスチャの 3D 認識を調査できるようになります。
さらに、3DGS パラメーター (ジオメトリ ($\boldsymbol{x}、\alpha、\Sigma$) とテクスチャ ($\boldsymbol{c}$)) を解きほぐすことで、テクスチャとジオメトリの認識を個別に分析できるようになります。
Feat2GS の下で、私たちはいくつかの VFM の 3D 認識を調査する広範な実験を実施し、3D 認識 VFM につながる要素を調査します。
これらの発見に基づいて、さまざまなデータセットにわたって最先端を実現するいくつかのバリアントを開発します。
これにより、Feat2GS は VFM の調査や、新規ビュー合成のシンプルかつ効果的なベースラインとして役立ちます。
コードとデータは https://fanegg.github.io/Feat2GS/ で利用可能になります。
要約(オリジナル)
Given that visual foundation models (VFMs) are trained on extensive datasets but often limited to 2D images, a natural question arises: how well do they understand the 3D world? With the differences in architecture and training protocols (i.e., objectives, proxy tasks), a unified framework to fairly and comprehensively probe their 3D awareness is urgently needed. Existing works on 3D probing suggest single-view 2.5D estimation (e.g., depth and normal) or two-view sparse 2D correspondence (e.g., matching and tracking). Unfortunately, these tasks ignore texture awareness, and require 3D data as ground-truth, which limits the scale and diversity of their evaluation set. To address these issues, we introduce Feat2GS, which readout 3D Gaussians attributes from VFM features extracted from unposed images. This allows us to probe 3D awareness for geometry and texture via novel view synthesis, without requiring 3D data. Additionally, the disentanglement of 3DGS parameters – geometry ($\boldsymbol{x}, \alpha, \Sigma$) and texture ($\boldsymbol{c}$) – enables separate analysis of texture and geometry awareness. Under Feat2GS, we conduct extensive experiments to probe the 3D awareness of several VFMs, and investigate the ingredients that lead to a 3D aware VFM. Building on these findings, we develop several variants that achieve state-of-the-art across diverse datasets. This makes Feat2GS useful for probing VFMs, and as a simple-yet-effective baseline for novel-view synthesis. Code and data will be made available at https://fanegg.github.io/Feat2GS/.
arxiv情報
著者 | Yue Chen,Xingyu Chen,Anpei Chen,Gerard Pons-Moll,Yuliang Xiu |
発行日 | 2024-12-12 18:59:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google