要約
最近、3Dガウス・スプラッティングに基づく一般化可能なフィードフォワード手法が、有限のリソースを用いて3Dシーンを再構成する可能性があるとして、大きな注目を集めている。これらのアプローチは、ピクセル毎の3Dガウスプリミティブによってパラメータ化された3D輝度フィールドを、わずか数枚の画像から1回のフォワードパスで作成する。しかし、クロスビュー対応の恩恵を受けるマルチビュー手法とは異なり、シングルビュー画像による3Dシーン再構成は未開拓の領域である。本研究では、CATSplatを紹介する。CATSplatは、単眼の設定に固有の制約を打破するために設計された、新しい一般化可能な変換器ベースのフレームワークである。まず、単一画像からの不十分な情報を補完するために、視覚言語モデルからのテキストガイダンスを活用することを提案する。クロスアテンションを通じてテキスト埋め込みからシーン固有のコンテキスト詳細を組み込むことにより、視覚的手がかりのみに依存しない、コンテキストを考慮した3Dシーン再構成への道を開く。さらに、単一視点設定下での包括的な幾何学的理解に向けて、3D点特徴からの空間ガイダンスの活用を提唱する。3Dプリオールを用いることで、画像特徴量は、多視点技術を用いることなく、3Dガウシアンを予測するための豊富な構造的洞察を得ることができる。大規模なデータセットを用いた広範な実験により、CATSplatのシングルビュー3Dシーン再構成における最先端の性能が、高品質な新しいビュー合成により実証された。
要約(オリジナル)
Recently, generalizable feed-forward methods based on 3D Gaussian Splatting have gained significant attention for their potential to reconstruct 3D scenes using finite resources. These approaches create a 3D radiance field, parameterized by per-pixel 3D Gaussian primitives, from just a few images in a single forward pass. However, unlike multi-view methods that benefit from cross-view correspondences, 3D scene reconstruction with a single-view image remains an underexplored area. In this work, we introduce CATSplat, a novel generalizable transformer-based framework designed to break through the inherent constraints in monocular settings. First, we propose leveraging textual guidance from a visual-language model to complement insufficient information from a single image. By incorporating scene-specific contextual details from text embeddings through cross-attention, we pave the way for context-aware 3D scene reconstruction beyond relying solely on visual cues. Moreover, we advocate utilizing spatial guidance from 3D point features toward comprehensive geometric understanding under single-view settings. With 3D priors, image features can capture rich structural insights for predicting 3D Gaussians without multi-view techniques. Extensive experiments on large-scale datasets demonstrate the state-of-the-art performance of CATSplat in single-view 3D scene reconstruction with high-quality novel view synthesis.
arxiv情報
著者 | Wonseok Roh,Hwanhee Jung,Jong Wook Kim,Seunggwan Lee,Innfarn Yoo,Andreas Lugmayr,Seunggeun Chi,Karthik Ramani,Sangpil Kim |
発行日 | 2025-02-03 08:06:36+00:00 |
arxivサイト | arxiv_id(pdf) |