要約
既存のスパースビュー再構成モデルは、正確な既知のカメラのポーズに大きく依存しています。
ただし、スパースビュー画像からカメラの外部機能と内部機能を導出することには大きな課題があります。
この研究では、未校正のスパースビュー画像から高品質の 3D ガウスを生成し、わずか数秒でカメラ パラメータを回復できる、拡張性の高いフィードフォワード再構成フレームワークである FreeSplatter を紹介します。
FreeSplatter は、合理化されたトランスフォーマー アーキテクチャに基づいて構築されており、マルチビュー画像トークン間の情報交換を容易にし、ピクセル単位の 3D ガウス プリミティブにデコードする一連のセルフ アテンション ブロックで構成されています。
予測されたガウス プリミティブは統一された参照フレーム内に配置され、高忠実度の 3D モデリングと、既製のソルバーを使用したインスタント カメラ パラメーター推定が可能になります。
オブジェクト中心の再構築とシーンレベルの再構築の両方に対応するために、広範なデータセットで FreeSplatter の 2 つのモデル バリアントをトレーニングします。
どちらのシナリオでも、FreeSplatter は再構築の品質と姿勢推定の精度の点で最先端のベースラインを上回っています。
さらに、テキスト/画像から 3D コンテンツへの作成など、下流アプリケーションの生産性を向上させる FreeSplatter の可能性を紹介します。
要約(オリジナル)
Existing sparse-view reconstruction models heavily rely on accurate known camera poses. However, deriving camera extrinsics and intrinsics from sparse-view images presents significant challenges. In this work, we present FreeSplatter, a highly scalable, feed-forward reconstruction framework capable of generating high-quality 3D Gaussians from uncalibrated sparse-view images and recovering their camera parameters in mere seconds. FreeSplatter is built upon a streamlined transformer architecture, comprising sequential self-attention blocks that facilitate information exchange among multi-view image tokens and decode them into pixel-wise 3D Gaussian primitives. The predicted Gaussian primitives are situated in a unified reference frame, allowing for high-fidelity 3D modeling and instant camera parameter estimation using off-the-shelf solvers. To cater to both object-centric and scene-level reconstruction, we train two model variants of FreeSplatter on extensive datasets. In both scenarios, FreeSplatter outperforms state-of-the-art baselines in terms of reconstruction quality and pose estimation accuracy. Furthermore, we showcase FreeSplatter’s potential in enhancing the productivity of downstream applications, such as text/image-to-3D content creation.
arxiv情報
著者 | Jiale Xu,Shenghua Gao,Ying Shan |
発行日 | 2024-12-12 18:52:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google