FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views

要約

FLAREは、高品質のカメラのポーズと3Dジオメトリを推測するように設計されたフィードフォワードモデルであるFlareを提示します。

私たちのソリューションは、カメラポーズが重要なブリッジとして機能するカスケード学習パラダイムを特徴としており、3D構造を2D画像プレーンにマッピングする上でその重要な役割を認識しています。
具体的には、フレアはカメラのポーズ推定から始まり、その結果は、幾何学の再構築と新規ビュー統合の目的を通じて最適化された幾何学的構造と外観のその後の学習を条件としています。
トレーニング用の大規模なパブリックデータセットを利用して、私たちの方法は、推論効率を維持しながら、ポーズ推定、ジオメトリ再構成、新しいビュー合成のタスクで最先端のパフォーマンスを提供します(つまり、0.5秒未満)。
プロジェクトページとコードは、https://zhanghe3z.github.io/flare/にあります。

要約(オリジナル)

We present FLARE, a feed-forward model designed to infer high-quality camera poses and 3D geometry from uncalibrated sparse-view images (i.e., as few as 2-8 inputs), which is a challenging yet practical setting in real-world applications. Our solution features a cascaded learning paradigm with camera pose serving as the critical bridge, recognizing its essential role in mapping 3D structures onto 2D image planes. Concretely, FLARE starts with camera pose estimation, whose results condition the subsequent learning of geometric structure and appearance, optimized through the objectives of geometry reconstruction and novel-view synthesis. Utilizing large-scale public datasets for training, our method delivers state-of-the-art performance in the tasks of pose estimation, geometry reconstruction, and novel view synthesis, while maintaining the inference efficiency (i.e., less than 0.5 seconds). The project page and code can be found at: https://zhanghe3z.github.io/FLARE/

arxiv情報

著者 Shangzhan Zhang,Jianyuan Wang,Yinghao Xu,Nan Xue,Christian Rupprecht,Xiaowei Zhou,Yujun Shen,Gordon Wetzstein
発行日 2025-02-17 18:54:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク