要約
FLAREは、較正されていないスパースビュー画像(入力が2~8個程度)から、高品質なカメラポーズと3D形状を推定するために設計されたフィードフォワードモデルである。私たちのソリューションは、3D構造を2D画像平面にマッピングする際の重要な役割を認識し、カメラポーズを重要な橋渡しとするカスケード学習パラダイムを特徴としています。具体的には、FLAREはカメラのポーズ推定から開始し、その結果が幾何学的構造と外観のその後の学習の条件となり、ジオメトリ再構成とノベルビュー合成の目的を通して最適化される。大規模な公開データセットを学習に利用することで、我々の手法は、推論効率(0.5秒以下)を維持しながら、ポーズ推定、ジオメトリ再構成、新規ビュー合成のタスクにおいて最先端の性能を実現する。プロジェクトページとコードは、https://zhanghe3z.github.io/FLARE/。
要約(オリジナル)
We present FLARE, a feed-forward model designed to infer high-quality camera poses and 3D geometry from uncalibrated sparse-view images (i.e., as few as 2-8 inputs), which is a challenging yet practical setting in real-world applications. Our solution features a cascaded learning paradigm with camera pose serving as the critical bridge, recognizing its essential role in mapping 3D structures onto 2D image planes. Concretely, FLARE starts with camera pose estimation, whose results condition the subsequent learning of geometric structure and appearance, optimized through the objectives of geometry reconstruction and novel-view synthesis. Utilizing large-scale public datasets for training, our method delivers state-of-the-art performance in the tasks of pose estimation, geometry reconstruction, and novel view synthesis, while maintaining the inference efficiency (i.e., less than 0.5 seconds). The project page and code can be found at: https://zhanghe3z.github.io/FLARE/
arxiv情報
著者 | Shangzhan Zhang,Jianyuan Wang,Yinghao Xu,Nan Xue,Christian Rupprecht,Xiaowei Zhou,Yujun Shen,Gordon Wetzstein |
発行日 | 2025-03-03 12:09:29+00:00 |
arxivサイト | arxiv_id(pdf) |