要約
正確な3D再構成には正確なカメラポーズが必要であり、カメラポーズの予測には(暗黙的または明示的に)基礎となる3Dをモデル化する必要がある。古典的な合成による解析のフレームワークは、この推論を、観察されたピクセルを説明することを求める共同最適化として投げかける。最近のインスタンスは、最初のポーズ推定値の勾配降下ベースのポーズ精密化とともに、表現力豊かな3D表現(例えば、ニューラルフィールド)を学習する。しかし、観察されたビューの疎なセットが与えられた場合、観察結果は完全で正確な3Dを得るのに十分な直接的証拠を提供しない可能性がある。さらに、ポーズ推定における大きな誤差は容易に修正できない可能性があり、推定された3Dをさらに劣化させる可能性がある。このような困難なセットアップにおいて、ロバストな3D再構成と姿勢推定を可能にするために、我々はSparseAGSを提案する。SparseAGSは、この分析-by-合成アプローチを適応させる手法であり、a)推定された3Dの品質を向上させるために、測光目的と組み合わせて、新規ビュー-合成ベースの生成的事前分布を含む。我々は、初期化としていくつかの市販のポーズ推定システムと組み合わせて、実世界と合成データセットで我々のフレームワークを検証した。その結果、ベースとなるシステムのポーズ精度を大幅に向上させるとともに、現在のマルチビュー再構成ベースラインの結果を上回る高品質の3D再構成をもたらすことがわかった。
要約(オリジナル)
Inferring the 3D structure underlying a set of multi-view images typically requires solving two co-dependent tasks — accurate 3D reconstruction requires precise camera poses, and predicting camera poses relies on (implicitly or explicitly) modeling the underlying 3D. The classical framework of analysis by synthesis casts this inference as a joint optimization seeking to explain the observed pixels, and recent instantiations learn expressive 3D representations (e.g., Neural Fields) with gradient-descent-based pose refinement of initial pose estimates. However, given a sparse set of observed views, the observations may not provide sufficient direct evidence to obtain complete and accurate 3D. Moreover, large errors in pose estimation may not be easily corrected and can further degrade the inferred 3D. To allow robust 3D reconstruction and pose estimation in this challenging setup, we propose SparseAGS, a method that adapts this analysis-by-synthesis approach by: a) including novel-view-synthesis-based generative priors in conjunction with photometric objectives to improve the quality of the inferred 3D, and b) explicitly reasoning about outliers and using a discrete search with a continuous optimization-based strategy to correct them. We validate our framework across real-world and synthetic datasets in combination with several off-the-shelf pose estimation systems as initialization. We find that it significantly improves the base systems’ pose accuracy while yielding high-quality 3D reconstructions that outperform the results from current multi-view reconstruction baselines.
arxiv情報
著者 | Qitao Zhao,Shubham Tulsiani |
発行日 | 2024-12-04 18:59:24+00:00 |
arxivサイト | arxiv_id(pdf) |