要約
私たちは、シーンを描写する一連の画像からカメラ パラメーターを推定するタスクに取り組みます。
一般的なフィーチャベースのモーションからの構造 (SfM) ツールは、増分再構成によってこのタスクを解決します。つまり、まばらな 3D 点の三角測量と、まばらな点群へのより多くのカメラ ビューの登録を繰り返します。
私たちは、動きからの増分構造を、視覚的リローカライザー、つまり再構成の現在の状態に新しいビューを登録する方法の反復適用および改良として再解釈します。
この観点により、局所特徴マッチングに根ざしていない代替の視覚的リローカライザーを調査することができます。
学習ベースの再局在化アプローチであるシーン座標回帰により、ポーズを付けていない画像から暗黙的なニューラル シーン表現を構築できることを示します。
他の学習ベースの再構成手法とは異なり、ポーズ事前分布や連続入力は必要なく、数千の画像にわたって効率的に最適化します。
多くの場合、私たちの手法 ACE0 は、新しいビュー合成によって実証されているように、特徴ベースの SfM に近い精度でカメラのポーズを推定します。
プロジェクトページ:https://nianticlabs.github.io/acezero/
要約(オリジナル)
We address the task of estimating camera parameters from a set of images depicting a scene. Popular feature-based structure-from-motion (SfM) tools solve this task by incremental reconstruction: they repeat triangulation of sparse 3D points and registration of more camera views to the sparse point cloud. We re-interpret incremental structure-from-motion as an iterated application and refinement of a visual relocalizer, that is, of a method that registers new views to the current state of the reconstruction. This perspective allows us to investigate alternative visual relocalizers that are not rooted in local feature matching. We show that scene coordinate regression, a learning-based relocalization approach, allows us to build implicit, neural scene representations from unposed images. Different from other learning-based reconstruction methods, we do not require pose priors nor sequential inputs, and we optimize efficiently over thousands of images. In many cases, our method, ACE0, estimates camera poses with an accuracy close to feature-based SfM, as demonstrated by novel view synthesis. Project page: https://nianticlabs.github.io/acezero/
arxiv情報
著者 | Eric Brachmann,Jamie Wynn,Shuai Chen,Tommaso Cavallari,Áron Monszpart,Daniyar Turmukhambetov,Victor Adrian Prisacariu |
発行日 | 2024-07-26 11:48:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google