IFFNeRF: Initialisation Free and Fast 6DoF pose estimation from a single image and a NeRF model

要約

Neural Radiance Fields (NeRF) 定式化に基づいて、特定の画像の 6 自由度 (6DoF) のカメラ ポーズを推定する IFFNeRF を紹介します。
IFFNeRF はリアルタイムで動作するように特別に設計されており、求める解決策に近い最初の姿勢推測の必要性を排除します。
IFFNeRF は、Metropolis-Hasting アルゴリズムを利用して、NeRF モデル内から表面ポイントをサンプリングします。
これらのサンプリングされたポイントから光線を投射し、ピクセルレベルのビュー合成を通じて各光線の色を推定します。
次に、クエリ画像と結果のバンドルの間の対応関係を選択することにより、最小二乗問題の解としてカメラのポーズを推定できます。
私たちは、学習されたアテンション メカニズムを通じてこのプロセスを促進し、クエリ画像の埋め込みとパラメータ化された光線の埋め込みを橋渡しし、それによって画像に関連する光線を照合します。
合成および実際の評価設定を通じて、私たちの方法は、民生用ハードウェアで 34fps で実行し、初期姿勢推定を必要とせずに、iNeRF と比較して、角度誤差と変換誤差の精度をそれぞれ 80.1% と 67.3% 改善できることを示します。

要約(オリジナル)

We introduce IFFNeRF to estimate the six degrees-of-freedom (6DoF) camera pose of a given image, building on the Neural Radiance Fields (NeRF) formulation. IFFNeRF is specifically designed to operate in real-time and eliminates the need for an initial pose guess that is proximate to the sought solution. IFFNeRF utilizes the Metropolis-Hasting algorithm to sample surface points from within the NeRF model. From these sampled points, we cast rays and deduce the color for each ray through pixel-level view synthesis. The camera pose can then be estimated as the solution to a Least Squares problem by selecting correspondences between the query image and the resulting bundle. We facilitate this process through a learned attention mechanism, bridging the query image embedding with the embedding of parameterized rays, thereby matching rays pertinent to the image. Through synthetic and real evaluation settings, we show that our method can improve the angular and translation error accuracy by 80.1% and 67.3%, respectively, compared to iNeRF while performing at 34fps on consumer hardware and not requiring the initial pose guess.

arxiv情報

著者 Matteo Bortolon,Theodore Tsesmelis,Stuart James,Fabio Poiesi,Alessio Del Bue
発行日 2024-03-19 12:36:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク