Implicit Learning of Scene Geometry from Poses for Global Localization

要約

グローバルビジュアルローカリゼーションは、事前にマッピングされた領域で、単一の画像を使用してカメラの絶対姿勢を推定します。単一の画像からポーズを取得することで、多くのロボット工学や拡張/仮想現実アプリケーションを可能にする。ディープラーニングの最新の進歩に触発され、既存の多くのアプローチは、入力画像から6自由度ポーズを直接学習し、回帰する。しかし、これらの手法は、ポーズ回帰のために基礎となるシーン形状を十分に利用していない。単眼再定位における課題は、教師付き学習データの利用可能性が最小限であることである。本論文では、これらの最小限の利用可能なラベル(すなわち、ポーズ)を利用して、シーンの基礎となる3Dジオメトリを学習し、そのジオメトリを用いて6DoFカメラポーズを推定することを提案する。我々は、これらのポーズラベルと剛体アライメントを用いて、シーンの2つの3D幾何学表現( \textit{X, Y, Z座標})を学習する学習方法を提示する。1つの画像が与えられたとき、この2つの3Dシーン表現を推定し、次にポーズラベルに一致するポーズを推定するためにアライメントする。この定式化により、2つの3Dシーン表現間の3Dアライメント誤差と、3Dグローバルシーン表現と2D画像ピクセル間の2D再投影誤差を最小化するための追加学習制約を能動的に組み込むことができ、その結果、定位精度が向上する。推論中、我々のモデルはカメラフレームとグローバルフレームにおける3Dシーンジオメトリを推定し、リアルタイムでポーズを取得するためにそれらをリジッドにアライメントする。我々は、3つの一般的な視覚的ローカライゼーションデータセットを用いて我々の研究を評価し、アブレーション研究を実施し、全てのデータセットにおいて、我々の手法が最先端の回帰手法のポーズ精度を上回ることを示す。

要約(オリジナル)

Global visual localization estimates the absolute pose of a camera using a single image, in a previously mapped area. Obtaining the pose from a single image enables many robotics and augmented/virtual reality applications. Inspired by latest advances in deep learning, many existing approaches directly learn and regress 6 DoF pose from an input image. However, these methods do not fully utilize the underlying scene geometry for pose regression. The challenge in monocular relocalization is the minimal availability of supervised training data, which is just the corresponding 6 DoF poses of the images. In this paper, we propose to utilize these minimal available labels (.i.e, poses) to learn the underlying 3D geometry of the scene and use the geometry to estimate the 6 DoF camera pose. We present a learning method that uses these pose labels and rigid alignment to learn two 3D geometric representations (\textit{X, Y, Z coordinates}) of the scene, one in camera coordinate frame and the other in global coordinate frame. Given a single image, it estimates these two 3D scene representations, which are then aligned to estimate a pose that matches the pose label. This formulation allows for the active inclusion of additional learning constraints to minimize 3D alignment errors between the two 3D scene representations, and 2D re-projection errors between the 3D global scene representation and 2D image pixels, resulting in improved localization accuracy. During inference, our model estimates the 3D scene geometry in camera and global frames and aligns them rigidly to obtain pose in real-time. We evaluate our work on three common visual localization datasets, conduct ablation studies, and show that our method exceeds state-of-the-art regression methods’ pose accuracy on all datasets.

arxiv情報

著者 Mohammad Altillawi,Shile Li,Sai Manoj Prakhya,Ziyuan Liu,Joan Serrat
発行日 2023-12-04 16:51:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク