要約
2 つの画像が与えられた場合、画像間の対応関係を確立することで、それらの間の相対的なカメラの姿勢を推定できます。
通常、対応は 2D 対 2D であり、推定されるポーズはスケールまでしか定義されません。
一部のアプリケーションは、どこでも瞬時に拡張現実を実現することを目的としており、スケールメトリックの姿勢推定を必要とするため、スケールを回復するために外部の深度推定器に依存します。
3D カメラ空間でのメトリックの対応を予測できるキーポイント マッチング パイプラインである MicKey を紹介します。
画像全体で 3D 座標を一致させる方法を学習することで、深度を測定せずにメトリクスの相対姿勢を推測できるようになります。
深さの測定もトレーニングには必要ありません。また、シーンの再構成や画像のオーバーラップ情報も必要ありません。
MicKey は、画像のペアとその相対的なポーズによってのみ監視されます。
MicKey は、競合するアプローチよりも必要な監視が少ない一方で、マップフリー再ローカリゼーション ベンチマークで最先端のパフォーマンスを達成します。
要約(オリジナル)
Given two images, we can estimate the relative camera pose between them by establishing image-to-image correspondences. Usually, correspondences are 2D-to-2D and the pose we estimate is defined only up to scale. Some applications, aiming at instant augmented reality anywhere, require scale-metric pose estimates, and hence, they rely on external depth estimators to recover the scale. We present MicKey, a keypoint matching pipeline that is able to predict metric correspondences in 3D camera space. By learning to match 3D coordinates across images, we are able to infer the metric relative pose without depth measurements. Depth measurements are also not required for training, nor are scene reconstructions or image overlap information. MicKey is supervised only by pairs of images and their relative poses. MicKey achieves state-of-the-art performance on the Map-Free Relocalisation benchmark while requiring less supervision than competing approaches.
arxiv情報
著者 | Axel Barroso-Laguna,Sowmya Munukutla,Victor Adrian Prisacariu,Eric Brachmann |
発行日 | 2024-04-09 14:22:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google