要約
学習ベースのビジュアル リローカライザーは、優れたポーズ精度を示しますが、数時間または数日のトレーニングが必要です。
トレーニングは新しいシーンごとに再度実行する必要があるため、高い精度が約束されているにもかかわらず、トレーニング時間が長いため、ほとんどのアプリケーションでは学習ベースの再局在化が現実的ではありません。
この論文では、そのようなシステムが実際にどのようにして 5 分以内に同じ精度を達成できるかを示します。
明らかなことから始めます。再位置化ネットワークは、シーンに依存しない特徴バックボーンとシーン固有の予測ヘッドに分割できます。
それほど明白ではありませんが、MLP 予測ヘッドを使用すると、単一のトレーニング反復ごとに数千のビュー ポイントを同時に最適化できます。
これにより、安定した非常に高速な収束が実現します。
さらに、再投影損失を考慮したカリキュラムを備えた堅牢なポーズ ソルバーを使用した、効果的ではあるが時間がかかるエンドツーエンド トレーニングを置き換えます。
私たちのアプローチでは、迅速なトレーニングのために深度マップや 3D モデルなどの特権的な知識は必要ありません。
全体として、私たちのアプローチは、同等の精度を維持しながら、最先端のシーン座標回帰よりもマッピングが最大 300 倍高速です。
要約(オリジナル)
Learning-based visual relocalizers exhibit leading pose accuracy, but require hours or days of training. Since training needs to happen on each new scene again, long training times make learning-based relocalization impractical for most applications, despite its promise of high accuracy. In this paper we show how such a system can actually achieve the same accuracy in less than 5 minutes. We start from the obvious: a relocalization network can be split in a scene-agnostic feature backbone, and a scene-specific prediction head. Less obvious: using an MLP prediction head allows us to optimize across thousands of view points simultaneously in each single training iteration. This leads to stable and extremely fast convergence. Furthermore, we substitute effective but slow end-to-end training using a robust pose solver with a curriculum over a reprojection loss. Our approach does not require privileged knowledge, such a depth maps or a 3D model, for speedy training. Overall, our approach is up to 300x faster in mapping than state-of-the-art scene coordinate regression, while keeping accuracy on par.
arxiv情報
著者 | Eric Brachmann,Tommaso Cavallari,Victor Adrian Prisacariu |
発行日 | 2023-05-23 13:38:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google