要約
視覚的ローカリゼーションは、自律運転、AR/VR、ロボット工学など、さまざまなアプリケーションにとって重要な手法です。
これらの実際のアプリケーションでは、特にコンピューティングリソースが限られているエッジデバイスでは、効率と精度の両方が重要です。
ただし、以前のフレームワーク、たとえば、絶対ポーズ回帰(APR)、シーン座標回帰(SCR)、および階層法(HM)は、屋内環境と屋外環境の両方で精度または効率を制限しています。
このホワイトペーパーでは、3Dランドマークを認識して視覚的なローカリゼーションを効率的かつ正確に実行するための新しいフレームワークであるPlace認識モデル(PRAM)を提案します。
具体的には、PRAMは最初に、自己補助的な方法で3Dスペースで直接ランドマークを生成します。
一般的に使用される古典的なセマンティックラベルに依存することなく、これらの3Dランドマークは、一般化能力が高い屋内および屋外シーンの任意の場所で定義できます。
3Dランドマークでマップを表すと、Pramはグローバルな記述子、繰り返しローカル記述子、および冗長な3Dポイントを破棄し、メモリ効率を大幅に向上させます。
次に、密なピクセルではなく、スパースキーポイントが、ランドマーク認識のためにトランスベースの認識モジュールへの入力トークンとして利用されます。
テスト時には、スパースキーポイントと予測されたランドマークラベルは、徹底的な2D-2Dマッチングとは対照的に、外れ値の除去とランドマークの2D-3Dマッチングに使用され、時間の効率がさらに向上します。
屋内および屋外の両方のデータセットでのAPR、SCR、HMS、およびPRAMの包括的な評価は、PRAMが大規模なマージンでARPとSCRSを大幅に上回り、HMSに競争力のある精度を上回り、90 \%メモリコストを削減し、2.4倍の速度を高めることを示しています。
要約(オリジナル)
Visual localization is a key technique to a variety of applications, e.g., autonomous driving, AR/VR, and robotics. For these real applications, both efficiency and accuracy are important especially on edge devices with limited computing resources. However, previous frameworks, e.g., absolute pose regression (APR), scene coordinate regression (SCR), and the hierarchical method (HM), have limited either accuracy or efficiency in both indoor and outdoor environments. In this paper, we propose the place recognition anywhere model (PRAM), a new framework, to perform visual localization efficiently and accurately by recognizing 3D landmarks. Specifically, PRAM first generates landmarks directly in 3D space in a self-supervised manner. Without relying on commonly used classic semantic labels, these 3D landmarks can be defined in any place in indoor and outdoor scenes with higher generalization ability. Representing the map with 3D landmarks, PRAM discards global descriptors, repetitive local descriptors, and redundant 3D points, increasing the memory efficiency significantly. Then, sparse keypoints, rather than dense pixels, are utilized as the input tokens to a transformer-based recognition module for landmark recognition, which enables PRAM to recognize hundreds of landmarks with high time and memory efficiency. At test time, sparse keypoints and predicted landmark labels are utilized for outlier removal and landmark-wise 2D-3D matching as opposed to exhaustive 2D-2D matching, which further increases the time efficiency. A comprehensive evaluation of APRs, SCRs, HMs, and PRAM on both indoor and outdoor datasets demonstrates that PRAM outperforms ARPs and SCRs in large-scale scenes with a large margin and gives competitive accuracy to HMs but reduces over 90\% memory cost and runs 2.4 times faster, leading to a better balance between efficiency and accuracy.
arxiv情報
著者 | Fei Xue,Ignas Budvytis,Roberto Cipolla |
発行日 | 2025-03-07 14:51:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google