PRAM: Place Recognition Anywhere Model for Efficient Visual Localization

要約

人間は、最初に特定の物体に定義されたランドマークとそれらの空間的関係を認識し、次に認識された物体の詳細な構造を記憶内の構造と一致させることによって位置を確認することにより、既知の環​​境内で効率的に自分自身の位置を特定します。
これにヒントを得て、人間と同じように視覚的な位置特定を効率的に実行するための場所認識どこでもモデル (PRAM) を提案します。
PRAM は、認識と登録という 2 つの主要コンポーネントで構成されます。
詳細には、まず、自己監視型の地図中心のランドマーク定義戦略が採用され、屋内または屋外のシーンの場所が固有のランドマークとして機能します。
次に、画像から抽出されたまばらなキーポイントが、ランドマーク認識のためのトランスフォーマーベースのディープ ニューラル ネットワークへの入力として利用されます。
これらのキーポイントにより、PRAM は高い時間とメモリ効率で数百のランドマークを認識できるようになります。
キーポイントと認識されたランドマーク ラベルは、クエリ画像と 3D ランドマーク マップ間の位置合わせにさらに使用されます。
以前の階層方式とは異なり、PRAM はグローバル記述子とローカル記述子を破棄し、90% 以上のストレージを削減します。
PRAM は認識とランドマークごとの検証を利用して、それぞれグローバル参照検索と徹底的なマッチングを置き換えるため、従来の最先端のアプローチよりも 2.4 倍高速に実行されます。
さらに、PRAM は、マルチモダリティ ローカライゼーション、マップ中心の特徴学習、階層的シーン座標回帰など、視覚的ローカライゼーションの新しい方向性を切り開きます。

要約(オリジナル)

Humans localize themselves efficiently in known environments by first recognizing landmarks defined on certain objects and their spatial relationships, and then verifying the location by aligning detailed structures of recognized objects with those in the memory. Inspired by this, we propose the place recognition anywhere model (PRAM) to perform visual localization as efficiently as humans do. PRAM consists of two main components – recognition and registration. In detail, first of all, a self-supervised map-centric landmark definition strategy is adopted, making places in either indoor or outdoor scenes act as unique landmarks. Then, sparse keypoints extracted from images, are utilized as the input to a transformer-based deep neural network for landmark recognition; these keypoints enable PRAM to recognize hundreds of landmarks with high time and memory efficiency. Keypoints along with recognized landmark labels are further used for registration between query images and the 3D landmark map. Different from previous hierarchical methods, PRAM discards global and local descriptors, and reduces over 90% storage. Since PRAM utilizes recognition and landmark-wise verification to replace global reference search and exhaustive matching respectively, it runs 2.4 times faster than prior state-of-the-art approaches. Moreover, PRAM opens new directions for visual localization including multi-modality localization, map-centric feature learning, and hierarchical scene coordinate regression.

arxiv情報

著者 Fei Xue,Ignas Budvytis,Roberto Cipolla
発行日 2024-04-11 14:28:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク