要約
Visual Place Recognition (VPR) は、多くのローカリゼーションおよびマッピング パイプラインで重要な役割を果たします。
これは、特定の埋め込み空間内で、ジオタグ付き参照のデータベースからクエリ画像に最も近いサンプルを取得することで構成されます。
画像の埋め込みは、見た目、視点、幾何学的変化の変化にもかかわらず、場所を効果的に説明するために学習されます。
この研究では、現在の VPR 埋め込みの地理的距離感度の制限により、高確率で上位 k の検索が誤ってソートされ、再現率に悪影響が及ぶ原因を定式化します。
単一ステージ VPR でこの問題に対処するために、視覚的に類似した画像のグラフからクリークをサンプリングすることで正の例と負の例を選択する新しいマイニング戦略 CliqueMining を提案します。
私たちのアプローチは、近距離範囲での VPR 埋め込みの感度を高め、関連するベンチマークの最先端を大幅に改善します。
特に、MSLS Challenge では再現率 @1 を 75% から 82% に、Nordland では 76% から 90% に引き上げました。
モデルとコードは https://github.com/serizba/cliquemining で入手できます。
要約(オリジナル)
Visual Place Recognition (VPR) plays a critical role in many localization and mapping pipelines. It consists of retrieving the closest sample to a query image, in a certain embedding space, from a database of geotagged references. The image embedding is learned to effectively describe a place despite variations in visual appearance, viewpoint, and geometric changes. In this work, we formulate how limitations in the Geographic Distance Sensitivity of current VPR embeddings result in a high probability of incorrectly sorting the top-k retrievals, negatively impacting the recall. In order to address this issue in single-stage VPR, we propose a novel mining strategy, CliqueMining, that selects positive and negative examples by sampling cliques from a graph of visually similar images. Our approach boosts the sensitivity of VPR embeddings at small distance ranges, significantly improving the state of the art on relevant benchmarks. In particular, we raise recall@1 from 75% to 82% in MSLS Challenge, and from 76% to 90% in Nordland. Models and code are available at https://github.com/serizba/cliquemining.
arxiv情報
著者 | Sergio Izquierdo,Javier Civera |
発行日 | 2024-07-02 16:49:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google