PanoVPR: Towards Unified Perspective-to-Equirectangular Visual Place Recognition via Sliding Windows across the Panoramic View

要約

視覚的な場所認識は、自動運転やロボット工学における重要な技術として近年大きな注目を集めています。
現在、2 つの主なアプローチは、透視図検索 (P2P) パラダイムと正距円筒図法画像検索 (E2E) パラダイムです。
ただし、ユーザーがクエリの透視画像を取得し、それを地図プロバ​​イダーからパノラマ データベース画像で取得するために、消費者向けのピンホール カメラしか持っていないことを想定するのが現実的かつ自然です。
これに対処するために、私たちは \textit{PanoVPR} を提案します。これは、スライディング ウィンドウを使用してハード クロッピングによって引き起こされる特徴の切り捨てを排除する、遠近法から正距円筒図法 (P2E) の視覚的場所認識フレームワークです。
具体的には、PanoVPR は正距円筒図法画像全体でウィンドウをスライドさせ、各ウィンドウの特徴記述子を計算し、それを比較して場所の類似性を判断します。
特に、当社の統合フレームワークにより、変更を加えることなく P2P メソッドからバックボーンを直接転送でき、CNN だけでなくトランスフォーマーもサポートされます。
トレーニングと評価を容易にするために、Pitts250k から Pitts250k-P2E データセットを導出し、YQ360 を確立します。YQ360 は、現実世界のタスク シナリオをより適切にシミュレートすることを目的として、モバイル ロボット プラットフォームによって収集された最初の P2E 視覚的場所認識データセットです。
広範な実験により、PanoVPR が最先端のパフォーマンスを達成し、以前の最良の方法と比較して、Pitts250k-P2E と YQ360 でそれぞれ 3.8% と 8.0% のパフォーマンス向上が得られることが実証されました。
コードとデータセットは https://github.com/zafirshi/PanoVPR で公開されます。

要約(オリジナル)

Visual place recognition has gained significant attention in recent years as a crucial technology in autonomous driving and robotics. Currently, the two main approaches are the perspective view retrieval (P2P) paradigm and the equirectangular image retrieval (E2E) paradigm. However, it is practical and natural to assume that users only have consumer-grade pinhole cameras to obtain query perspective images and retrieve them in panoramic database images from map providers. To address this, we propose \textit{PanoVPR}, a perspective-to-equirectangular (P2E) visual place recognition framework that employs sliding windows to eliminate feature truncation caused by hard cropping. Specifically, PanoVPR slides windows over the entire equirectangular image and computes feature descriptors for each window, which are then compared to determine place similarity. Notably, our unified framework enables direct transfer of the backbone from P2P methods without any modification, supporting not only CNNs but also Transformers. To facilitate training and evaluation, we derive the Pitts250k-P2E dataset from the Pitts250k and establish YQ360, latter is the first P2E visual place recognition dataset collected by a mobile robot platform aiming to simulate real-world task scenarios better. Extensive experiments demonstrate that PanoVPR achieves state-of-the-art performance and obtains 3.8% and 8.0% performance gain on Pitts250k-P2E and YQ360 compared to the previous best method, respectively. Code and datasets will be publicly available at https://github.com/zafirshi/PanoVPR.

arxiv情報

著者 Ze Shi,Hao Shi,Kailun Yang,Zhe Yin,Yining Lin,Kaiwei Wang
発行日 2023-07-28 04:53:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV パーマリンク