3DoF Localization from a Single Image and an Object Map: the Flatlandia Problem and Dataset


従来のビジュアルローカライゼーションは、驚くべき精度を実現しますが、シーンの広範な 3D モデルや地理ローカライズされた画像の大規模なコレクションに依存しており、多くの場合、新しい環境に合わせて保存したり拡張したりするのが非効率的です。
対照的に、人間は、明確に識別可能なランドマークの位置を使用して、非常に抽象的な 2D マップを使用して自分自身の位置を確認します。
これと、2D 抽象マップでのローカリゼーションを探求した最近の研究の成功を踏まえて、私たちは視覚的なローカリゼーションへの新しい挑戦である Flatlandia を提案します。
Flatlandia では、検出された一般的なオブジェクトのレイアウトを、マップ内のオブジェクトの既知の空間レイアウトと比較することで、視覚的なクエリの位置を特定できるかどうかを調査します。
私たちは、問題とその考えられる制限を調査するために、この課題を精度の異なる 2 つのタスクとして形式化します。
それぞれについて、初期のベースライン モデルを提案し、それらを最先端の 6DoF および 3DoF 手法と比較します。
コードとデータセットは、github.com/IIT-PAVIS/Flatlandia で公開されています。


Efficient visual localization is crucial to many applications, such as large-scale deployment of autonomous agents and augmented reality. Traditional visual localization, while achieving remarkable accuracy, relies on extensive 3D models of the scene or large collections of geolocalized images, which are often inefficient to store and to scale to novel environments. In contrast, humans orient themselves using very abstract 2D maps, using the location of clearly identifiable landmarks. Drawing on this and on the success of recent works that explored localization on 2D abstract maps, we propose Flatlandia, a novel visual localization challenge. With Flatlandia, we investigate whether it is possible to localize a visual query by comparing the layout of its common objects detected against the known spatial layout of objects in the map. We formalize the challenge as two tasks at different levels of accuracy to investigate the problem and its possible limitations; for each, we propose initial baseline models and compare them against state-of-the-art 6DoF and 3DoF methods. Code and dataset are publicly available at github.com/IIT-PAVIS/Flatlandia.


著者 Matteo Toso,Matteo Taiana,Stuart James,Alessio Del Bue
発行日 2023-11-08 14:43:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク