要約
ポータブル 360$^\circ$ カメラは、大規模なビジュアル データベースを構築するための安価で効率的なツールになりつつあります。
これらのカメラは、シーンの全方位ビューをキャプチャすることで、視覚的な位置特定に不可欠な建築環境モデルを迅速に作成できる可能性があります。
しかし、貴重なデータセットが不足しているため、このような利点はしばしば見落とされます。
この論文では、視覚的な位置特定のためのグラウンド トゥルース ポーズを備えた 360$^\circ$ 画像で構成される新しいベンチマーク データセット 360Loc を紹介します。
360$^\circ$ 画像と LIDAR データを組み合わせて、グラウンド トゥルース 6DoF ポーズを生成する 360$^\circ$ マッピングの実用的な実装を紹介します。
360Loc は、360$^\circ$ 参照フレームと、ピンホール、超広角 FoV 魚眼、および 360$^\circ$ カメラからのクエリ フレームを含む、クロスデバイスの視覚的位置決めの課題を調査する最初のデータセットおよびベンチマークです。
我々は、360$^\circ$ 画像から低 FoV クエリ フレームを生成する仮想カメラ アプローチを提案します。これにより、視覚的位置特定タスクにおけるさまざまなクエリ タイプ間のパフォーマンスの公平な比較が保証されます。
また、この仮想カメラのアプローチを特徴マッチング ベースおよびポーズ回帰ベースの方法に拡張して、クロスデバイス ドメイン ギャップによって引き起こされるパフォーマンス損失を軽減し、最先端のベースラインに対してその有効性を評価します。
我々は、対称性と反復構造を持つ困難な大規模シーンにおいて、全方向視覚定位がより堅牢であることを実証します。
これらの結果は、クロスデバイス クエリによる 360 カメラ マッピングと全方向ビジュアル ローカライゼーションに関する新たな洞察を提供します。
要約(オリジナル)
Portable 360$^\circ$ cameras are becoming a cheap and efficient tool to establish large visual databases. By capturing omnidirectional views of a scene, these cameras could expedite building environment models that are essential for visual localization. However, such an advantage is often overlooked due to the lack of valuable datasets. This paper introduces a new benchmark dataset, 360Loc, composed of 360$^\circ$ images with ground truth poses for visual localization. We present a practical implementation of 360$^\circ$ mapping combining 360$^\circ$ images with lidar data to generate the ground truth 6DoF poses. 360Loc is the first dataset and benchmark that explores the challenge of cross-device visual positioning, involving 360$^\circ$ reference frames, and query frames from pinhole, ultra-wide FoV fisheye, and 360$^\circ$ cameras. We propose a virtual camera approach to generate lower-FoV query frames from 360$^\circ$ images, which ensures a fair comparison of performance among different query types in visual localization tasks. We also extend this virtual camera approach to feature matching-based and pose regression-based methods to alleviate the performance loss caused by the cross-device domain gap, and evaluate its effectiveness against state-of-the-art baselines. We demonstrate that omnidirectional visual localization is more robust in challenging large-scale scenes with symmetries and repetitive structures. These results provide new insights into 360-camera mapping and omnidirectional visual localization with cross-device queries.
arxiv情報
著者 | Huajian Huang,Changkun Liu,Yipeng Zhu,Hui Cheng,Tristan Braud,Sai-Kit Yeung |
発行日 | 2024-05-31 14:38:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google