Game4Loc: A UAV Geo-Localization Benchmark from Game Data

要約

UAV 用のビジョンベースの地理位置特定テクノロジーは、全地球航法衛星システム (GNSS) に加えて GPS 情報の二次ソースとして機能し、GPS が拒否された環境でも独立して動作できます。
最近の深層学習ベースの手法では、これを画像のマッチングと検索のタスクとみなしています。
地理タグ付き衛星画像データベースからドローンビュー画像を取得することで、おおよその位置情報を取得できます。
ただし、コストが高く、プライバシーへの懸念があるため、連続した領域からドローンから見た画像を大量に取得することは通常困難です。
既存のドローン ビュー データセットは、ほとんどが小規模な航空写真で構成されており、あらゆるクエリに対して完全に 1 対 1 に位置合わせされた参照画像が存在するという強い前提があり、実際の位置特定シナリオとは大きなギャップが残されています。
この作業では、最新のコンピューター ゲームを使用して、複数の飛行高度、姿勢、シーン、ターゲットを特徴とする GTA-UAV という広範囲の連続領域 UAV 地理位置特定データセットを構築します。
このデータセットに基づいて、クロスビューペアデータの部分一致を含む、より実用的な UAV 地理位置特定タスクを導入し、画像レベルの検索を距離 (メートル) の観点からの実際の位置特定に拡張します。
ドローン ビューと衛星ビューのペアの構築には、重みベースの対照学習アプローチを採用しています。これにより、追加の後処理マッチング ステップを回避しながら効果的な学習が可能になります。
実験では、UAV の地理位置特定のためのデータとトレーニング方法の有効性、および現実世界のシナリオへの一般化機能が実証されています。

要約(オリジナル)

The vision-based geo-localization technology for UAV, serving as a secondary source of GPS information in addition to the global navigation satellite systems (GNSS), can still operate independently in the GPS-denied environment. Recent deep learning based methods attribute this as the task of image matching and retrieval. By retrieving drone-view images in geo-tagged satellite image database, approximate localization information can be obtained. However, due to high costs and privacy concerns, it is usually difficult to obtain large quantities of drone-view images from a continuous area. Existing drone-view datasets are mostly composed of small-scale aerial photography with a strong assumption that there exists a perfect one-to-one aligned reference image for any query, leaving a significant gap from the practical localization scenario. In this work, we construct a large-range contiguous area UAV geo-localization dataset named GTA-UAV, featuring multiple flight altitudes, attitudes, scenes, and targets using modern computer games. Based on this dataset, we introduce a more practical UAV geo-localization task including partial matches of cross-view paired data, and expand the image-level retrieval to the actual localization in terms of distance (meters). For the construction of drone-view and satellite-view pairs, we adopt a weight-based contrastive learning approach, which allows for effective learning while avoiding additional post-processing matching steps. Experiments demonstrate the effectiveness of our data and training method for UAV geo-localization, as well as the generalization capabilities to real-world scenarios.

arxiv情報

著者 Yuxiang Ji,Boyong He,Zhuoyue Tan,Liaoni Wu
発行日 2024-09-25 13:33:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク