要約
無人航空機 (UAV) のクロスビュー地理位置特定 (CVGL) には、斜め UAV 画像と頭上の衛星画像の間の視界の不一致により、重大な課題が生じます。
既存の方法は、クロスビュー検索のために視点不変特徴を抽出するために、ラベル付きデータセットの監視に大きく依存しています。
ただし、これらの方法には高価なトレーニング コストがかかり、領域固有のキューに過剰適合する傾向があり、新しい領域への一般化可能性が限られています。
この問題を克服するために、衛星画像生成のために UAV 観測からシーン表現を 3D 空間に引き上げ、ビューの歪みに対して堅牢な表現を提供する教師なしソリューションを提案します。
衛星ビューによく似た直交画像を生成することにより、私たちの方法は、特徴表現におけるビューの不一致を減らし、地域固有の画像ペアリングにおけるショートカットを軽減します。
レンダリングされた画像の視点を実際の画像とさらに調整するために、潜在的な衛星ターゲットを使用してレンダリングされたクエリ画像を段階的に調整し、参照画像に対する空間オフセットを排除する反復的なカメラポーズ更新メカニズムを設計します。
さらに、この反復改良戦略は、反復全体にわたるビュー一貫性のある融合を通じて、ビュー間の特徴の不変性を強化します。
そのため、私たちの教師なしパラダイムは領域固有のオーバーフィッティングの問題を自然に回避し、特徴の微調整やデータ駆動型トレーニングを行わずに UAV 画像の汎用 CVGL を可能にします。
University-1652 および SUES-200 データセットでの実験は、私たちのアプローチが、さまざまな地域にわたって堅牢性を維持しながら地理位置特定の精度を大幅に向上させることを示しています。
特に、モデルの微調整やペアトレーニングを行わなくても、私たちの手法は、最近の教師あり手法と同等のパフォーマンスを達成します。
要約(オリジナル)
Unmanned Aerial Vehicle (UAV) Cross-View Geo-Localization (CVGL) presents significant challenges due to the view discrepancy between oblique UAV images and overhead satellite images. Existing methods heavily rely on the supervision of labeled datasets to extract viewpoint-invariant features for cross-view retrieval. However, these methods have expensive training costs and tend to overfit the region-specific cues, showing limited generalizability to new regions. To overcome this issue, we propose an unsupervised solution that lifts the scene representation to 3d space from UAV observations for satellite image generation, providing robust representation against view distortion. By generating orthogonal images that closely resemble satellite views, our method reduces view discrepancies in feature representation and mitigates shortcuts in region-specific image pairing. To further align the rendered image’s perspective with the real one, we design an iterative camera pose updating mechanism that progressively modulates the rendered query image with potential satellite targets, eliminating spatial offsets relative to the reference images. Additionally, this iterative refinement strategy enhances cross-view feature invariance through view-consistent fusion across iterations. As such, our unsupervised paradigm naturally avoids the problem of region-specific overfitting, enabling generic CVGL for UAV images without feature fine-tuning or data-driven training. Experiments on the University-1652 and SUES-200 datasets demonstrate that our approach significantly improves geo-localization accuracy while maintaining robustness across diverse regions. Notably, without model fine-tuning or paired training, our method achieves competitive performance with recent supervised methods.
arxiv情報
著者 | Haoyuan Li,Chang Xu,Wen Yang,Li Mi,Huai Yu,Haijian Zhang |
発行日 | 2024-11-22 09:22:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google