要約
ストリートビュー画像は、さまざまな場所を遠隔地から探索する新しい体験を私たちに提供します。
慎重に調整されたストリートビュー画像 (Google ストリート ビューなど) は、さまざまな下流タスクに使用できます。
ナビゲーション、地図の特徴の抽出。
個人用の高品質カメラがはるかに手頃な価格で持ち運びできるようになったことで、クラウドソーシングされた膨大な量のストリートビュー画像がインターネットにアップロードされていますが、通常はセンサー情報が欠落していたり、ノイズが多かったりします。
この隠された宝物を「すぐに使える」状態に準備するには、不足している位置情報とカメラの向きの角度を決定することが、同様に重要な 2 つのタスクです。
最近の方法では、地理参照衛星画像のプールとのクロスビューマッチングにより、ストリートビュー画像の地理位置特定において高いパフォーマンスが達成されています。
ただし、既存の研究のほとんどは、画像の方向の推定よりも地理位置特定に重点を置いています。
この研究では、ストリートビュー画像の詳細な方向を見つけることの重要性を改めて述べ、問題を正式に定義し、方向推定の品質を評価するための一連の評価指標を提供します。
方向推定の粒度を向上させる 2 つの方法を提案します。CVUSA および CVACT データセットの推定角度誤差が 2 度未満の画像に対して 82.4% および 72.3% の精度を達成します。これは、以前の研究と比較して 34.9% および 28.2% の絶対的な向上に相当します。
トレーニングにきめ細かい方向推定を統合すると、地理位置特定のパフォーマンスも向上し、2 つのデータセットに対する方向既知/未知テストで上位 1 の再現率が 95.5%/85.5%、86.8%/80.4% になりました。
要約(オリジナル)
Street-view imagery provides us with novel experiences to explore different places remotely. Carefully calibrated street-view images (e.g. Google Street View) can be used for different downstream tasks, e.g. navigation, map features extraction. As personal high-quality cameras have become much more affordable and portable, an enormous amount of crowdsourced street-view images are uploaded to the internet, but commonly with missing or noisy sensor information. To prepare this hidden treasure for ‘ready-to-use’ status, determining missing location information and camera orientation angles are two equally important tasks. Recent methods have achieved high performance on geo-localization of street-view images by cross-view matching with a pool of geo-referenced satellite imagery. However, most of the existing works focus more on geo-localization than estimating the image orientation. In this work, we re-state the importance of finding fine-grained orientation for street-view images, formally define the problem and provide a set of evaluation metrics to assess the quality of the orientation estimation. We propose two methods to improve the granularity of the orientation estimation, achieving 82.4% and 72.3% accuracy for images with estimated angle errors below 2 degrees for CVUSA and CVACT datasets, corresponding to 34.9% and 28.2% absolute improvement compared to previous works. Integrating fine-grained orientation estimation in training also improves the performance on geo-localization, giving top 1 recall 95.5%/85.5% and 86.8%/80.4% for orientation known/unknown tests on the two datasets.
arxiv情報
著者 | Wenmiao Hu,Yichen Zhang,Yuxuan Liang,Yifang Yin,Andrei Georgescu,An Tran,Hannes Kruppa,See-Kiong Ng,Roger Zimmermann |
発行日 | 2023-07-07 05:50:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google