OpenStreetView-5M: The Many Roads to Global Visual Geolocation

要約

地球上の任意の場所にある画像の位置を決定することは、視覚的に複雑なタスクであるため、コンピューター ビジョン アルゴリズムの評価に特に関連します。
しかし、確実に位置特定可能な画像を備えた標準的で大規模なオープンアクセス データセットが存在しないため、その可能性は限られています。
この問題に対処するために、225 の国と地域をカバーする 510 万を超える地理参照ストリート ビュー画像で構成される大規模なオープンアクセス データセットである OpenStreetView-5M を導入します。
既存のベンチマークとは対照的に、トレーニングとテストを厳密に分離することで、学習した地理的特徴の関連性を単なる暗記を超えて評価できるようになります。
データセットの有用性を実証するために、さまざまな最先端の画像エンコーダー、空間表現、トレーニング戦略について広範なベンチマークを実施しています。
関連するすべてのコードとモデルは、https://github.com/gastruc/osv5m で見つけることができます。

要約(オリジナル)

Determining the location of an image anywhere on Earth is a complex visual task, which makes it particularly relevant for evaluating computer vision algorithms. Yet, the absence of standard, large-scale, open-access datasets with reliably localizable images has limited its potential. To address this issue, we introduce OpenStreetView-5M, a large-scale, open-access dataset comprising over 5.1 million geo-referenced street view images, covering 225 countries and territories. In contrast to existing benchmarks, we enforce a strict train/test separation, allowing us to evaluate the relevance of learned geographical features beyond mere memorization. To demonstrate the utility of our dataset, we conduct an extensive benchmark of various state-of-the-art image encoders, spatial representations, and training strategies. All associated codes and models can be found at https://github.com/gastruc/osv5m.

arxiv情報

著者 Guillaume Astruc,Nicolas Dufour,Ioannis Siglidis,Constantin Aronssohn,Nacim Bouia,Stephanie Fu,Romain Loiseau,Van Nguyen Nguyen,Charles Raude,Elliot Vincent,Lintao XU,Hongyu Zhou,Loic Landrieu
発行日 2024-04-29 17:06:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク