PIGEON: Predicting Image Geolocations

要約

地球規模の画像の地理的位置特定は、世界中のあらゆる場所から発信された画像の多様性のため、依然として困難な問題です。
ビジョントランスフォーマーに基づくアプローチは地理位置特定の精度において大幅な進歩を遂げましたが、先行文献での成功はランドマークの画像の狭い分布に限定されており、パフォーマンスは目に見えない場所にまで一般化されていません。
セマンティックなジオセルの作成、マルチタスクの対照的な事前学習、および新しい損失関数を組み合わせた新しい地理位置特定システムを紹介します。
さらに、私たちの仕事は、推測を絞り込むために位置クラスターの取得を実行する最初の作業です。
私たちは、ストリートレベルのデータと汎用画像の地理的位置推定の評価のために 2 つのモデルをトレーニングします。
最初のモデルである PIGEON は、Geoguessr ゲームのデータに基づいてトレーニングされており、世界中の目標位置から 25 キロメートル以内に推測の 40% 以上を当てることができます。
また、ボットを開発し、人間に対する盲目的実験で PIGEON を導入し、プレイヤーの上位 0.01% にランクされます。
さらに、世界有数のプロの Geoguessr プレイヤーの 1 人に、何百万人もの視聴者が参加する 6 試合のシリーズに挑戦し、6 試合すべてに勝利します。
2 番目のモデルである PIGEOTTO は、Flickr と Wikipedia からの画像のデータセットでトレーニングされている点が異なり、広範囲の画像地理位置推定ベンチマークで最先端の結果を達成し、以前の SOTA を最大 7.7 パーセントポイント上回っています。
都市の精度レベルでは最大 38.8 パーセント ポイント、国レベルでは最大 38.8 パーセント ポイントです。
私たちの調査結果は、PIGEOTTO が目に見えない場所を効果的に一般化する最初の画像地理位置情報モデルであり、私たちのアプローチが高精度の惑星規模の画像地理位置情報システムへの道を切り開く可能性があることを示唆しています。
私たちのコードは GitHub で入手できます。

要約(オリジナル)

Planet-scale image geolocalization remains a challenging problem due to the diversity of images originating from anywhere in the world. Although approaches based on vision transformers have made significant progress in geolocalization accuracy, success in prior literature is constrained to narrow distributions of images of landmarks, and performance has not generalized to unseen places. We present a new geolocalization system that combines semantic geocell creation, multi-task contrastive pretraining, and a novel loss function. Additionally, our work is the first to perform retrieval over location clusters for guess refinements. We train two models for evaluations on street-level data and general-purpose image geolocalization; the first model, PIGEON, is trained on data from the game of Geoguessr and is capable of placing over 40% of its guesses within 25 kilometers of the target location globally. We also develop a bot and deploy PIGEON in a blind experiment against humans, ranking in the top 0.01% of players. We further challenge one of the world’s foremost professional Geoguessr players to a series of six matches with millions of viewers, winning all six games. Our second model, PIGEOTTO, differs in that it is trained on a dataset of images from Flickr and Wikipedia, achieving state-of-the-art results on a wide range of image geolocalization benchmarks, outperforming the previous SOTA by up to 7.7 percentage points on the city accuracy level and up to 38.8 percentage points on the country level. Our findings suggest that PIGEOTTO is the first image geolocalization model that effectively generalizes to unseen places and that our approach can pave the way for highly accurate, planet-scale image geolocalization systems. Our code is available on GitHub.

arxiv情報

著者 Lukas Haas,Michal Skreta,Silas Alberti,Chelsea Finn
発行日 2023-12-17 12:10:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク