G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models

要約

世界規模の地理位置特定は、地球上の任意の場所で撮影された写真の座標レベルで正確な位置を特定することを目的としています。
これは、1) 微妙な位置認識視覚セマンティクスをキャプチャすることが難しいこと、2) 画像データが地理的に不均一に分布していることにより、非常に困難です。
その結果、既存の研究は、世界規模の状況に拡大した場合、明らかな限界があります。
遠くにある画像を同様の視覚コンテンツと混同しやすい場合や、関連データの量が異なる世界中のさまざまな場所に適応できない場合があります。
これらの制限を解決するために、我々は、検索拡張生成 (RAG) に基づく新しいフレームワークである G3 を提案します。
特に、G3 は 3 つのステップ、つまり地理位置合わせ、地理多様化、および地理検証の 3 つのステップで構成され、世界規模の地理位置特定の取得フェーズと生成フェーズの両方を最適化します。
地理位置合わせ中に、私たちのソリューションは、画像、GPS、およびテキスト説明の表現力豊かなマルチモーダル表現を共同で学習します。これにより、特定のクエリに対して近くの画像を取得するための位置認識セマンティクスをキャプチャできるようになります。
地理的多様化の際、さまざまな画像クエリに対する一貫性のない検索パフォーマンスに対して堅牢なプロンプト アンサンブル手法を活用します。
最後に、位置予測のための地理検証で、取得された GPS 候補と生成された GPS 候補の両方を組み合わせます。
2 つの十分に確立されたデータセット IM2GPS3k および YFCC4k を用いた実験により、他の最先端の方法と比較した G3 の優位性が検証されています。

要約(オリジナル)

Worldwide geolocalization aims to locate the precise location at the coordinate level of photos taken anywhere on the Earth. It is very challenging due to 1) the difficulty of capturing subtle location-aware visual semantics, and 2) the heterogeneous geographical distribution of image data. As a result, existing studies have clear limitations when scaled to a worldwide context. They may easily confuse distant images with similar visual contents, or cannot adapt to various locations worldwide with different amounts of relevant data. To resolve these limitations, we propose G3, a novel framework based on Retrieval-Augmented Generation (RAG). In particular, G3 consists of three steps, i.e., Geo-alignment, Geo-diversification, and Geo-verification to optimize both retrieval and generation phases of worldwide geolocalization. During Geo-alignment, our solution jointly learns expressive multi-modal representations for images, GPS and textual descriptions, which allows us to capture location-aware semantics for retrieving nearby images for a given query. During Geo-diversification, we leverage a prompt ensembling method that is robust to inconsistent retrieval performance for different image queries. Finally, we combine both retrieved and generated GPS candidates in Geo-verification for location prediction. Experiments on two well-established datasets IM2GPS3k and YFCC4k verify the superiority of G3 compared to other state-of-the-art methods.

arxiv情報

著者 Pengyue Jia,Yiding Liu,Xiaopeng Li,Xiangyu Zhao,Yuhao Wang,Yantong Du,Xiao Han,Xuetao Wei,Shuaiqiang Wang,Dawei Yin
発行日 2024-05-23 15:37:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク