要約
画像ジオローカリゼーションは、画像の特定の位置を予測するタスクであり、視覚、地理的、文化的文脈を越えて複雑な推論を必要とします。
以前のビジョン言語モデル(VLM)はこのタスクで最高の精度を持っていますが、分析推論のための高品質のデータセットとモデルの不足があります。
最初に、人気の地理的ゲームであるGeoguessrから派生した高品質のデータセットであるNavicluesを作成して、言語から専門家の推論の例を提供します。
このデータセットを使用して、グローバルおよびファイングレインの画像情報を統合する包括的な画像ジオローカリゼーションフレームワークであるNavigを提示します。
言語で推論することにより、NAVIGは、1000未満のトレーニングサンプルを必要としながら、以前の最先端のモデルと比較して平均距離エラーを14%削減します。
データセットとコードは、https://github.com/sparrowzheyuan18/navig/で入手できます。
要約(オリジナル)
Image geo-localization is the task of predicting the specific location of an image and requires complex reasoning across visual, geographical, and cultural contexts. While prior Vision Language Models (VLMs) have the best accuracy at this task, there is a dearth of high-quality datasets and models for analytical reasoning. We first create NaviClues, a high-quality dataset derived from GeoGuessr, a popular geography game, to supply examples of expert reasoning from language. Using this dataset, we present Navig, a comprehensive image geo-localization framework integrating global and fine-grained image information. By reasoning with language, Navig reduces the average distance error by 14% compared to previous state-of-the-art models while requiring fewer than 1000 training samples. Our dataset and code are available at https://github.com/SparrowZheyuan18/Navig/.
arxiv情報
著者 | Zheyuan Zhang,Runze Li,Tasnim Kabir,Jordan Boyd-Graber |
発行日 | 2025-02-20 15:21:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google