要約
画像の位置を識別するタスクである地理配位には、複雑な推論が必要であり、ナビゲーション、監視、文化的保存に不可欠です。
ただし、現在の方法は、多くの場合、粗く、不正確な、および解釈できないローカリゼーションを生成します。
主要な課題は、既存のジオロケーションデータセットの品質と規模にあります。
これらのデータセットは通常、小規模で自動的に構築されているため、騒々しいデータと一貫性のないタスクの難易度が発生し、回答が簡単すぎるか、信頼できる推論のための十分な手がかりがない画像があります。
これらの課題に対処するために、3つの重要なコンポーネントを備えた包括的なジオロケーションフレームワークを紹介します。GeoComp、大規模なデータセット。
GeoCot、斬新な推論方法。
そして、ジオヴァルは、重要な課題に対処し、地球採点研究の進歩を促進するように集合的に設計されています。
このフレームワークの中核は、2年間にわたって740Kユーザーが関与するジオロケーションゲームプラットフォームから収集された大規模なデータセットであるGeoComp(Geolocation Competition Dataset)です。
それは、2500万のメタデータと300万の地球タグ付きの場所で構成されており、各場所は人間のユーザーによって数千から数万回注釈を付けました。
データセットは、詳細な分析のために多様な難易度レベルを提供し、現在のモデルの重要なギャップを強調しています。
このデータセットに基づいて、地理的なチェーン(GeoCot)を提案します。これは、地理的視力モデル(LVM)の推論機能を強化するために設計された新しいマルチステップ推論フレームワークです。
GeoCotは、人間の地理的推論を模倣するマルチステッププロセスを通じて、コンテキストと空間の手がかりを統合することにより、パフォーマンスを向上させます。
最後に、Geoevalメトリックを使用して、GeoCotが解釈可能性を向上させながら、ジオロケーションの精度を最大25%増加させることを実証します。
要約(オリジナル)
Geolocation, the task of identifying an image’s location, requires complex reasoning and is crucial for navigation, monitoring, and cultural preservation. However, current methods often produce coarse, imprecise, and non-interpretable localization. A major challenge lies in the quality and scale of existing geolocation datasets. These datasets are typically small-scale and automatically constructed, leading to noisy data and inconsistent task difficulty, with images that either reveal answers too easily or lack sufficient clues for reliable inference. To address these challenges, we introduce a comprehensive geolocation framework with three key components: GeoComp, a large-scale dataset; GeoCoT, a novel reasoning method; and GeoEval, an evaluation metric, collectively designed to address critical challenges and drive advancements in geolocation research. At the core of this framework is GeoComp (Geolocation Competition Dataset), a large-scale dataset collected from a geolocation game platform involving 740K users over two years. It comprises 25 million entries of metadata and 3 million geo-tagged locations spanning much of the globe, with each location annotated thousands to tens of thousands of times by human users. The dataset offers diverse difficulty levels for detailed analysis and highlights key gaps in current models. Building on this dataset, we propose Geographical Chain-of-Thought (GeoCoT), a novel multi-step reasoning framework designed to enhance the reasoning capabilities of Large Vision Models (LVMs) in geolocation tasks. GeoCoT improves performance by integrating contextual and spatial cues through a multi-step process that mimics human geolocation reasoning. Finally, using the GeoEval metric, we demonstrate that GeoCoT significantly boosts geolocation accuracy by up to 25% while enhancing interpretability.
arxiv情報
著者 | Zirui Song,Jingpu Yang,Yuan Huang,Jonathan Tonglet,Zeyu Zhang,Tao Cheng,Meng Fang,Iryna Gurevych,Xiuying Chen |
発行日 | 2025-02-19 14:21:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google