Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models

要約

画像の地理ローカリゼーションの以前の方法は、通常、タスクを分類または検索のいずれかとして扱い、多くの場合、解釈可能性を欠くブラックボックスの決定に依存しています。
大規模なビジョン言語モデル(LVLMS)の台頭により、視覚的な手がかりに基づいた推論主導型タスクとして地理ローカリゼーションの再考が可能になりました。
ただし、2つの主要な課題が続いています。
データ側では、既存の推論に焦点を当てたデータセットは主にStreet-View画像に基づいており、シーンの多様性と制約のある視点を提供します。
モデリング側では、現在のアプローチは主に監視された微調整に依存しており、これは推論能力のわずかな改善のみをもたらします。
これらの課題に対処するために、多様なソーシャルメディア画像を使用して、推論指向の地理ローカリゼーションデータセットMP16-Reasonを構築する新しいパイプラインを提案します。
Globe、locatability Assessmentのためのグループ相関ポリシーの最適化と最適化された視覚的なクルーの推論を紹介し、認識と推論でVLMの双目的の地理拡張をもたらします。
Globeには、位置性の評価、視覚的な手がかりの推論、および地理配分の精度を共同で強化するタスク固有の報酬が組み込まれています。
定性的および定量的な結果の両方が、グローブが地理的局在化タスク、特に多様な視覚的なシーンで最先端のオープンソースLVLMを上回ると同時に、より洞察に富んだ解釈可能な推論軌道を生成することを示しています。

要約(オリジナル)

Previous methods for image geo-localization have typically treated the task as either classification or retrieval, often relying on black-box decisions that lack interpretability. The rise of large vision-language models (LVLMs) has enabled a rethinking of geo-localization as a reasoning-driven task grounded in visual cues. However, two major challenges persist. On the data side, existing reasoning-focused datasets are primarily based on street-view imagery, offering limited scene diversity and constrained viewpoints. On the modeling side, current approaches predominantly rely on supervised fine-tuning, which yields only marginal improvements in reasoning capabilities. To address these challenges, we propose a novel pipeline that constructs a reasoning-oriented geo-localization dataset, MP16-Reason, using diverse social media images. We introduce GLOBE, Group-relative policy optimization for Locatability assessment and Optimized visual-clue reasoning, yielding Bi-objective geo-Enhancement for the VLM in recognition and reasoning. GLOBE incorporates task-specific rewards that jointly enhance locatability assessment, visual clue reasoning, and geolocation accuracy. Both qualitative and quantitative results demonstrate that GLOBE outperforms state-of-the-art open-source LVLMs on geo-localization tasks, particularly in diverse visual scenes, while also generating more insightful and interpretable reasoning trajectories.

arxiv情報

著者 Ling Li,Yao Zhou,Yuxuan Liang,Fugee Tsung,Jiaheng Wei
発行日 2025-06-17 16:07:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク