ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks

要約

大規模な言語モデル(LLMS)の最近の進歩により、段階的な推論を通じて複雑な現実世界のタスクを解決できるツール編成エージェントが可能になりました。
ただし、既存の評価は、多くの場合、汎用またはマルチモーダルシナリオに焦点を当てており、複雑なリモートセンシングユースケースのツール使用機能を評価するドメイン固有のベンチマークにギャップを残します。
構造化されたツールの使用とマルチステップ計画を介して、リモートセンシングタスクでLLM駆動型エージェントを評価するために設計されたエージェントベンチマークであるThinkGeoを提示します。
ツール相互作用のパラダイムに触発されたThinkGeoには、都市計画、災害評価と変更分析、環境監視、輸送分析、航空監視、レクリエーションインフラストラクチャ、および産業サイト分析など、幅広い現実世界のアプリケーションにまたがる人間がキュレーションしたクエリが含まれています。
各クエリは衛星または空中画像に基づいており、エージェントが多様なツールセットを介して推論する必要があります。
反応スタイルの相互作用ループを実装し、436の構造化エージェントタスクでオープンおよびクローズドソースLLMS(例:GPT-4O、QWEN2.5)の両方を評価します。
ベンチマークは、段階的な実行メトリックと最終的な回答の正確性の両方をレポートします。
私たちの分析は、モデル間のツールの精度と計画の一貫性における顕著な格差を明らかにしています。
ThinkGeoは、ツール対応LLMがリモートセンシングでの空間推論をどのように処理するかを評価するための最初の広範なテストベッドを提供します。
コードとデータセットは公開されています

要約(オリジナル)

Recent progress in large language models (LLMs) has enabled tool-augmented agents capable of solving complex real-world tasks through step-by-step reasoning. However, existing evaluations often focus on general-purpose or multimodal scenarios, leaving a gap in domain-specific benchmarks that assess tool-use capabilities in complex remote sensing use cases. We present ThinkGeo, an agentic benchmark designed to evaluate LLM-driven agents on remote sensing tasks via structured tool use and multi-step planning. Inspired by tool-interaction paradigms, ThinkGeo includes human-curated queries spanning a wide range of real-world applications such as urban planning, disaster assessment and change analysis, environmental monitoring, transportation analysis, aviation monitoring, recreational infrastructure, and industrial site analysis. Each query is grounded in satellite or aerial imagery and requires agents to reason through a diverse toolset. We implement a ReAct-style interaction loop and evaluate both open and closed-source LLMs (e.g., GPT-4o, Qwen2.5) on 436 structured agentic tasks. The benchmark reports both step-wise execution metrics and final answer correctness. Our analysis reveals notable disparities in tool accuracy and planning consistency across models. ThinkGeo provides the first extensive testbed for evaluating how tool-enabled LLMs handle spatial reasoning in remote sensing. Our code and dataset are publicly available

arxiv情報

著者 Akashah Shabbir,Muhammad Akhtar Munir,Akshay Dudhane,Muhammad Umer Sheikh,Muhammad Haris Khan,Paolo Fraccaro,Juan Bernabe Moreno,Fahad Shahbaz Khan,Salman Khan
発行日 2025-05-29 17:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク