GeoLLM-Engine: A Realistic Environment for Building Geospatial Copilots

要約

地理空間コパイロットは、自然言語命令を通じて地球観測 (EO) アプリケーションを実行する前例のない可能性を解き放ちます。
ただし、既存のエージェントは過度に簡素化された単一タスクとテンプレートベースのプロンプトに依存しており、現実世界のシナリオとの乖離が生じています。
この研究では、リモート センシング プラットフォーム上でアナリストによって日常的に実行される複雑なタスクを実行する、ツールで強化されたエージェントのための環境である GeoLLM-Engine を紹介します。
地理空間 API ツール、動的マップ/UI、外部のマルチモーダル知識ベースで環境を強化し、現実的な高レベルの自然言語コマンドを解釈するエージェントの習熟度や、タスク完了における機能の正確さを適切に評価します。
人間参加型のベンチマークキュレーションに通常伴うオーバーヘッドを軽減することで、100 個の GPT-4-Turbo ノード全体で大規模並列エンジンを利用し、50 万を超える多様なマルチツール タスクと 110 万枚の衛星画像にまで拡張できます。
従来の単一タスクの画像キャプションのパラダイムを超えて、長期的なプロンプトに対する最先端のエージェントとプロンプト技術を調査します。

要約(オリジナル)

Geospatial Copilots unlock unprecedented potential for performing Earth Observation (EO) applications through natural language instructions. However, existing agents rely on overly simplified single tasks and template-based prompts, creating a disconnect with real-world scenarios. In this work, we present GeoLLM-Engine, an environment for tool-augmented agents with intricate tasks routinely executed by analysts on remote sensing platforms. We enrich our environment with geospatial API tools, dynamic maps/UIs, and external multimodal knowledge bases to properly gauge an agent’s proficiency in interpreting realistic high-level natural language commands and its functional correctness in task completions. By alleviating overheads typically associated with human-in-the-loop benchmark curation, we harness our massively parallel engine across 100 GPT-4-Turbo nodes, scaling to over half a million diverse multi-tool tasks and across 1.1 million satellite images. By moving beyond traditional single-task image-caption paradigms, we investigate state-of-the-art agents and prompting techniques against long-horizon prompts.

arxiv情報

著者 Simranjit Singh,Michael Fore,Dimitrios Stamoulis
発行日 2024-04-23 20:23:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク