要約
大規模な言語およびビジョン言語モデル(LLMS/VLMS)に基づいて構築された、自律的なUAVミッション生成のためのスケーラブルなマルチエージェントフレームワークであるUAV共同体を提示します。
このシステムは、衛星画像、地上の自然言語の指示を解釈し、最小限の人間の監督でUAV軌道を共同で生成するために、React(Reason + Act)パラダイムを活用します。
コアコンポーネントは、航空マップ上のセマンティックターゲットの正確なローカリゼーションを可能にする視覚に基づいたピクセルポイントメカニズムです。
リアルタイムの適応性をサポートするために、リアクティブ思考ループを導入し、エージェントが観察を繰り返し反映し、ミッションの目標を修正し、進化する環境で動的に調整できるようにします。
UAV共同体は、産業および環境の火災検出を含む大規模なミッションシナリオで評価されます。
我々の結果は、デコード温度が低い(0.5)、平均ミッション作成時間が96.96秒、成功率が93%で、計画の信頼性が高く、実行時間が短縮されることを示しています。
さらに、9,000の注釈付き衛星画像でQWEN2.5VL-7Bを微調整し、多様な視覚カテゴリにわたって強力な空間的接地を達成します。
再現性と将来の研究を促進するために、Vision言語ベースのUAV計画のための完全なコードベースと新しいベンチマークデータセットをリリースします。
要約(オリジナル)
We present UAV-CodeAgents, a scalable multi-agent framework for autonomous UAV mission generation, built on large language and vision-language models (LLMs/VLMs). The system leverages the ReAct (Reason + Act) paradigm to interpret satellite imagery, ground high-level natural language instructions, and collaboratively generate UAV trajectories with minimal human supervision. A core component is a vision-grounded, pixel-pointing mechanism that enables precise localization of semantic targets on aerial maps. To support real-time adaptability, we introduce a reactive thinking loop, allowing agents to iteratively reflect on observations, revise mission goals, and coordinate dynamically in evolving environments. UAV-CodeAgents is evaluated on large-scale mission scenarios involving industrial and environmental fire detection. Our results show that a lower decoding temperature (0.5) yields higher planning reliability and reduced execution time, with an average mission creation time of 96.96 seconds and a success rate of 93%. We further fine-tune Qwen2.5VL-7B on 9,000 annotated satellite images, achieving strong spatial grounding across diverse visual categories. To foster reproducibility and future research, we will release the full codebase and a novel benchmark dataset for vision-language-based UAV planning.
arxiv情報
著者 | Oleg Sautenkov,Yasheerah Yaqoot,Muhammad Ahsan Mustafa,Faryal Batool,Jeffrin Sam,Artem Lykov,Chih-Yung Wen,Dzmitry Tsetserukou |
発行日 | 2025-05-12 05:23:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google