General-Purpose Aerial Intelligent Agents Empowered by Large Language Models

要約

大規模な言語モデル(LLMS)の出現は、無人航空機(UAVS)の新しいフロンティアを開きますが、既存のシステムは、ハードウェアソフトウェアの共同設定の課題により、事前定義されたタスクに限定されたままです。
このペーパーでは、LLMベースの推論とロボットの自律性を緊密に統合することにより、オープンワールドタスクの実行が可能な最初の空中インテリジェントエージェントを紹介します。
当社のハードウェアソフトウェアの共同設計システムは、2つの基本的な制限に対処します。(1)220Wピーク電力での14B-Parameterモデルの5-6トークン/SEC推論を達成するエッジ最適化コンピューティングプラットフォームを介したオンボードLLM操作。
(2)速いリアクティブ制御(状態推定、マッピング、障害物回避、およびモーション計画)で遅い審議計画(LLMタスク計画)を相乗する双方向の認知アーキテクチャ。
当社のプロトタイプを使用して予備的な結果を通じて検証されたこのシステムは、サトウキビの監視、電源グリッド検査、鉱山トンネル探査、生物学的観察アプリケーションなど、コミュニケーションが制約されている環境で信頼できるタスク計画とシーンの理解を示しています。
この作業は、具体化された航空人工知能のための新しいフレームワークを確立し、オープン環境でのタスク計画とロボットの自律性のギャップを埋めます。

要約(オリジナル)

The emergence of large language models (LLMs) opens new frontiers for unmanned aerial vehicle (UAVs), yet existing systems remain confined to predefined tasks due to hardware-software co-design challenges. This paper presents the first aerial intelligent agent capable of open-world task execution through tight integration of LLM-based reasoning and robotic autonomy. Our hardware-software co-designed system addresses two fundamental limitations: (1) Onboard LLM operation via an edge-optimized computing platform, achieving 5-6 tokens/sec inference for 14B-parameter models at 220W peak power; (2) A bidirectional cognitive architecture that synergizes slow deliberative planning (LLM task planning) with fast reactive control (state estimation, mapping, obstacle avoidance, and motion planning). Validated through preliminary results using our prototype, the system demonstrates reliable task planning and scene understanding in communication-constrained environments, such as sugarcane monitoring, power grid inspection, mine tunnel exploration, and biological observation applications. This work establishes a novel framework for embodied aerial artificial intelligence, bridging the gap between task planning and robotic autonomy in open environments.

arxiv情報

著者 Ji Zhao,Xiao Lin
発行日 2025-03-11 11:13:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク