KiteRunner: Language-Driven Cooperative Local-Global Navigation Policy with UAV Mapping in Outdoor Environments

要約

オープンワールドの屋外環境での自律的なナビゲーションは、動的条件、長距離空間推論、および意味的理解を統合する上での課題に直面しています。
従来の方法は、地元の計画、グローバルな計画、セマンティックタスクの実行のバランスをとるのに苦労していますが、既存の大規模な言語モデル(LLM)はセマンティック理解を高めますが、空間的推論能力がありません。
拡散モデルはローカルの最適化に優れていますが、大規模な長距離ナビゲーションには不足しています。
これらのギャップに対処するために、このペーパーでは、UAVオルトフォトベースのグローバル計画と、オープンワールドシナリオでの長距離ナビゲーションのための拡散モデル駆動型ローカルパス生成を組み合わせた言語主導の協同組合のローカルグロバルナビゲーション戦略であるKiterunnerを提案します。
私たちの方法は、リアルタイムのUAVオルソフォトグラフィーを革新的に活用してグローバルな確率マップを構築し、自然言語の指示を解釈するためにクリップやGPTなどの大規模なモデルを統合しながら、ローカルプランナーの移動性ガイダンスを提供します。
実験では、Kiterunnerがそれぞれ、構造化された環境と非構造化されていない環境で最先端の方法よりもパス効率が5.6%および12.8%の改善を達成し、人間の介入と実行時間の大幅な削減を実現することを示しています。

要約(オリジナル)

Autonomous navigation in open-world outdoor environments faces challenges in integrating dynamic conditions, long-distance spatial reasoning, and semantic understanding. Traditional methods struggle to balance local planning, global planning, and semantic task execution, while existing large language models (LLMs) enhance semantic comprehension but lack spatial reasoning capabilities. Although diffusion models excel in local optimization, they fall short in large-scale long-distance navigation. To address these gaps, this paper proposes KiteRunner, a language-driven cooperative local-global navigation strategy that combines UAV orthophoto-based global planning with diffusion model-driven local path generation for long-distance navigation in open-world scenarios. Our method innovatively leverages real-time UAV orthophotography to construct a global probability map, providing traversability guidance for the local planner, while integrating large models like CLIP and GPT to interpret natural language instructions. Experiments demonstrate that KiteRunner achieves 5.6% and 12.8% improvements in path efficiency over state-of-the-art methods in structured and unstructured environments, respectively, with significant reductions in human interventions and execution time.

arxiv情報

著者 Shibo Huang,Chenfan Shi,Jian Yang,Hanlin Dong,Jinpeng Mi,Ke Li,Jianfeng Zhang,Miao Ding,Peidong Liang,Xiong You,Xian Wei
発行日 2025-03-11 11:44:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク