LogisticsVLN: Vision-Language Navigation For Low-Altitude Terminal Delivery Based on Agentic UAVs

要約

インテリジェントロジスティクスの需要の増大、特に細粒のターミナルデリバリーは、自律UAV(無人航空機)ベースの配信システムの必要性を強調しています。
ただし、ほとんどの既存のラストマイル配信研究は地上ロボットに依存していますが、現在のUAVベースのビジョン言語ナビゲーション(VLN)タスクは、主に粗粒の長距離目標に焦点を当てており、正確な端子配信に不適切です。
このギャップを埋めるために、自律末端配信のためにマルチモーダル大手言語モデル(MLLM)に基づいて構築されたスケーラブルな空中配信システムであるLogisticsVlnを提案します。
LogisticsVLNは、リクエストの理解、床のローカリゼーション、オブジェクト検出、およびアクション決定の作成のためのモジュラーパイプラインに、軽量の大手言語モデル(LLMS)および視覚言語モデル(VLM)を統合します。
この新しい設定での研究と評価をサポートするために、Carlaシミュレーター内でVision-Language Delivery(VLD)データセットを構築します。
VLDデータセットの実験結果は、LogisticsVLNシステムの実現可能性を示しています。
さらに、システムの各モジュールのサブタスクレベルの評価を実施し、基礎モデルベースの視覚言語配信システムの堅牢性と実際の展開を改善するための貴重な洞察を提供します。

要約(オリジナル)

The growing demand for intelligent logistics, particularly fine-grained terminal delivery, underscores the need for autonomous UAV (Unmanned Aerial Vehicle)-based delivery systems. However, most existing last-mile delivery studies rely on ground robots, while current UAV-based Vision-Language Navigation (VLN) tasks primarily focus on coarse-grained, long-range goals, making them unsuitable for precise terminal delivery. To bridge this gap, we propose LogisticsVLN, a scalable aerial delivery system built on multimodal large language models (MLLMs) for autonomous terminal delivery. LogisticsVLN integrates lightweight Large Language Models (LLMs) and Visual-Language Models (VLMs) in a modular pipeline for request understanding, floor localization, object detection, and action-decision making. To support research and evaluation in this new setting, we construct the Vision-Language Delivery (VLD) dataset within the CARLA simulator. Experimental results on the VLD dataset showcase the feasibility of the LogisticsVLN system. In addition, we conduct subtask-level evaluations of each module of our system, offering valuable insights for improving the robustness and real-world deployment of foundation model-based vision-language delivery systems.

arxiv情報

著者 Xinyuan Zhang,Yonglin Tian,Fei Lin,Yue Liu,Jing Ma,Kornélia Sára Szatmáry,Fei-Yue Wang
発行日 2025-05-06 12:00:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク