VLM-RRT: Vision Language Model Guided RRT Search for Autonomous UAV Navigation

要約

パス計画は、自律的な無人航空機(UAV)の基本的な能力であり、障害を避けながらターゲット領域に向かって効率的にナビゲートしたり、複雑な環境を探索したりすることができます。
迅速に発表されたランダムツリー(RRT)などの従来のパスプランニング方法は、効果的であることが証明されていますが、しばしば重要な課題に遭遇しています。
これらには、高い検索スペースの複雑さ、最適ではないパスの品質、および収束が遅いことに、迅速かつ効率的な計画が重要な災害対応などのハイステークスアプリケーションで特に問題がある問題が含まれます。
これらの制限に対処し、パス計画効率を高めるために、Vision言語モデルRRT(VLM-RRT)を提案します。これは、Vision言語モデル(VLM)のパターン認識能力をRRTのパス計画強度と統合するハイブリッドアプローチです。
VLMを活用して環境スナップショットに基づいて初期の方向ガイダンスを提供することにより、メソッドバイアスは、実現可能なパスを含む可能性が高い地域にサンプリングし、サンプリング効率とパスの品質を大幅に改善します。
さまざまな最先端のVLMを使用した広範な定量的および定性的実験は、この提案されたアプローチの有効性を示しています。

要約(オリジナル)

Path planning is a fundamental capability of autonomous Unmanned Aerial Vehicles (UAVs), enabling them to efficiently navigate toward a target region or explore complex environments while avoiding obstacles. Traditional pathplanning methods, such as Rapidly-exploring Random Trees (RRT), have proven effective but often encounter significant challenges. These include high search space complexity, suboptimal path quality, and slow convergence, issues that are particularly problematic in high-stakes applications like disaster response, where rapid and efficient planning is critical. To address these limitations and enhance path-planning efficiency, we propose Vision Language Model RRT (VLM-RRT), a hybrid approach that integrates the pattern recognition capabilities of Vision Language Models (VLMs) with the path-planning strengths of RRT. By leveraging VLMs to provide initial directional guidance based on environmental snapshots, our method biases sampling toward regions more likely to contain feasible paths, significantly improving sampling efficiency and path quality. Extensive quantitative and qualitative experiments with various state-of-the-art VLMs demonstrate the effectiveness of this proposed approach.

arxiv情報

著者 Jianlin Ye,Savvas Papaioannou,Panayiotis Kolios
発行日 2025-05-29 09:15:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク