VL-TGS: Trajectory Generation and Selection using Vision Language Models in Mapless Outdoor Environments

要約

人間中心の環境での実際の地図のない屋外ナビゲーションのためのマルチモーダル軌道生成と選択アルゴリズムを提示します。
このような環境には、横断歩道、草、縁石などの豊富な機能が含まれており、人間は簡単に解釈できますが、モバイルロボットではありません。
(1)環境固有の通過性の制約を満たし、(2)横断歩道、歩道などをナビゲートしながら人間のような経路を生成する適切な軌跡を計算することを目指しています。
グローバルナビゲーションの複数の候補の軌跡を生成するための制約。
視覚的なプロンプトアプローチを開発し、視覚言語モデル(VLM)のセマンティック理解と論理的推論のゼロショット能力を活用して、タスクに関するコンテキスト情報を考慮して最適な軌跡を選択します。
車輪付きロボットを使用したさまざまな屋外シーンでの方法を評価し、パフォーマンスを他のグローバルナビゲーションアルゴリズムと比較します。
実際には、4つの異なる屋外ナビゲーションシナリオでの人間のようなナビゲーションの観点から、満たす可能性のある制約において20.81%の平均改善が観察されています。

要約(オリジナル)

We present a multi-modal trajectory generation and selection algorithm for real-world mapless outdoor navigation in human-centered environments. Such environments contain rich features like crosswalks, grass, and curbs, which are easily interpretable by humans, but not by mobile robots. We aim to compute suitable trajectories that (1) satisfy the environment-specific traversability constraints and (2) generate human-like paths while navigating on crosswalks, sidewalks, etc. Our formulation uses a Conditional Variational Autoencoder (CVAE) generative model enhanced with traversability constraints to generate multiple candidate trajectories for global navigation. We develop a visual prompting approach and leverage the Visual Language Model’s (VLM) zero-shot ability of semantic understanding and logical reasoning to choose the best trajectory given the contextual information about the task. We evaluate our method in various outdoor scenes with wheeled robots and compare the performance with other global navigation algorithms. In practice, we observe an average improvement of 20.81% in satisfying traversability constraints and 28.51% in terms of human-like navigation in four different outdoor navigation scenarios.

arxiv情報

著者 Daeun Song,Jing Liang,Xuesu Xiao,Dinesh Manocha
発行日 2025-02-25 17:32:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク