TGS: Trajectory Generation and Selection using Vision Language Models in Mapless Outdoor Environments

要約

建物、芝生、縁石などの構造化されていないオフロード地物を含む困難なシナリオにおける、現実世界のマップレス屋外ナビゲーションのためのマルチモーダル軌道生成および選択アルゴリズムを紹介します。
私たちの目標は、(1) 環境固有の通過可能性の制約を満たし、(2) 横断歩道や歩道などを移動するときに人間のような経路に一致する適切な軌道を計算することです。私たちの定式化では、次のように強化された条件付き変分オートエンコーダー (CVAE) 生成モデルを使用します。
横断可能性制約を使用して、グローバル ナビゲーション用の複数の候補軌道を生成します。
私たちは、VLM と、意味論的な理解と論理的推論のゼロショット機能を備えた視覚的プロンプト アプローチを使用して、タスクに関するコンテキスト情報を考慮して最適な軌道を選択します。
車輪付きロボットを使用したさまざまな屋外シーンで手法を評価し、他のグローバル ナビゲーション アルゴリズムとパフォーマンスを比較します。
実際に、歩道や横断歩道などの困難な屋外ナビゲーション シナリオにおいて、生成された軌道での通過性が少なくとも 3.35% 向上し、人間のようなナビゲーションが 20.61% 向上したことが確認されています。

要約(オリジナル)

We present a multi-modal trajectory generation and selection algorithm for real-world mapless outdoor navigation in challenging scenarios with unstructured off-road features like buildings, grass, and curbs. Our goal is to compute suitable trajectories that (1) satisfy the environment-specific traversability constraints and (2) match human-like paths while navigating in crosswalks, sidewalks, etc. Our formulation uses a Conditional Variational Autoencoder (CVAE) generative model enhanced with traversability constraints to generate multiple candidate trajectories for global navigation. We use VLMs and a visual prompting approach with their zero-shot ability of semantic understanding and logical reasoning to choose the best trajectory given the contextual information about the task. We evaluate our methods in various outdoor scenes with wheeled robots and compare the performance with other global navigation algorithms. In practice, we observe at least 3.35% improvement in the traversability and 20.61% improvement in terms of human-like navigation in generated trajectories in challenging outdoor navigation scenarios, such as sidewalks, crosswalks, etc.

arxiv情報

著者 Daeun Song,Jing Liang,Xuesu Xiao,Dinesh Manocha
発行日 2024-08-05 13:25:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク