Words to Wheels: Vision-Based Autonomous Driving Understanding Human Language Instructions Using Foundation Models

要約

この論文では、RGB-D カメラを搭載した無人地上車両 (UGV) が人間の言語の指示に基づいて指定された目的地まで移動できるようにする、基礎モデルの革新的なアプリケーションを紹介します。
学習ベースの方法とは異なり、このアプローチは事前のトレーニングを必要とせず、代わりに既存の基礎モデルを活用するため、新しい環境への一般化が容易になります。
人間の言語による指示を受け取ると、これらは大規模言語モデル (LLM) を使用した「認知ルート記述」、つまり人間の言語で表現された詳細なナビゲーション ルートに変換されます。
次に、車両はこの記述をランドマークとナビゲーション操作に分解します。
この車両はまた、オープン データセットでトレーニングされた地形セグメンテーション モデル (GANav) を通じて、標高コストを決定し、さまざまな地域のナビゲーション レベルを識別します。
標高とナビゲーション可能性レベルの両方を考慮した意味論的標高コストが推定され、ローカル パス計画を担当するモデル予測パス積分 (MPPI) プランナーに提供されます。
同時に、車両は YOLO-World や EfficientViT-SAM などの基礎モデルを使用してターゲットのランドマークを検索します。
最終的に、車両はナビゲーション コマンドを実行して、指定された目的地、つまり最終ランドマークに到達します。
私たちの実験では、このアプリケーションが、なじみのない地形や都市環境などの新しい環境において、人間の言語の指示に従って UGV を目的地までうまく誘導できることが実証されました。

要約(オリジナル)

This paper introduces an innovative application of foundation models, enabling Unmanned Ground Vehicles (UGVs) equipped with an RGB-D camera to navigate to designated destinations based on human language instructions. Unlike learning-based methods, this approach does not require prior training but instead leverages existing foundation models, thus facilitating generalization to novel environments. Upon receiving human language instructions, these are transformed into a ‘cognitive route description’ using a large language model (LLM)-a detailed navigation route expressed in human language. The vehicle then decomposes this description into landmarks and navigation maneuvers. The vehicle also determines elevation costs and identifies navigability levels of different regions through a terrain segmentation model, GANav, trained on open datasets. Semantic elevation costs, which take both elevation and navigability levels into account, are estimated and provided to the Model Predictive Path Integral (MPPI) planner, responsible for local path planning. Concurrently, the vehicle searches for target landmarks using foundation models, including YOLO-World and EfficientViT-SAM. Ultimately, the vehicle executes the navigation commands to reach the designated destination, the final landmark. Our experiments demonstrate that this application successfully guides UGVs to their destinations following human language instructions in novel environments, such as unfamiliar terrain or urban settings.

arxiv情報

著者 Chanhoe Ryu,Hyunki Seong,Daegyu Lee,Seongwoo Moon,Sungjae Min,D. Hyunchul Shim
発行日 2024-10-14 14:51:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク