LeGo-Drive: Language-enhanced Goal-oriented Closed-Loop End-to-End Autonomous Driving

要約

既存の視覚言語モデル (VLM) は、豊富なシーン理解に基づいて、閉ループ計画のための事後解決策として長期軌道ウェイポイントまたは一連の制御アクションを推定します。
ただし、これらの推定は大まかであり、「世界理解」に主観的なものであり、認識エラーにより次善の決定が生じる可能性があります。
この論文では、エンドツーエンドの設定で中間表現として指定された言語コマンドに基づいてゴールの位置を推定することで、この問題に対処することを目的とした LeGo-Drive を紹介します。
推定された目標は、駐車のようなコマンドのための車の上など、望ましくない領域に位置する可能性があり、不適切な計画につながる可能性があります。
したがって、私たちはアーキテクチャをエンドツーエンドの方法でトレーニングし、目標と軌道の両方を集合的に反復的に改善することを提案します。
私たちは、さまざまな模擬環境で実施される包括的な実験を通じて、私たちの手法の有効性を検証します。
標準的な自動運転指標が大幅に向上し、成功率 81% を目標に掲げていることを報告します。
さらに、さまざまな運転シナリオや言語入力にわたる LeGo-Drive の多用途性を紹介し、自動運転車やインテリジェント交通システムでの実用的な展開の可能性を強調します。

要約(オリジナル)

Existing Vision-Language models (VLMs) estimate either long-term trajectory waypoints or a set of control actions as a reactive solution for closed-loop planning based on their rich scene comprehension. However, these estimations are coarse and are subjective to their ‘world understanding’ which may generate sub-optimal decisions due to perception errors. In this paper, we introduce LeGo-Drive, which aims to address this issue by estimating a goal location based on the given language command as an intermediate representation in an end-to-end setting. The estimated goal might fall in a non-desirable region, like on top of a car for a parking-like command, leading to inadequate planning. Hence, we propose to train the architecture in an end-to-end manner, resulting in iterative refinement of both the goal and the trajectory collectively. We validate the effectiveness of our method through comprehensive experiments conducted in diverse simulated environments. We report significant improvements in standard autonomous driving metrics, with a goal reaching Success Rate of 81%. We further showcase the versatility of LeGo-Drive across different driving scenarios and linguistic inputs, underscoring its potential for practical deployment in autonomous vehicles and intelligent transportation systems.

arxiv情報

著者 Pranjal Paul,Anant Garg,Tushar Choudhary,Arun Kumar Singh,K. Madhava Krishna
発行日 2024-03-29 10:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク