Generalizing End-To-End Autonomous Driving In Real-World Environments Using Zero-Shot LLMs

要約

従来の自動運転方法はモジュール設計を採用しており、タスクをサブタスクに分解します。
対照的に、エンドツーエンドの自動運転では、生のセンサー データからアクションが直接出力され、エラーの蓄積が回避されます。
ただし、エンドツーエンドのモデルをトレーニングするには、包括的なデータセットが必要です。
そうしないと、モデルの一般化機能が不十分になります。
最近、大規模言語モデル (LLM) が適用されて、エンドツーエンドの運転モデル​​の一般化機能が強化されています。
ほとんどの研究では、出力アクションが現実世界からの直接フィードバックなしで専門家のアクションと比較される開ループ方式で LLM を調査しますが、シミュレーションのみで閉ループの結果を検証する研究もあります。
この論文では、実環境の閉ループ設定で動作するエンドツーエンドの運転モデル​​にマルチモーダル LLM を統合する効率的なアーキテクチャを提案します。
私たちのアーキテクチャでは、LLM は生のセンサー データを定期的に処理して高レベルの運転指示を生成し、生のセンサー データよりも遅い速度であってもエンドツーエンド モデルを効果的にガイドします。
このアーキテクチャにより、LLM の遅延と推論品質の間のトレードオフが緩和されます。
また、さまざまな LLM から選択して、高レベルの運転指示を改善し、微調整コストを最小限に抑えることもできます。
その結果、LLM はアクションを直接出力しないため、私たちのアーキテクチャではデータ収集要件が軽減されます。
アクションを出力するために単純な模倣学習モデルをトレーニングするだけで済みます。
私たちの実験では、実世界の環境におけるエンドツーエンド モデルのトレーニング データは、トラフィック コーンが 1 つある単純な障害物構成のみで構成されていますが、テスト環境はより複雑で、さまざまな位置に配置された複数の障害物が含まれています。
実験によれば、提案されたアーキテクチャは、LLM を微調整しなくても、エンドツーエンド モデルの一般化機能を強化します。

要約(オリジナル)

Traditional autonomous driving methods adopt a modular design, decomposing tasks into sub-tasks. In contrast, end-to-end autonomous driving directly outputs actions from raw sensor data, avoiding error accumulation. However, training an end-to-end model requires a comprehensive dataset; otherwise, the model exhibits poor generalization capabilities. Recently, large language models (LLMs) have been applied to enhance the generalization capabilities of end-to-end driving models. Most studies explore LLMs in an open-loop manner, where the output actions are compared to those of experts without direct feedback from the real world, while others examine closed-loop results only in simulations. This paper proposes an efficient architecture that integrates multimodal LLMs into end-to-end driving models operating in closed-loop settings in real-world environments. In our architecture, the LLM periodically processes raw sensor data to generate high-level driving instructions, effectively guiding the end-to-end model, even at a slower rate than the raw sensor data. This architecture relaxes the trade-off between the latency and inference quality of the LLM. It also allows us to choose from a wide variety of LLMs to improve high-level driving instructions and minimize fine-tuning costs. Consequently, our architecture reduces data collection requirements because the LLMs do not directly output actions; we only need to train a simple imitation learning model to output actions. In our experiments, the training data for the end-to-end model in a real-world environment consists of only simple obstacle configurations with one traffic cone, while the test environment is more complex and contains multiple obstacles placed in various positions. Experiments show that the proposed architecture enhances the generalization capabilities of the end-to-end model even without fine-tuning the LLM.

arxiv情報

著者 Zeyu Dong,Yimin Zhu,Yansong Li,Kevin Mahon,Yu Sun
発行日 2024-11-21 16:04:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク