LMDrive: Closed-Loop End-to-End Driving with Large Language Models

要約

自動運転の分野における最近の大きな進歩にもかかわらず、最新の方法は依然として困難であり、ロングテールの予期せぬ出来事や困難な都市シナリオに遭遇した場合、重大な事故を引き起こす可能性があります。
一方で、大規模言語モデル (LLM) は、「汎用人工知能」に迫る優れた推論能力を示しています。
一方で、これまでの自動運転方法は、限られた形式の入力(センサー データやナビゲーション ウェイポイントなど)に依存する傾向があり、言語情報を理解して人間と対話する車両の能力が制限されていました。
この目的を達成するために、この文書では、新しい言語ガイドによるエンドツーエンドの閉ループ自動運転フレームワークである LMDrive を紹介します。
LMDrive は、マルチモーダル センサー データを独自に処理して自然言語命令と統合し、現実的な教育環境で人間およびナビゲーション ソフトウェアとの対話を可能にします。
言語ベースの閉ループ自動運転のさらなる研究を促進するために、約 64,000 個の命令に従うデータ クリップを含む対応するデータセットと、複雑な命令と困難な運転シナリオを処理するシステムの能力をテストする LangAuto ベンチマークも公開します。
LMDrive の有効性を実証するために、広範な閉ループ実験が実施されています。
私たちの知る限り、私たちは閉ループのエンドツーエンドの自動運転に LLM を活用した最初の研究です。
コードは https://github.com/opendilab/LMDrive にあります。

要約(オリジナル)

Despite significant recent progress in the field of autonomous driving, modern methods still struggle and can incur serious accidents when encountering long-tail unforeseen events and challenging urban scenarios. On the one hand, large language models (LLM) have shown impressive reasoning capabilities that approach ‘Artificial General Intelligence’. On the other hand, previous autonomous driving methods tend to rely on limited-format inputs (e.g. sensor data and navigation waypoints), restricting the vehicle’s ability to understand language information and interact with humans. To this end, this paper introduces LMDrive, a novel language-guided, end-to-end, closed-loop autonomous driving framework. LMDrive uniquely processes and integrates multi-modal sensor data with natural language instructions, enabling interaction with humans and navigation software in realistic instructional settings. To facilitate further research in language-based closed-loop autonomous driving, we also publicly release the corresponding dataset which includes approximately 64K instruction-following data clips, and the LangAuto benchmark that tests the system’s ability to handle complex instructions and challenging driving scenarios. Extensive closed-loop experiments are conducted to demonstrate LMDrive’s effectiveness. To the best of our knowledge, we’re the very first work to leverage LLMs for closed-loop end-to-end autonomous driving. Codes can be found at https://github.com/opendilab/LMDrive

arxiv情報

著者 Hao Shao,Yuxuan Hu,Letian Wang,Steven L. Waslander,Yu Liu,Hongsheng Li
発行日 2023-12-12 18:24:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク