A Language Agent for Autonomous Driving


この論文では、人間のような知能を自動運転システムに統合するための認知エージェントとして大規模言語モデル (LLM) を活用する、現在のパイプラインからの根本的なパラダイム シフトを提案します。
LLM を活用した当社のエージェント ドライバーには、直感的な常識と堅牢な推論機能が備わっており、自動運転に対するより微妙で人間らしいアプローチが可能になります。
私たちは大規模な nuScenes ベンチマークで当社のアプローチを評価し、広範な実験により、当社のエージェント ドライバーが最先端の運転方法を大幅に上回るパフォーマンスを示していることが実証されました。


Human-level driving is an ultimate goal of autonomous driving. Conventional approaches formulate autonomous driving as a perception-prediction-planning framework, yet their systems do not capitalize on the inherent reasoning ability and experiential knowledge of humans. In this paper, we propose a fundamental paradigm shift from current pipelines, exploiting Large Language Models (LLMs) as a cognitive agent to integrate human-like intelligence into autonomous driving systems. Our approach, termed Agent-Driver, transforms the traditional autonomous driving pipeline by introducing a versatile tool library accessible via function calls, a cognitive memory of common sense and experiential knowledge for decision-making, and a reasoning engine capable of chain-of-thought reasoning, task planning, motion planning, and self-reflection. Powered by LLMs, our Agent-Driver is endowed with intuitive common sense and robust reasoning capabilities, thus enabling a more nuanced, human-like approach to autonomous driving. We evaluate our approach on the large-scale nuScenes benchmark, and extensive experiments substantiate that our Agent-Driver significantly outperforms the state-of-the-art driving methods by a large margin. Our approach also demonstrates superior interpretability and few-shot learning ability to these methods.


著者 Jiageng Mao,Junjie Ye,Yuxi Qian,Marco Pavone,Yue Wang
発行日 2024-07-28 23:37:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO パーマリンク