要約
人間レベルの運転が自動運転の最終目標です。
従来のアプローチは、自動運転を知覚、予測、計画のフレームワークとして定式化しますが、そのシステムは人間が本来持つ推論能力や経験的知識を活用していません。
この論文では、人間のような知能を自動運転システムに統合するための認知エージェントとして大規模言語モデル (LLM) を活用する、現在のパイプラインからの根本的なパラダイム シフトを提案します。
エージェントドライバーと呼ばれる私たちのアプローチは、関数呼び出しを通じてアクセスできる多用途のツールライブラリ、意思決定のための常識と経験的知識の認知記憶、および思考連鎖が可能な推論エンジンを導入することにより、従来の自動運転パイプラインを変革します。
推論、タスク計画、動作計画、および内省。
LLM を活用した当社のエージェント ドライバーには、直感的な常識と堅牢な推論機能が備わっており、自動運転に対するより微妙で人間らしいアプローチが可能になります。
私たちは大規模な nuScenes ベンチマークで当社のアプローチを評価し、広範な実験により、当社のエージェント ドライバーが最先端の運転方法を大幅に上回るパフォーマンスを示していることが実証されました。
私たちのアプローチは、これらの方法に対する優れた解釈可能性と少数ショット学習能力も実証しています。
要約(オリジナル)
Human-level driving is an ultimate goal of autonomous driving. Conventional approaches formulate autonomous driving as a perception-prediction-planning framework, yet their systems do not capitalize on the inherent reasoning ability and experiential knowledge of humans. In this paper, we propose a fundamental paradigm shift from current pipelines, exploiting Large Language Models (LLMs) as a cognitive agent to integrate human-like intelligence into autonomous driving systems. Our approach, termed Agent-Driver, transforms the traditional autonomous driving pipeline by introducing a versatile tool library accessible via function calls, a cognitive memory of common sense and experiential knowledge for decision-making, and a reasoning engine capable of chain-of-thought reasoning, task planning, motion planning, and self-reflection. Powered by LLMs, our Agent-Driver is endowed with intuitive common sense and robust reasoning capabilities, thus enabling a more nuanced, human-like approach to autonomous driving. We evaluate our approach on the large-scale nuScenes benchmark, and extensive experiments substantiate that our Agent-Driver significantly outperforms the state-of-the-art driving methods by a large margin. Our approach also demonstrates superior interpretability and few-shot learning ability to these methods.
arxiv情報
著者 | Jiageng Mao,Junjie Ye,Yuxi Qian,Marco Pavone,Yue Wang |
発行日 | 2024-07-28 23:37:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google