要約
強力なビジョン言語の推論と一般化能力により、マルチモーダルの大手言語モデル(MLLM)は、エンドツーエンド(E2E)の自律運転の分野で大きな注目を集めています。
ただし、クローズドループシステムへの適用は既存のままであり、現在のMLLMベースの方法では、主流のE2E模倣学習アプローチに対する明確な優位性が示されていません。
この作業では、自己監視された次のシーン予測タスクと監督された決定チェーンオブサブプロセスを使用して、全体的な推論を閉鎖するために設計された新しいMLLM微調整フレームワークであるReasonPlanを提案します。
このデュアルメカニズムは、モデルが視覚表現を実用的な運転コンテキストに合わせることを奨励し、一方、解釈可能かつ因果関係のある意思決定を促進します。
計画指向の決定推論データセット、すなわち210K多様で高品質のサンプルで構成されるPDRをキュレートします。
私たちの方法は、Bench2Driveベンチマークの19%L2および16.1の運転スコアの大きなマージンによって、主流のE2E模倣学習方法よりも優れています。
さらに、ReasonPlanは、目に見えないDOSベンチマークで強力なゼロショット一般化を実証し、ゼロショットコーナーケースの処理における適応性を強調しています。
コードとデータセットは、https://github.com/liuxueyi/ReasonPlanにあります。
要約(オリジナル)
Due to the powerful vision-language reasoning and generalization abilities, multimodal large language models (MLLMs) have garnered significant attention in the field of end-to-end (E2E) autonomous driving. However, their application to closed-loop systems remains underexplored, and current MLLM-based methods have not shown clear superiority to mainstream E2E imitation learning approaches. In this work, we propose ReasonPlan, a novel MLLM fine-tuning framework designed for closed-loop driving through holistic reasoning with a self-supervised Next Scene Prediction task and supervised Decision Chain-of-Thought process. This dual mechanism encourages the model to align visual representations with actionable driving context, while promoting interpretable and causally grounded decision making. We curate a planning-oriented decision reasoning dataset, namely PDR, comprising 210k diverse and high-quality samples. Our method outperforms the mainstream E2E imitation learning method by a large margin of 19% L2 and 16.1 driving score on Bench2Drive benchmark. Furthermore, ReasonPlan demonstrates strong zero-shot generalization on unseen DOS benchmark, highlighting its adaptability in handling zero-shot corner cases. Code and dataset will be found in https://github.com/Liuxueyi/ReasonPlan.
arxiv情報
著者 | Xueyi Liu,Zuodong Zhong,Yuxin Guo,Yun-Fu Liu,Zhiguo Su,Qichao Zhang,Junli Wang,Yinfeng Gao,Yupeng Zheng,Qiao Lin,Huiyong Chen,Dongbin Zhao |
発行日 | 2025-05-26 14:12:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google