LeapVAD: A Leap in Autonomous Driving via Cognitive Perception and Dual-Process Thinking

要約

自動運転技術は目覚ましい進歩を遂げていますが、データ駆動型のアプローチは推論能力が限られているため、依然として複雑なシナリオに対応できません。
一方、知識駆動型の自動運転システムは、視覚言語モデルの普及により大幅に進化しました。
この論文では、認知的知覚と二重プロセス思考に基づいた新しい方法である LeapVAD を提案します。
私たちのアプローチは、運転の意思決定に影響を与える重要な交通要素を特定し、それに焦点を当てる人間の注意メカニズムを実装しています。
LeapVAD は、外観、動作パターン、関連するリスクなどの包括的な属性を通じてこれらのオブジェクトを特徴付けることで、より効果的な環境表現を実現し、意思決定プロセスを合理化します。
さらに、LeapVAD には、人間が運転する学習プロセスを模倣した革新的なデュアルプロセス意思決定モジュールが組み込まれています。
このシステムは、論理的推論を通じて運転経験を蓄積する分析プロセス (システム II) と、微調整と数回の学習によってこの知識を洗練するヒューリスティック プロセス (システム I) で構成されます。
LeapVAD には、反射メカニズムとメモリ バンクの拡大も含まれており、過去の間違いから学習し、閉ループ環境でパフォーマンスを継続的に向上させることができます。
効率を高めるために、関連する運転体験を迅速に取得できるコンパクトなシーン表現を生成するシーン エンコーダ ネットワークを開発しました。
2 つの主要な自動運転シミュレーターである CARLA と DriveArena で行われた広範な評価により、トレーニング データが限られているにもかかわらず、LeapVAD がカメラのみのアプローチと比較して優れたパフォーマンスを達成することが実証されました。
包括的なアブレーション研究では、継続的な学習と領域適応におけるその有効性がさらに強調されています。
プロジェクトページ: https://pjlab-adg.github.io/LeapVAD/。

要約(オリジナル)

While autonomous driving technology has made remarkable strides, data-driven approaches still struggle with complex scenarios due to their limited reasoning capabilities. Meanwhile, knowledge-driven autonomous driving systems have evolved considerably with the popularization of visual language models. In this paper, we propose LeapVAD, a novel method based on cognitive perception and dual-process thinking. Our approach implements a human-attentional mechanism to identify and focus on critical traffic elements that influence driving decisions. By characterizing these objects through comprehensive attributes – including appearance, motion patterns, and associated risks – LeapVAD achieves more effective environmental representation and streamlines the decision-making process. Furthermore, LeapVAD incorporates an innovative dual-process decision-making module miming the human-driving learning process. The system consists of an Analytic Process (System-II) that accumulates driving experience through logical reasoning and a Heuristic Process (System-I) that refines this knowledge via fine-tuning and few-shot learning. LeapVAD also includes reflective mechanisms and a growing memory bank, enabling it to learn from past mistakes and continuously improve its performance in a closed-loop environment. To enhance efficiency, we develop a scene encoder network that generates compact scene representations for rapid retrieval of relevant driving experiences. Extensive evaluations conducted on two leading autonomous driving simulators, CARLA and DriveArena, demonstrate that LeapVAD achieves superior performance compared to camera-only approaches despite limited training data. Comprehensive ablation studies further emphasize its effectiveness in continuous learning and domain adaptation. Project page: https://pjlab-adg.github.io/LeapVAD/.

arxiv情報

著者 Yukai Ma,Tiantian Wei,Naiting Zhong,Jianbiao Mei,Tao Hu,Licheng Wen,Xuemeng Yang,Botian Shi,Yong Liu
発行日 2025-01-14 14:49:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク