DDM-Lag : A Diffusion-based Decision-making Model for Autonomous Vehicles with Lagrangian Safety Enhancement

要約

意思決定は自動運転車 (AV) の領域において極めて重要な要素であり、自動運転の複雑な問題を解決する上で重要な役割を果たします。
データ駆動型の方法論が進化する中、複雑なシナリオにおける意思決定のパフォーマンスを向上させることが、研究の重要な焦点として浮上しています。
かなりの進歩にもかかわらず、現在の学習ベースの意思決定アプローチは、特に政策の明確化と安全性保証の側面において改良の余地があることが示されています。
これらの課題に対処するために、ラグランジュ ベースの安全性強化で強化された拡散決定モデルである DDM-Lag を導入します。
この研究では、自動運転に固有の逐次的意思決定の課題を生成モデリングの問題として概念化し、意思決定のパターンを同化する媒体として拡散モデルを採用しています。
私たちは、更新を促進するための Actor-Critic アーキテクチャの定式化と並行して、動作クローニングと Q ラーニングの原則を融合した、拡散モデルのハイブリッド ポリシー更新戦略を導入します。
モデルの探索プロセスを安全層で強化するために、追加の安全制約を組み込み、ラグランジュ緩和を前提とした高度なポリシー最適化手法を採用して、ポリシー学習の取り組みを包括的に改良します。
私たちが提案する意思決定方法の実証的評価は、さまざまな複雑さおよび環境状況によって区別される、さまざまな運転タスクにわたって実施されました。
確立されたベースライン方法論との比較分析により、特に安全性と全体的な有効性の面で、当社のモデルの優れたパフォーマンスが明らかになります。

要約(オリジナル)

Decision-making stands as a pivotal component in the realm of autonomous vehicles (AVs), playing a crucial role in navigating the intricacies of autonomous driving. Amidst the evolving landscape of data-driven methodologies, enhancing decision-making performance in complex scenarios has emerged as a prominent research focus. Despite considerable advancements, current learning-based decision-making approaches exhibit potential for refinement, particularly in aspects of policy articulation and safety assurance. To address these challenges, we introduce DDM-Lag, a Diffusion Decision Model, augmented with Lagrangian-based safety enhancements. This work conceptualizes the sequential decision-making challenge inherent in autonomous driving as a problem of generative modeling, adopting diffusion models as the medium for assimilating patterns of decision-making. We introduce a hybrid policy update strategy for diffusion models, amalgamating the principles of behavior cloning and Q-learning, alongside the formulation of an Actor-Critic architecture for the facilitation of updates. To augment the model’s exploration process with a layer of safety, we incorporate additional safety constraints, employing a sophisticated policy optimization technique predicated on Lagrangian relaxation to refine the policy learning endeavor comprehensively. Empirical evaluation of our proposed decision-making methodology was conducted across a spectrum of driving tasks, distinguished by their varying degrees of complexity and environmental contexts. The comparative analysis with established baseline methodologies elucidates our model’s superior performance, particularly in dimensions of safety and holistic efficacy.

arxiv情報

著者 Jiaqi Liu,Peng Hang,Xiaocong Zhao,Jianqiang Wang,Jian Sun
発行日 2024-04-05 08:56:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク