Deep Attention Driven Reinforcement Learning (DAD-RL) for Autonomous Vehicle Decision-Making in Dynamic Environment

要約

都市環境における自動運転車 (AV) の意思決定は、周囲の車両との動的な相互作用により本質的に困難です。
安全に計画を立てるために、AV はシーン内のさまざまな時空間インタラクションの重みを理解する必要があります。
現代の作品では、主に軌道予測のために相互作用をエンコードするために巨大なトランスフォーマー アーキテクチャが使用されており、その結果、計算の複雑さが増加します。
時空間の理解とパフォーマンスを損なうことなくこの問題に対処するために、我々は、周囲の車両の重要性を動的に割り当て、自我の RL 主導の意思決定プロセスに組み込む、単純な深い注意駆動強化学習 (DADRL) フレームワークを提案します。
さまざまな周囲の車両との動的な相互作用を学習するために、AV 中心の時空間注意エンコーディング (STAE) メカニズムを導入します。
マップとルートのコンテキストを理解するために、コンテキスト エンコーダーを使用してコンテキスト マップから特徴を抽出します。
時空間表現とコンテキスト エンコーディングを組み合わせることで、包括的な状態表現が提供されます。
結果として得られるモデルは、Soft Actor Critic (SAC) アルゴリズムを使用してトレーニングされます。
信号機のない SMARTS 都市ベンチマーク シナリオで提案されたフレームワークを評価し、DADRL が最近の最先端の方法よりも優れていることを実証します。
さらに、アブレーション研究では、優れたパフォーマンスを達成する上で、コンテキストエンコーダーと時空間注意エンコーダーの重要性が強調されています。

要約(オリジナル)

Autonomous Vehicle (AV) decision making in urban environments is inherently challenging due to the dynamic interactions with surrounding vehicles. For safe planning, AV must understand the weightage of various spatiotemporal interactions in a scene. Contemporary works use colossal transformer architectures to encode interactions mainly for trajectory prediction, resulting in increased computational complexity. To address this issue without compromising spatiotemporal understanding and performance, we propose the simple Deep Attention Driven Reinforcement Learning (DADRL) framework, which dynamically assigns and incorporates the significance of surrounding vehicles into the ego’s RL driven decision making process. We introduce an AV centric spatiotemporal attention encoding (STAE) mechanism for learning the dynamic interactions with different surrounding vehicles. To understand map and route context, we employ a context encoder to extract features from context maps. The spatiotemporal representations combined with contextual encoding provide a comprehensive state representation. The resulting model is trained using the Soft Actor Critic (SAC) algorithm. We evaluate the proposed framework on the SMARTS urban benchmarking scenarios without traffic signals to demonstrate that DADRL outperforms recent state of the art methods. Furthermore, an ablation study underscores the importance of the context-encoder and spatio temporal attention encoder in achieving superior performance.

arxiv情報

著者 Jayabrata Chowdhury,Venkataramanan Shivaraman,Sumit Dangi,Suresh Sundaram,P. B. Sujit
発行日 2024-07-12 02:34:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク