Demystifying Deep Reinforcement Learning-Based Autonomous Vehicle Decision-Making

要約

強化学習の分野における汎用関数近似器の出現により、深層強化学習 (DRL) を活用する実用的なアプリケーションの数が爆発的に増加しました。
自動運転タスクにおける意思決定は、その中でも主要なアプリケーションとして浮上しており、センサー データまたは高次の運動学変数を入力として受け取り、離散的な選択または連続的な制御出力を提供します。
ただし、モデルのブラック ボックスの性質により、自動運転車 (AV) への DRL の実際の展開が制限される圧倒的な制限が生じます。
したがって、この研究作業では、注意ベースの DRL フレームワークの解釈可能性に焦点を当てます。
ベースライン モデルとして連続近接ポリシー最適化ベースの DRL アルゴリズムを使用し、オープンソース AV シミュレーション環境にマルチヘッド アテンション フレームワークを追加します。
空間的および時間的相関の説明可能性と因果関係の観点から、トレーニングされたモデルの解釈可能性を議論するためのいくつかの分析手法を提供します。
最初のヘッドの重みが近隣の車両の位置をエンコードしているのに対し、2 番目のヘッドはリーダー車両のみに焦点を当てていることを示します。
また、自車両の行動は、空間的および時間的に対象車線内の車両に因果的に依存する。
これらの発見を通じて、これらの手法が実務者が DRL アルゴリズムの結果を解読するのに役立つことが確実に示されています。

要約(オリジナル)

With the advent of universal function approximators in the domain of reinforcement learning, the number of practical applications leveraging deep reinforcement learning (DRL) has exploded. Decision-making in automated driving tasks has emerged as a chief application among them, taking the sensor data or the higher-order kinematic variables as the input and providing a discrete choice or continuous control output. However, the black-box nature of the models presents an overwhelming limitation that restricts the real-world deployment of DRL in autonomous vehicles (AVs). Therefore, in this research work, we focus on the interpretability of an attention-based DRL framework. We use a continuous proximal policy optimization-based DRL algorithm as the baseline model and add a multi-head attention framework in an open-source AV simulation environment. We provide some analytical techniques for discussing the interpretability of the trained models in terms of explainability and causality for spatial and temporal correlations. We show that the weights in the first head encode the positions of the neighboring vehicles while the second head focuses on the leader vehicle exclusively. Also, the ego vehicle’s action is causally dependent on the vehicles in the target lane spatially and temporally. Through these findings, we reliably show that these techniques can help practitioners decipher the results of the DRL algorithms.

arxiv情報

著者 Hanxi Wan,Pei Li,Arpan Kusari
発行日 2024-03-18 02:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク