Demystifying the Physics of Deep Reinforcement Learning-Based Autonomous Vehicle Decision-Making

要約

強化学習の分野における汎用関数近似器の出現により、深層強化学習 (DRL) を活用する実用的なアプリケーションの数が爆発的に増加しました。
自動運転車 (AV) での意思決定は、センサー データまたは高次の運動学的変数を入力として受け取り、離散的な選択または連続的な制御出力を提供することで、その主要なアプリケーションとして浮上しています。
DRL モデルのブラックボックスの性質を理解するための継続的な努力が行われてきましたが、これまでのところ、モデルが物理プロセスをどのように学習するかについては (著者の知る限り) 議論されていません。
これは、AV での DRL の実際の展開を制限する圧倒的な制限をもたらします。
したがって、この研究作業では、物理プロセスに関する注意ベースの DRL フレームワークによって学習された知識を解読することを試みます。
ベースライン モデルとして連続近接ポリシー最適化ベースの DRL アルゴリズムを使用し、オープンソース AV シミュレーション環境にマルチヘッド アテンション フレームワークを追加します。
空間的および時間的相関の説明可能性と因果関係の観点から、トレーニングされたモデルの解釈可能性を議論するためのいくつかの分析手法を提供します。
最初のヘッドの重みが近隣の車両の位置をエンコードしているのに対し、2 番目のヘッドはリーダー車両のみに焦点を当てていることを示します。
また、自車両の行動は、空間的および時間的に対象車線内の車両に因果的に依存する。
これらの発見を通じて、これらの手法が実務者が DRL アルゴリズムの結果を解読するのに役立つことが確実に示されています。

要約(オリジナル)

With the advent of universal function approximators in the domain of reinforcement learning, the number of practical applications leveraging deep reinforcement learning (DRL) has exploded. Decision-making in autonomous vehicles (AVs) has emerged as a chief application among them, taking the sensor data or the higher-order kinematic variables as the input and providing a discrete choice or continuous control output. There has been a continuous effort to understand the black-box nature of the DRL models, but so far, there hasn’t been any discussion (to the best of authors’ knowledge) about how the models learn the physical process. This presents an overwhelming limitation that restricts the real-world deployment of DRL in AVs. Therefore, in this research work, we try to decode the knowledge learnt by the attention-based DRL framework about the physical process. We use a continuous proximal policy optimization-based DRL algorithm as the baseline model and add a multi-head attention framework in an open-source AV simulation environment. We provide some analytical techniques for discussing the interpretability of the trained models in terms of explainability and causality for spatial and temporal correlations. We show that the weights in the first head encode the positions of the neighboring vehicles while the second head focuses on the leader vehicle exclusively. Also, the ego vehicle’s action is causally dependent on the vehicles in the target lane spatially and temporally. Through these findings, we reliably show that these techniques can help practitioners decipher the results of the DRL algorithms.

arxiv情報

著者 Hanxi Wan,Pei Li,Arpan Kusari
発行日 2024-06-13 15:03:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク