Identify, Estimate and Bound the Uncertainty of Reinforcement Learning for Autonomous Driving

要約

深層強化学習(DRL)は、よりインテリジェントな自律走行車(AV)を開発するための有望なアプローチとして登場した。AVにおける典型的なDRLアプリケーションは、ニューラルネットワークベースの運転ポリシーを訓練することです。しかし、ニューラルネットワークのブラックボックス的な性質は、予測不可能な判断の失敗を招き、そのようなAVを信頼性の低いものにしてしまうことがある。このため、本研究では、DRL運転ポリシーの信頼性の低い決定を特定し保護する方法を提案する。基本的な考え方は、ポリシーの性能の不確実性を推定し、制約することです。この不確実性は、不十分なトレーニングデータやネットワークの適合エラーによる潜在的な性能低下を定量化するものです。不確実性を抑制することで、DRLモデルの性能は常にベースライン・ポリシーの性能よりも高くなります。データ不足による不確実性は、ブートストラップ法によって推定されます。次に、ネットワークフィッティングの誤差による不確実性をアンサンブルネットワークを用いて推定する。最後に、潜在的な意思決定の失敗を避けるために、性能の下限としてベースラインポリシーを追加する。この全体的な枠組みは不確実性境界強化学習(UBRL)と呼ばれる。提案されたUBRLは、無防備な左折運転のケースを例として、異なる量のトレーニングデータを持つDRLポリシーで評価される。その結果、UBRL法はDRLポリシーの潜在的に信頼性の低い決定を特定できることが示された。UBRLは、DRLポリシーが十分に訓練されておらず、不確実性が高い場合でも、ベースライン・ポリシーを上回る性能を保証しています。また、UBRLの性能は訓練データが多いほど向上する。このような手法は、実走行におけるDRLの適用に有用であり、DRLポリシーを評価するための指標を提供するものである。

要約(オリジナル)

Deep reinforcement learning (DRL) has emerged as a promising approach for developing more intelligent autonomous vehicles (AVs). A typical DRL application on AVs is to train a neural network-based driving policy. However, the black-box nature of neural networks can result in unpredictable decision failures, making such AVs unreliable. To this end, this work proposes a method to identify and protect unreliable decisions of a DRL driving policy. The basic idea is to estimate and constrain the policy’s performance uncertainty, which quantifies potential performance drop due to insufficient training data or network fitting errors. By constraining the uncertainty, the DRL model’s performance is always greater than that of a baseline policy. The uncertainty caused by insufficient data is estimated by the bootstrapped method. Then, the uncertainty caused by the network fitting error is estimated using an ensemble network. Finally, a baseline policy is added as the performance lower bound to avoid potential decision failures. The overall framework is called uncertainty-bound reinforcement learning (UBRL). The proposed UBRL is evaluated on DRL policies with different amounts of training data, taking an unprotected left-turn driving case as an example. The result shows that the UBRL method can identify potentially unreliable decisions of DRL policy. The UBRL guarantees to outperform baseline policy even when the DRL policy is not well-trained and has high uncertainty. Meanwhile, the performance of UBRL improves with more training data. Such a method is valuable for the DRL application on real-road driving and provides a metric to evaluate a DRL policy.

arxiv情報

著者 Weitao Zhou,Zhong Cao,Nanshan Deng,Kun Jiang,Diange Yang
発行日 2023-05-12 13:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク