Continual Driving Policy Optimization with Closed-Loop Individualized Curricula

要約

自動運転車 (AV) の安全性は長年にわたる最大の懸案事項であり、これはロングテールの自然主義的な運転分布においてまれで安全性が重要なシナリオが存在しないことに起因しています。
この課題に取り組むために、高リスクの運転シナリオを生成し、それを適用して AV モデルの安全性が重要なテストを実施することに焦点を当てた、シナリオベースの自動運転に関する研究が急増しています。
ただし、AV モデルを反復的に改善するために、これらの広範なシナリオを再利用することについては、限られた作業が検討されています。
さらに、現在の AV 改善に転送可能な情報を抽出しようとして、異なる動作を持つ他の AV モデルから収集された巨大なシナリオ ライブラリをフィルタリングすることは依然として扱いにくく、困難です。
したがって、クローズドループ個別カリキュラム (CLIC) を特徴とする継続的推進ポリシー最適化フレームワークを開発します。CLIC は、柔軟な実装選択肢を提供する標準化されたサブモジュールのセット (AV 評価、シナリオ選択、および AV トレーニング) に分解されます。
CLIC は AV 評価を衝突予測タスクとしてフレーム化し、各反復でこれらのシナリオにおける AV 失敗の可能性を推定します。
その後、CLIC は、これらの故障確率に基づいて過去のシナリオから再サンプリングすることにより、下流トレーニング用に個別のカリキュラムを調整し、AV の評価された能力に合わせます。
したがって、CLIC は、閉ループ運転ポリシーの最適化のために、事前に収集された膨大なシナリオ ライブラリを最大限に利用するだけでなく、それらの不十分に組織化されたシナリオの中からより困難なケースを使用してトレーニングを個別化することで、AV の改善を促進します。
実験結果は、CLIC が他のカリキュラムベースのトレーニング戦略を上回っており、単純なケースを処理する習熟度を維持しながら、危険なシナリオの管理において大幅な改善を示していることを明確に示しています。

要約(オリジナル)

The safety of autonomous vehicles (AV) has been a long-standing top concern, stemming from the absence of rare and safety-critical scenarios in the long-tail naturalistic driving distribution. To tackle this challenge, a surge of research in scenario-based autonomous driving has emerged, with a focus on generating high-risk driving scenarios and applying them to conduct safety-critical testing of AV models. However, limited work has been explored on the reuse of these extensive scenarios to iteratively improve AV models. Moreover, it remains intractable and challenging to filter through gigantic scenario libraries collected from other AV models with distinct behaviors, attempting to extract transferable information for current AV improvement. Therefore, we develop a continual driving policy optimization framework featuring Closed-Loop Individualized Curricula (CLIC), which we factorize into a set of standardized sub-modules for flexible implementation choices: AV Evaluation, Scenario Selection, and AV Training. CLIC frames AV Evaluation as a collision prediction task, where it estimates the chance of AV failures in these scenarios at each iteration. Subsequently, by re-sampling from historical scenarios based on these failure probabilities, CLIC tailors individualized curricula for downstream training, aligning them with the evaluated capability of AV. Accordingly, CLIC not only maximizes the utilization of the vast pre-collected scenario library for closed-loop driving policy optimization but also facilitates AV improvement by individualizing its training with more challenging cases out of those poorly organized scenarios. Experimental results clearly indicate that CLIC surpasses other curriculum-based training strategies, showing substantial improvement in managing risky scenarios, while still maintaining proficiency in handling simpler cases.

arxiv情報

著者 Haoyi Niu,Yizhou Xu,Xingjian Jiang,Jianming Hu
発行日 2023-09-25 15:14:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク