(Re)$^2$H2O: Autonomous Driving Scenario Generation via Reversely Regularized Hybrid Offline-and-Online Reinforcement Learning

要約

自動運転とその普及は、長い間大きな期待を寄せてきました。
それにもかかわらず、信頼できる完全なテスト手順がなければ、業界は自動運転車 (AV) の大量生産に苦労するだけでなく、一般大衆も政策立案者もイノベーションを受け入れることに納得できません。
AV に重大な課題を提示するセーフティ クリティカルなシナリオを生成することは、テストの重要な最初のステップです。
現実世界のデータセットには、自然主義的ではあるが過度に安全な運転行動が含まれていますが、シミュレーションでは、多様で攻撃的な交通シナリオを無制限に調査できます。
逆に、シミュレーションにおける高次元の探索空間は、暗黙の制約として現実世界のデータ分布なしでは効率的なシナリオ生成を無効にします。
両方の利点を組み合わせるには、オフラインの現実世界とオンラインのシミュレーション データの両方から同時にシナリオを生成する方法を学ぶことが魅力的です。
したがって、逆正則ハイブリッド オフラインとオンライン ((Re)$^2$H2O) 強化学習レシピを調整して、現実世界のデータの Q 値にさらにペナルティを課し、シミュレートされたデータの Q 値に報酬を与えます。
シナリオは多様で敵対的です。
大規模な実験を通じて、当社のソリューションは、競合するベースラインよりもリスクの高いシナリオを生成することが証明されており、さまざまな自動運転モデル​​で動作するように一般化できます。
さらに、これらの生成されたシナリオは、AV パフォーマンスを微調整できることも裏付けられています。

要約(オリジナル)

Autonomous driving and its widespread adoption have long held tremendous promise. Nevertheless, without a trustworthy and thorough testing procedure, not only does the industry struggle to mass-produce autonomous vehicles (AV), but neither the general public nor policymakers are convinced to accept the innovations. Generating safety-critical scenarios that present significant challenges to AV is an essential first step in testing. Real-world datasets include naturalistic but overly safe driving behaviors, whereas simulation would allow for unrestricted exploration of diverse and aggressive traffic scenarios. Conversely, higher-dimensional searching space in simulation disables efficient scenario generation without real-world data distribution as implicit constraints. In order to marry the benefits of both, it seems appealing to learn to generate scenarios from both offline real-world and online simulation data simultaneously. Therefore, we tailor a Reversely Regularized Hybrid Offline-and-Online ((Re)$^2$H2O) Reinforcement Learning recipe to additionally penalize Q-values on real-world data and reward Q-values on simulated data, which ensures the generated scenarios are both varied and adversarial. Through extensive experiments, our solution proves to produce more risky scenarios than competitive baselines and it can generalize to work with various autonomous driving models. In addition, these generated scenarios are also corroborated to be capable of fine-tuning AV performance.

arxiv情報

著者 Haoyi Niu,Kun Ren,Yizhou Xu,Ziyuan Yang,Yichen Lin,Yi Zhang,Jianming Hu
発行日 2023-02-27 12:44:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク