要約
自動運転車の開発には意思決定システムの評価が不可欠ですが、現実的で挑戦的で安全性が重要なテストシナリオが重要な役割を果たします。
現実世界のデータセットにはロングテール分布、まばらさ、希少性があるため、これらのシナリオを取得することは簡単ではありません。
この問題に取り組むために、この論文では、自然主義的な人間の運転事前確率と強化学習技術を使用した、自然な敵対的シナリオ生成ソリューションを紹介します。
これにより、多様性と現実性を兼ね備えた大規模なテスト シナリオを取得できます。
具体的には、自然な交通インタラクション シナリオを模倣するシミュレーション環境を構築します。
この環境を考慮して、2 段階の手順を実装します。
第 1 段階では、IDM (インテリジェント ドライバー モデル) モデルや MOBIL (車線変更による全体的なブレーキの最小化) モデルなどの従来のルールベースのモデルが組み込まれており、実世界のデータセットから主要な制御パラメータを大まかかつ離散的に取得して調整します。
次に、GAIL(Generative Adversarial Imitation Learning)を活用して、ドライバーの行動を継続的に表現します。
派生した GAIL をさらに使用して、PPO (Proximal Policy Optimization) ベースのアクター批判ネットワーク フレームワークを設計して報酬関数を微調整し、自然な敵対シナリオ生成ソリューションを最適化できます。
3,000 台の車両の軌跡を含む広範な実験が NGSIM データセットで実施されました。
衝突率、加速度、ステアリング、車線変更の回数など、基本的な交通パラメータがベースライン モデルと比較して測定されました。
私たちの調査結果は、提案されたモデルが自然性と敵対性の両方をカバーする現実的なセーフティクリティカルなテストシナリオを生成できることを示しており、これは自動運転車開発の基礎となる可能性があります。
要約(オリジナル)
Evaluating the decision-making system is indispensable in developing autonomous vehicles, while realistic and challenging safety-critical test scenarios play a crucial role. Obtaining these scenarios is non-trivial, thanks to the long-tailed distribution, sparsity, and rarity in real-world data sets. To tackle this problem, in this paper, we introduce a natural adversarial scenario generation solution using naturalistic human driving priors and reinforcement learning techniques. By doing this, we can obtain large-scale test scenarios that are both diverse and realistic. Specifically, we build a simulation environment that mimics natural traffic interaction scenarios. Informed by this environment, we implement a two-stage procedure. The first stage incorporates conventional rule-based models, e.g., IDM~(Intelligent Driver Model) and MOBIL~(Minimizing Overall Braking Induced by Lane changes) model, to coarsely and discretely capture and calibrate key control parameters from the real-world dataset. Next, we leverage GAIL~(Generative Adversarial Imitation Learning) to represent driver behaviors continuously. The derived GAIL can be further used to design a PPO~(Proximal Policy Optimization)-based actor-critic network framework to fine-tune the reward function, and then optimizes our natural adversarial scenario generation solution. Extensive experiments have been conducted in the NGSIM dataset including the trajectory of 3,000 vehicles. Essential traffic parameters were measured in comparison with the baseline model, e.g., the collision rate, accelerations, steering, and the number of lane changes. Our findings demonstrate that the proposed model can generate realistic safety-critical test scenarios covering both naturalness and adversariality, which can be a cornerstone for the development of autonomous vehicles.
arxiv情報
著者 | Kunkun Hao,Yonggang Luo,Wen Cui,Yuqiao Bai,Jucheng Yang,Songyang Yan,Yuxi Pan,Zijiang Yang |
発行日 | 2024-08-06 13:58:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google