DeepQTest: Testing Autonomous Driving Systems with Reinforcement Learning and Real-world Weather Data

要約

自動運転システム (ADS) は、環境を感知し、自律的に運転の意思決定を行うことができます。
これらのシステムは安全性が非常に重要であり、それらのテストは安全性を確保するための重要なアプローチの 1 つです。
ただし、ADS の固有の複雑さとその動作環境の高次元性により、ADS で考えられるテスト シナリオの数は無限です。
さらに、ADS の動作環境は動的で継続的に進化しており、不確実性が多いため、環境に適応したテスト手法が必要です。
さらに、既存の ADS テスト技術は、テスト シナリオの現実性、特に気象条件とその時間の経過に伴う変化の現実性を確保する上で有効性が限られています。
最近、強化学習 (RL) は、困難な問題、特に動的環境への継続的な適応を必要とする問題に対処する上で大きな可能性を示しています。
この目的を達成するために、RL を使用して環境構成を学習し、異常な ADS 動作を明らかにする新しい ADS テスト アプローチである DeepQTest を紹介します。
具体的には、DeepQTest は Deep Q-Learning を採用し、報酬関数を構築するために 3 つの安全性と快適性の対策を採用しています。
生成されたシナリオの現実性を確保するために、DeepQTest は一連の現実的な制約を定義し、現実世界の気象条件をシミュレートされた環境に導入します。
産業規模の ADS で DeepQTest を評価するために、ランダム、グリーディ、および最先端の RL ベースのアプローチ DeepCOllision という 3 つの比較ベースラインを採用しました。
評価結果によると、DeepQTest は、ベースラインと比較して、衝突につながるシナリオの生成とシナリオの現実性の確保に関して、大幅に優れた有効性を示しました。
さらに、DeepQTest に実装されている 3 つの報酬関数のうち、Time-To-Collision が最適な設計として推奨されています。

要約(オリジナル)

Autonomous driving systems (ADSs) are capable of sensing the environment and making driving decisions autonomously. These systems are safety-critical, and testing them is one of the important approaches to ensure their safety. However, due to the inherent complexity of ADSs and the high dimensionality of their operating environment, the number of possible test scenarios for ADSs is infinite. Besides, the operating environment of ADSs is dynamic, continuously evolving, and full of uncertainties, which requires a testing approach adaptive to the environment. In addition, existing ADS testing techniques have limited effectiveness in ensuring the realism of test scenarios, especially the realism of weather conditions and their changes over time. Recently, reinforcement learning (RL) has demonstrated great potential in addressing challenging problems, especially those requiring constant adaptations to dynamic environments. To this end, we present DeepQTest, a novel ADS testing approach that uses RL to learn environment configurations with a high chance of revealing abnormal ADS behaviors. Specifically, DeepQTest employs Deep Q-Learning and adopts three safety and comfort measures to construct the reward functions. To ensure the realism of generated scenarios, DeepQTest defines a set of realistic constraints and introduces real-world weather conditions into the simulated environment. We employed three comparison baselines, i.e., random, greedy, and a state-of-the-art RL-based approach DeepCOllision, for evaluating DeepQTest on an industrial-scale ADS. Evaluation results show that DeepQTest demonstrated significantly better effectiveness in terms of generating scenarios leading to collisions and ensuring scenario realism compared with the baselines. In addition, among the three reward functions implemented in DeepQTest, Time-To-Collision is recommended as the best design according to our study.

arxiv情報

著者 Chengjie Lu,Tao Yue,Man Zhang,Shaukat Ali
発行日 2023-10-08 13:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SE パーマリンク