Evaluating the Robustness of Deep Reinforcement Learning for Autonomous Policies in a Multi-agent Urban Driving Environment

要約

深層強化学習は、シミュレートされた運転環境で自動運転車のポリシーをトレーニングするために積極的に使用されています。
さまざまな強化学習アルゴリズムが広く利用可能であり、さまざまな運転シナリオ間で体系的な比較が行われていないため、シングル エージェントおよびマルチ エージェントの運転環境で自動運転車のソフトウェアをトレーニングするのに、どのアルゴリズムがより効果的かはわかりません。
ビジョンベースの自動運転における深層強化学習を比較するためのベンチマーク フレームワークは、より優れた自動運転車の運転ポリシーをトレーニングする可能性を開きます。
これらの課題に対処するために、単一およびマルチエージェント環境での自動運転のための深層強化学習アルゴリズムの体系的な評価と比較分析のための、オープンで再利用可能なベンチマーク フレームワークを提供します。
このフレームワークを使用して、離散および連続アクション空間の深層強化学習アルゴリズムの比較研究を行います。
また、深層強化学習ベースの自動運転エージェントの評価用に設計された包括的な多目的報酬関数も提案します。
ビジョンのみの忠実度の高い都市運転シミュレーション環境で実験を実行します。
結果は、深層強化学習アルゴリズムの一部のみが、さまざまなマルチエージェントのみの環境設定でトレーニングされた場合に、シングル エージェントとマルチ エージェントのシナリオ全体で一貫して優れたパフォーマンスを発揮することを示しています。
たとえば、A3C ベースおよび TD3 ベースの自動運転車は、シングル エージェントとマルチ エージェントの両方のシナリオで、より堅牢なアクションと最小の運転エラーという点で比較的優れたパフォーマンスを発揮します。
さまざまな深層強化学習アルゴリズムは、さまざまなシナリオでさまざまな運転とテストのパフォーマンスを示すと結論付けており、体系的な比較分析の必要性を強調しています。
このホワイト ペーパーで提案されているベンチマーク フレームワークは、このような比較を容易にします。

要約(オリジナル)

Deep reinforcement learning is actively used for training autonomous car policies in a simulated driving environment. Due to the large availability of various reinforcement learning algorithms and the lack of their systematic comparison across different driving scenarios, we are unsure of which ones are more effective for training autonomous car software in single-agent as well as multi-agent driving environments. A benchmarking framework for the comparison of deep reinforcement learning in a vision-based autonomous driving will open up the possibilities for training better autonomous car driving policies. To address these challenges, we provide an open and reusable benchmarking framework for systematic evaluation and comparative analysis of deep reinforcement learning algorithms for autonomous driving in a single- and multi-agent environment. Using the framework, we perform a comparative study of discrete and continuous action space deep reinforcement learning algorithms. We also propose a comprehensive multi-objective reward function designed for the evaluation of deep reinforcement learning-based autonomous driving agents. We run the experiments in a vision-only high-fidelity urban driving simulated environments. The results indicate that only some of the deep reinforcement learning algorithms perform consistently better across single and multi-agent scenarios when trained in various multi-agent-only environment settings. For example, A3C- and TD3-based autonomous cars perform comparatively better in terms of more robust actions and minimal driving errors in both single and multi-agent scenarios. We conclude that different deep reinforcement learning algorithms exhibit different driving and testing performance in different scenarios, which underlines the need for their systematic comparative analysis. The benchmarking framework proposed in this paper facilitates such a comparison.

arxiv情報

著者 Aizaz Sharif,Dusica Marijan
発行日 2023-03-23 17:03:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク