IGDrivSim: A Benchmark for the Imitation Gap in Autonomous Driving

要約

人間レベルの安全性と効率性で複雑な環境を移動できる自動運転車を開発することは、自動運転研究の中心的な目標です。
これを達成するための一般的なアプローチは模倣学習です。この学習では、現実世界の運転シナリオから収集された人間の専門家のデモンストレーションを模倣するようにエージェントが訓練されます。
ただし、人間の知覚と自動運転車のセンサーの間に不一致があると、\textit{模倣ギャップ}が生じ、模倣学習の失敗につながる可能性があります。
この研究では、人間の専門家のデモンストレーションから自動運転政策を学習する際の模倣ギャップの影響を調査するために設計された、Waymax シミュレーター上に構築されたベンチマークである \textbf{IGDrivSim} を紹介します。
私たちの実験は、人間の専門家と自動運転エージェントの間のこの認識のギャップが、安全で効果的な運転行動の学習を妨げる可能性があることを示しています。
さらに、禁止された行動に対する単純なペナルティ報酬を使用して、模倣と強化学習を組み合わせることで、これらの失敗が効果的に軽減されることを示します。
私たちのコードは https://github.com/clemgris/IGDrivSim.git でオープンソース化されています。

要約(オリジナル)

Developing autonomous vehicles that can navigate complex environments with human-level safety and efficiency is a central goal in self-driving research. A common approach to achieving this is imitation learning, where agents are trained to mimic human expert demonstrations collected from real-world driving scenarios. However, discrepancies between human perception and the self-driving car’s sensors can introduce an \textit{imitation gap}, leading to imitation learning failures. In this work, we introduce \textbf{IGDrivSim}, a benchmark built on top of the Waymax simulator, designed to investigate the effects of the imitation gap in learning autonomous driving policy from human expert demonstrations. Our experiments show that this perception gap between human experts and self-driving agents can hinder the learning of safe and effective driving behaviors. We further show that combining imitation with reinforcement learning, using a simple penalty reward for prohibited behaviors, effectively mitigates these failures. Our code is open-sourced at: https://github.com/clemgris/IGDrivSim.git.

arxiv情報

著者 Clémence Grislain,Risto Vuorio,Cong Lu,Shimon Whiteson
発行日 2024-11-07 12:28:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク