IGDrivSim: A Benchmark for the Imitation Gap in Autonomous Driving

要約

人間レベルの安全性と効率性を備えた複雑な環境をナビゲートできる自律車両の開発は、自動運転研究の中心的な目標です。
これを達成するための一般的なアプローチは、模倣学習です。エージェントは、現実世界の運転シナリオから収集された人間の専門家のデモを模倣するように訓練されています。
ただし、人間の知覚と自動運転車のセンサーとの矛盾は、$ \ textit {imitation} $ギャップを導入し、模倣学習の障害につながる可能性があります。
この作業では、人間の専門家の専門家デモンストレーションから自律運転政策を学習する際の模倣ギャップの影響を調査するために設計されたWayMaxシミュレーターの上に構築されたベンチマークである$ \ textBf {igdrivsim} $を紹介します。
私たちの実験は、人間の専門家と自動運転エージェントの間のこの認識のギャップが、安全で効果的な運転行動の学習を妨げる可能性があることを示しています。
さらに、模倣と補強学習を組み合わせることで、禁止された行動に対する単純なペナルティ報酬を使用して、これらの障害を効果的に軽減することを示しています。
私たちのコードは、https://github.com/clemgris/igdrivsim.gitでオープンソースをかけています。

要約(オリジナル)

Developing autonomous vehicles that can navigate complex environments with human-level safety and efficiency is a central goal in self-driving research. A common approach to achieving this is imitation learning, where agents are trained to mimic human expert demonstrations collected from real-world driving scenarios. However, discrepancies between human perception and the self-driving car’s sensors can introduce an $\textit{imitation}$ gap, leading to imitation learning failures. In this work, we introduce $\textbf{IGDrivSim}$, a benchmark built on top of the Waymax simulator, designed to investigate the effects of the imitation gap in learning autonomous driving policy from human expert demonstrations. Our experiments show that this perception gap between human experts and self-driving agents can hinder the learning of safe and effective driving behaviors. We further show that combining imitation with reinforcement learning, using a simple penalty reward for prohibited behaviors, effectively mitigates these failures. Our code is open-sourced at: https://github.com/clemgris/IGDrivSim.git.

arxiv情報

著者 Clémence Grislain,Risto Vuorio,Cong Lu,Shimon Whiteson
発行日 2025-03-18 13:39:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク