Imitation Is Not Enough: Robustifying Imitation with Reinforcement Learning for Challenging Driving Scenarios

要約

模倣学習 (IL) は、人間のような行動を生成するために大規模に収集できる高品質の人間の運転データを使用するためのシンプルかつ強力な方法です。
しかし、模倣学習のみに基づいた政策では、安全性と信頼性の懸念を十分に説明できないことがよくあります。
この論文では、単純な報酬を使用した強化学習と模倣学習を組み合わせることで、模倣のみから学習した場合よりも運転ポリシーの安全性と信頼性が大幅に向上する方法を示します。
特に、10 万マイルを超える都市部の運転データに基づいてポリシーをトレーニングし、衝突の可能性のさまざまなレベルごとにグループ化されたテスト シナリオでその有効性を測定します。
私たちの分析によると、模倣はデモンストレーション データで十分にカバーされている難易度の低いシナリオでは良好に実行できますが、提案されたアプローチは最も困難なシナリオでの堅牢性を大幅に向上させます (失敗が 38% 以上減少)。
私たちの知る限り、これは、大量の実世界の人間の運転データを利用した、自動運転における模倣学習と強化学習を組み合わせたアプローチの最初の応用です。

要約(オリジナル)

Imitation learning (IL) is a simple and powerful way to use high-quality human driving data, which can be collected at scale, to produce human-like behavior. However, policies based on imitation learning alone often fail to sufficiently account for safety and reliability concerns. In this paper, we show how imitation learning combined with reinforcement learning using simple rewards can substantially improve the safety and reliability of driving policies over those learned from imitation alone. In particular, we train a policy on over 100k miles of urban driving data, and measure its effectiveness in test scenarios grouped by different levels of collision likelihood. Our analysis shows that while imitation can perform well in low-difficulty scenarios that are well-covered by the demonstration data, our proposed approach significantly improves robustness on the most challenging scenarios (over 38% reduction in failures). To our knowledge, this is the first application of a combined imitation and reinforcement learning approach in autonomous driving that utilizes large amounts of real-world human driving data.

arxiv情報

著者 Yiren Lu,Justin Fu,George Tucker,Xinlei Pan,Eli Bronstein,Rebecca Roelofs,Benjamin Sapp,Brandyn White,Aleksandra Faust,Shimon Whiteson,Dragomir Anguelov,Sergey Levine
発行日 2023-08-10 19:29:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, I.2.6 パーマリンク