Human-compatible driving partners through data-regularized self-play reinforcement learning

要約

自動運転車の中心的な課題は、人間との調整です。
したがって、シミュレーションでの自動運転システムのスケーラブルなトレーニングと評価には、現実的なヒューマン エージェントを組み込むことが不可欠です。
シミュレーション エージェントは通常、人間の運転に関する大規模で高品質なデータセットを模倣して開発されます。
ただし、純粋な模倣学習エージェントは、経験的に、マルチエージェント閉ループ設定で実行すると衝突率が高くなります。
閉ループ設定で現実的かつ効果的なエージェントを構築するために、人間による正規化 PPO (HR-PPO) を提案します。これは、人間の参照ポリシーから逸脱した場合にわずかなペナルティを設けてエージェントがセルフプレイを通じてトレーニングされるマルチエージェント アルゴリズムです。

これまでの研究とは対照的に、私たちのアプローチは RL ファーストであり、不完全な人間によるデモンストレーションを 30 分間だけ使用します。
私たちは、大規模なマルチエージェント トラフィック シーンでエージェントを評価します。
結果は、当社の HR-PPO エージェントが目標達成において非常に効果的であり、成功率 93%、オフロード率 3.5%、衝突率 3% であることを示しています。
同時に、エージェントは、既存の人間の運転ログとの類似性によって測定されるように、人間のような方法で運転します。
また、HR-PPO エージェントは、特に高度にインタラクティブなシナリオにおいて、人間の運転と調整するための代理手段において大幅な改善を示していることもわかりました。
https://github.com/Emerge-Lab/nocturne_lab でコードとトレーニングを受けたエージェントをオープンソース化し、https://sites.google.com/view/driving-partners でエージェントの動作のデモンストレーションを提供します。

要約(オリジナル)

A central challenge for autonomous vehicles is coordinating with humans. Therefore, incorporating realistic human agents is essential for scalable training and evaluation of autonomous driving systems in simulation. Simulation agents are typically developed by imitating large-scale, high-quality datasets of human driving. However, pure imitation learning agents empirically have high collision rates when executed in a multi-agent closed-loop setting. To build agents that are realistic and effective in closed-loop settings, we propose Human-Regularized PPO (HR-PPO), a multi-agent algorithm where agents are trained through self-play with a small penalty for deviating from a human reference policy. In contrast to prior work, our approach is RL-first and only uses 30 minutes of imperfect human demonstrations. We evaluate agents in a large set of multi-agent traffic scenes. Results show our HR-PPO agents are highly effective in achieving goals, with a success rate of 93%, an off-road rate of 3.5%, and a collision rate of 3%. At the same time, the agents drive in a human-like manner, as measured by their similarity to existing human driving logs. We also find that HR-PPO agents show considerable improvements on proxy measures for coordination with human driving, particularly in highly interactive scenarios. We open-source our code and trained agents at https://github.com/Emerge-Lab/nocturne_lab and provide demonstrations of agent behaviors at https://sites.google.com/view/driving-partners.

arxiv情報

著者 Daphne Cornelisse,Eugene Vinitsky
発行日 2024-03-28 17:56:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO パーマリンク