Learning Realistic Traffic Agents in Closed-loop

要約

現実的な交通シミュレーションは、現実世界に展開する前に安全かつスケーラブルな方法で自動運転ソフトウェアを開発するために不可欠です。
通常、模倣学習 (IL) は、オフラインで収集された現実世界の観察結果から人間に似た交通エージェントを直接学習するために使用されますが、交通ルールが明示的に指定されていない場合、IL だけで訓練されたエージェントは、衝突や路外走行などの非現実的な違反を頻繁に示します。
この問題は、配布外およびロングテールのシナリオではさらに悪化します。
一方、強化学習 (RL) は交通違反を回避するように交通係員を訓練できますが、RL のみを使用すると非人間的な運転行動が発生します。
私たちは、トラフィック コンプライアンスの制約の下で専門家のデモンストレーションに匹敵する総合的な閉ループ学習目標である強化トラフィック ルール (RTR) を提案します。これにより、IL と RL の共同アプローチが必然的に生まれ、両方の長所が得られます。
私たちの手法は、現実世界のデータセットからの名目上のシナリオと、手続き的に生成されたロングテール シナリオの両方を閉ループ シミュレーションで学習します。
私たちの実験では、RTR がより現実的で一般化可能な交通シミュレーション ポリシーを学習し、名目シナリオとロングテール シナリオの両方で人間らしい運転と交通コンプライアンスのトレードオフを大幅に改善することが示されました。
さらに、予測モデルをトレーニングするためのデータ生成ツールとして使用すると、学習されたトラフィック ポリシーは、ベースライン トラフィック エージェントと比較して、ダウンストリーム予測メトリックの大幅な向上につながります。
詳細については、プロジェクトの Web サイトをご覧ください: https://waabi.ai/rtr

要約(オリジナル)

Realistic traffic simulation is crucial for developing self-driving software in a safe and scalable manner prior to real-world deployment. Typically, imitation learning (IL) is used to learn human-like traffic agents directly from real-world observations collected offline, but without explicit specification of traffic rules, agents trained from IL alone frequently display unrealistic infractions like collisions and driving off the road. This problem is exacerbated in out-of-distribution and long-tail scenarios. On the other hand, reinforcement learning (RL) can train traffic agents to avoid infractions, but using RL alone results in unhuman-like driving behaviors. We propose Reinforcing Traffic Rules (RTR), a holistic closed-loop learning objective to match expert demonstrations under a traffic compliance constraint, which naturally gives rise to a joint IL + RL approach, obtaining the best of both worlds. Our method learns in closed-loop simulations of both nominal scenarios from real-world datasets as well as procedurally generated long-tail scenarios. Our experiments show that RTR learns more realistic and generalizable traffic simulation policies, achieving significantly better tradeoffs between human-like driving and traffic compliance in both nominal and long-tail scenarios. Moreover, when used as a data generation tool for training prediction models, our learned traffic policy leads to considerably improved downstream prediction metrics compared to baseline traffic agents. For more information, visit the project website: https://waabi.ai/rtr

arxiv情報

著者 Chris Zhang,James Tu,Lunjun Zhang,Kelvin Wong,Simon Suo,Raquel Urtasun
発行日 2023-11-02 16:55:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク