MRIC: Model-Based Reinforcement-Imitation Learning with Mixture-of-Codebooks for Autonomous Driving Simulation

要約

さまざまなシナリオにおける異種エージェントの多様な動作を正確にシミュレーションすることは、自動運転シミュレーションの基礎です。
このタスクは、行動分布のマルチモダリティ、運転シナリオの高次元性、分布の変化、および不完全な情報により困難です。
私たちの最初の洞察は、微分可能なシミュレーションを通じて状態マッチングを活用して、有意義な学習シグナルを提供し、ポリシーに対する効率的な単位の割り当てを実現することです。
これは、勾配高速道路とエージェント間の勾配経路の存在を明らかにすることによって実証されます。
しかし、低密度領域での勾配爆発と弱い監視の問題が発見されました。
2 番目の洞察は、これらの問題は、デュアル ポリシーの正則化を適用して関数空間を狭めることで解決できるということです。
さらに多様性を考慮すると、3 番目の洞察は、データセット内の異種エージェントの動作を、検索用の一連のプロトタイプ ベクトルとして効果的に圧縮できるということです。
これらは、時間的に抽象化された混合コードブック (MRIC) を備えたモデルベースの強化模倣学習フレームワークにつながります。
MRIC では、トレーニングを安定させるための開ループ モデルベースの模倣学習正則化と、ドメイン知識を注入するためのモデルベースの強化学習 (RL) 正則化が導入されています。
RL 正則化には、微分可能なミンコフスキ差ベースの衝突回避と、投影ベースの路上および交通ルール遵守報酬が含まれます。
正則化の有効性を確保しながら正則化による干渉を排除するために、動的な乗算機構がさらに提案されています。
大規模な Waymo オープン モーション データセットを使用した実験結果は、MRIC が多様性、行動リアリズム、分布リアリズムに関して最先端のベースラインを上回り、いくつかの重要な指標 (衝突率、minSADE、衝突までの時間など) において大きなマージンを備えていることを示しています。
JSD)。

要約(オリジナル)

Accurately simulating diverse behaviors of heterogeneous agents in various scenarios is fundamental to autonomous driving simulation. This task is challenging due to the multi-modality of behavior distribution, the high-dimensionality of driving scenarios, distribution shift, and incomplete information. Our first insight is to leverage state-matching through differentiable simulation to provide meaningful learning signals and achieve efficient credit assignment for the policy. This is demonstrated by revealing the existence of gradient highways and interagent gradient pathways. However, the issues of gradient explosion and weak supervision in low-density regions are discovered. Our second insight is that these issues can be addressed by applying dual policy regularizations to narrow the function space. Further considering diversity, our third insight is that the behaviors of heterogeneous agents in the dataset can be effectively compressed as a series of prototype vectors for retrieval. These lead to our model-based reinforcement-imitation learning framework with temporally abstracted mixture-of-codebooks (MRIC). MRIC introduces the open-loop modelbased imitation learning regularization to stabilize training, and modelbased reinforcement learning (RL) regularization to inject domain knowledge. The RL regularization involves differentiable Minkowskidifference-based collision avoidance and projection-based on-road and traffic rule compliance rewards. A dynamic multiplier mechanism is further proposed to eliminate the interference from the regularizations while ensuring their effectiveness. Experimental results using the largescale Waymo open motion dataset show that MRIC outperforms state-ofthe-art baselines on diversity, behavioral realism, and distributional realism, with large margins on some key metrics (e.g., collision rate, minSADE, and time-to-collision JSD).

arxiv情報

著者 Baotian He,Yibing Li
発行日 2024-04-29 06:51:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク