要約
画像ベースの状態空間を使用した自動運転では、将来のイベントを正確に予測し、多様な行動モードをモデル化することが安全性と効果的な意思決定に不可欠です。
ワールド モデルベースの強化学習 (WMRL) アプローチは、現在の状態とアクションから将来の状態をシミュレートすることにより、有望なソリューションを提供します。
ただし、ワールド モデルの有用性は、決定論的分布または単一ガウス分布に限定される典型的な RL ポリシーによって制限されることがよくあります。
考えられるアクションの全範囲を把握できないため、複雑で動的な環境での適応性が低下します。
この研究では、正確な将来予測のための高忠実度の世界モデルである VISTAPlan と、マルチモーダルな動作をモデル化するための拡散ベースのポリシーである Diffusion Policy Actor (DPA) という 2 つのコンポーネントで構成されるフレームワークである Imagine-2-Drive を紹介します。
軌道予測用。
VISTAPlan を使用して DPA からの軌跡をシミュレーションおよび評価し、ノイズ除去拡散ポリシー最適化 (DDPO) を使用して DPA をトレーニングして、軌跡にわたる報酬の累積合計を最大化します。
標準的な推進指標を使用して、CARLA の各コンポーネントとフレームワーク全体の利点を分析します。
VISTAPlan と DPA という 2 つの新機能の結果、当社は、標準的な運転指標において、ルート完了率と成功率でそれぞれ 15% と 20% 、最先端 (SOTA) 世界モデルを大幅に上回りました。
要約(オリジナル)
In autonomous driving with image based state space, accurate prediction of future events and modeling diverse behavioral modes are essential for safety and effective decision-making. World model-based Reinforcement Learning (WMRL) approaches offers a promising solution by simulating future states from current state and actions. However, utility of world models is often limited by typical RL policies being limited to deterministic or single gaussian distribution. By failing to capture the full spectrum of possible actions, reduces their adaptability in complex, dynamic environments. In this work, we introduce Imagine-2-Drive, a framework that consists of two components, VISTAPlan, a high-fidelity world model for accurate future prediction and Diffusion Policy Actor (DPA), a diffusion based policy to model multi-modal behaviors for trajectory prediction. We use VISTAPlan to simulate and evaluate trajectories from DPA and use Denoising Diffusion Policy Optimization (DDPO) to train DPA to maximize the cumulative sum of rewards over the trajectories. We analyze the benefits of each component and the framework as a whole in CARLA with standard driving metrics. As a consequence of our twin novelties- VISTAPlan and DPA, we significantly outperform the state of the art (SOTA) world models on standard driving metrics by 15% and 20% on Route Completion and Success Rate respectively.
arxiv情報
著者 | Anant Garg,K Madhava Krishna |
発行日 | 2024-11-15 13:17:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google