要約
道路利用者の意図が不明であるため、複雑な都市環境でリラクティブな運転行動を作ることは依然として困難なトピックです。
モデルベースの強化学習(MBRL)は、有益な状態と想像力のトレーニングを提供できる世界モデルを構築することにより、リアクティブポリシーを学習する大きな可能性を提供します。
ただし、関連する研究の重要な制限は、シーンレベルの再構築表現学習にあり、重要なインタラクティブな車両を見落とし、車両間のインタラクティブな機能とその長期的な意図をほとんどモデル化しない可能性があります。
したがって、このペーパーでは、自律運転のための予測的な個々の世界モデル(PIWM)を備えた新しいMBRL法を紹介します。
PIWMは、個人レベルの観点から運転環境を説明し、軌道予測タスクを介して車両のインタラクティブな関係とその意図をキャプチャします。
一方、行動ポリシーはPIWMと共同で学習されます。
それはPIWMの想像力で訓練されており、意図的な潜在的な状態を活用する都市の運転シーンを効果的にナビゲートします。
提案された方法は、実世界の挑戦的なインタラクティブシナリオ上に構築されたシミュレーション環境でトレーニングおよび評価されます。
人気のあるモデルのない最先端のモデルベースの強化学習方法と比較して、実験結果は、提案された方法が安全性と効率性の点で最高のパフォーマンスを達成することを示しています。
要約(オリジナル)
It is still a challenging topic to make reactive driving behaviors in complex urban environments as road users’ intentions are unknown. Model-based reinforcement learning (MBRL) offers great potential to learn a reactive policy by constructing a world model that can provide informative states and imagination training. However, a critical limitation in relevant research lies in the scene-level reconstruction representation learning, which may overlook key interactive vehicles and hardly model the interactive features among vehicles and their long-term intentions. Therefore, this paper presents a novel MBRL method with a predictive individual world model (PIWM) for autonomous driving. PIWM describes the driving environment from an individual-level perspective and captures vehicles’ interactive relations and their intentions via trajectory prediction task. Meanwhile, a behavior policy is learned jointly with PIWM. It is trained in PIWM’s imagination and effectively navigates in the urban driving scenes leveraging intention-aware latent states. The proposed method is trained and evaluated on simulation environments built upon real-world challenging interactive scenarios. Compared with popular model-free and state-of-the-art model-based reinforcement learning methods, experimental results show that the proposed method achieves the best performance in terms of safety and efficiency.
arxiv情報
著者 | Yinfeng Gao,Qichao Zhang,Da-wei Ding,Dongbin Zhao |
発行日 | 2025-01-28 06:18:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google