要約
ダイナミックでインタラクティブな交通シナリオは、自律走行システムにとって大きな課題となる。強化学習(RL)は、特に複雑な環境において、事前に収集されたデータセットや事前に定義された条件の制約を超えた運転ポリシーの探索を可能にすることで、有望なアプローチを提供する。しかし、高次元のマルチモーダルな観測データから空間的・時間的特徴を効果的に抽出し、かつ経時的な誤差の蓄積を最小化することが重要な課題である。さらに、大規模なRLモデルを効率的に導き、学習過程で頻繁に失敗することなく最適な運転方針に収束させることは、依然として困難である。 我々はこれらの問題に対処するために、Rambleと名付けられたエンドツーエンドのモデルベースRLアルゴリズムを提案する。Rambleは、マルチビューのRGB画像とLiDAR点群を低次元の潜在特徴に処理し、各時間ステップにおける交通シナリオのコンテキストを捉える。次に、時間依存関係をモデル化し、将来の状態を予測するために、変換器ベースのアーキテクチャが採用される。環境の力学モデルを学習することにより、Rambleは今後の交通事象を予測し、より多くの情報に基づいた戦略的な意思決定を行うことができる。我々の実装は、特徴抽出と意思決定における事前の経験が、最適な運転ポリシーに向けたRLモデルの収束を加速する上で極めて重要な役割を果たすことを実証している。Rambleは、CARLA Leaderboard 2.0において、ルート完走率と運転スコアに関して最先端の性能を達成し、複雑で動的な交通状況を管理する上で有効であることを示している。
要約(オリジナル)
Dynamic and interactive traffic scenarios pose significant challenges for autonomous driving systems. Reinforcement learning (RL) offers a promising approach by enabling the exploration of driving policies beyond the constraints of pre-collected datasets and predefined conditions, particularly in complex environments. However, a critical challenge lies in effectively extracting spatial and temporal features from sequences of high-dimensional, multi-modal observations while minimizing the accumulation of errors over time. Additionally, efficiently guiding large-scale RL models to converge on optimal driving policies without frequent failures during the training process remains tricky. We propose an end-to-end model-based RL algorithm named Ramble to address these issues. Ramble processes multi-view RGB images and LiDAR point clouds into low-dimensional latent features to capture the context of traffic scenarios at each time step. A transformer-based architecture is then employed to model temporal dependencies and predict future states. By learning a dynamics model of the environment, Ramble can foresee upcoming traffic events and make more informed, strategic decisions. Our implementation demonstrates that prior experience in feature extraction and decision-making plays a pivotal role in accelerating the convergence of RL models toward optimal driving policies. Ramble achieves state-of-the-art performance regarding route completion rate and driving score on the CARLA Leaderboard 2.0, showcasing its effectiveness in managing complex and dynamic traffic situations.
arxiv情報
著者 | Yueyuan Li,Mingyang Jiang,Songan Zhang,Wei Yuan,Chunxiang Wang,Ming Yang |
発行日 | 2024-10-03 06:45:59+00:00 |
arxivサイト | arxiv_id(pdf) |