要約
近年、エンドツーエンドの自律運転アーキテクチャは、エラーの蓄積を回避する際の利点により、注目を集めています。
ほとんどの既存のエンドツーエンドの自律運転方法は、模倣学習(IL)に基づいており、専門家の行動を模倣することで駆動戦略を迅速に導き出すことができます。
ただし、ILは、特に高ダイナミックおよびインタラクション集約型のトラフィック環境で、トレーニングデータセットの外でシナリオを処理するのに苦労しています。
対照的に、補強学習(RL)ベースの運転モデルは、環境との相互作用を通じて運転決定を最適化し、適応性と堅牢性を向上させることができます。
ILとRLの両方の強度を活用するために、意思決定を促進するためのエンドツーエンドの世界モデルベースのRL方法であるRambleを提案します。
Rambleは、非対称の変動自動エンコーダーを介して、RGB画像とLIDARデータから環境コンテキスト情報を抽出します。
次に、トランスベースのアーキテクチャを使用して、交通参加者の動的遷移をキャプチャします。
次に、現在の状態とダイナミクスの潜在的な特徴に基づいて、運転戦略を導き出すために、アクター – 批評家構造補強学習アルゴリズムが適用されます。
ポリシーの収束を加速し、安定したトレーニングを確保するために、ILを使用してポリシーネットワークを初期化するトレーニングスキームを導入し、KLの損失とソフト更新メカニズムを使用して、モデルをILからRLにスムーズに遷移させます。
ランブルは、カーラリーダーボード1.0のルート完成レートで最先端のパフォーマンスを達成し、カーラリーダーボード2.0の38のシナリオすべてを完了し、複雑で動的なトラフィックシナリオの取り扱いにおける有効性を示しています。
このモデルは、自律運転のさらなる研究開発をサポートするために、https://github.com/scp-cn-001/rambleで紙の受け入れ時にオープンソーリングされます。
要約(オリジナル)
In recent years, end-to-end autonomous driving architectures have gained increasing attention due to their advantage in avoiding error accumulation. Most existing end-to-end autonomous driving methods are based on Imitation Learning (IL), which can quickly derive driving strategies by mimicking expert behaviors. However, IL often struggles to handle scenarios outside the training dataset, especially in high-dynamic and interaction-intensive traffic environments. In contrast, Reinforcement Learning (RL)-based driving models can optimize driving decisions through interaction with the environment, improving adaptability and robustness. To leverage the strengths of both IL and RL, we propose RAMBLE, an end-to-end world model-based RL method for driving decision-making. RAMBLE extracts environmental context information from RGB images and LiDAR data through an asymmetrical variational autoencoder. A transformer-based architecture is then used to capture the dynamic transitions of traffic participants. Next, an actor-critic structure reinforcement learning algorithm is applied to derive driving strategies based on the latent features of the current state and dynamics. To accelerate policy convergence and ensure stable training, we introduce a training scheme that initializes the policy network using IL, and employs KL loss and soft update mechanisms to smoothly transition the model from IL to RL. RAMBLE achieves state-of-the-art performance in route completion rate on the CARLA Leaderboard 1.0 and completes all 38 scenarios on the CARLA Leaderboard 2.0, demonstrating its effectiveness in handling complex and dynamic traffic scenarios. The model will be open-sourced upon paper acceptance at https://github.com/SCP-CN-001/ramble to support further research and development in autonomous driving.
arxiv情報
著者 | Yueyuan Li,Mingyang Jiang,Songan Zhang,Wei Yuan,Chunxiang Wang,Ming Yang |
発行日 | 2025-04-20 06:05:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google