要約
学習ベースの意思決定には、一般化可能な自律運転(AD)ポリシーを可能にする可能性があり、ルールベースのアプローチのエンジニアリングオーバーヘッドを削減します。
模倣学習(IL)は依然として支配的なパラダイムであり、大規模な人間のデモデータセットの恩恵を受けていますが、分布シフトや模倣ギャップなどの固有の制限に苦しんでいます。
強化学習(RL)は有望な代替案を提示しますが、標準化された効率的な研究フレームワークがないため、ADでの採用は依然として限られたままです。
この目的のために、ADのRLを実用的にするために必要なすべてのツールを提供するオープンな研究フレームワークであるV-Maxを紹介します。
V-Maxは、大規模な実験用に設計されたハードウェアアクセラレーションの広告シミュレーターであるWayMax上に構築されています。
シナリオネットのアプローチを使用して拡張し、多様な広告データセットの高速シミュレーションを可能にします。
V-Maxは、一連の観測および報酬機能、変圧器ベースのエンコーダー、およびトレーニングパイプラインを統合します。
さらに、敵対的な評価設定と広範な評価メトリックセットが含まれています。
大規模なベンチマークを通じて、ネットワークアーキテクチャ、観察機能、トレーニングデータ、および報酬の形成RLパフォーマンスを分析します。
要約(オリジナル)
Learning-based decision-making has the potential to enable generalizable Autonomous Driving (AD) policies, reducing the engineering overhead of rule-based approaches. Imitation Learning (IL) remains the dominant paradigm, benefiting from large-scale human demonstration datasets, but it suffers from inherent limitations such as distribution shift and imitation gaps. Reinforcement Learning (RL) presents a promising alternative, yet its adoption in AD remains limited due to the lack of standardized and efficient research frameworks. To this end, we introduce V-Max, an open research framework providing all the necessary tools to make RL practical for AD. V-Max is built on Waymax, a hardware-accelerated AD simulator designed for large-scale experimentation. We extend it using ScenarioNet’s approach, enabling the fast simulation of diverse AD datasets. V-Max integrates a set of observation and reward functions, transformer-based encoders, and training pipelines. Additionally, it includes adversarial evaluation settings and an extensive set of evaluation metrics. Through a large-scale benchmark, we analyze how network architectures, observation functions, training data, and reward shaping impact RL performance.
arxiv情報
著者 | Valentin Charraut,Thomas Tournaire,Waël Doulazmi,Thibault Buhet |
発行日 | 2025-03-11 12:53:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google