EasyChauffeur: A Baseline Advancing Simplicity and Efficiency on Waymax

要約

ディープラーニングベースの運転プランナーの最近の進歩は、主に精巧なネットワークエンジニアリングに焦点を当てており、改善は限られています。
この論文は、トレーニング ポリシー、データ効率、評価の堅牢性という 3 つの基本的でありながら十分に調査されていない側面を探ることによって、従来のアプローチから分岐しています。
GPU 高速化シミュレーターである Waymax 上の模倣学習 (IL) と強化学習 (RL) の両方のための再現可能で効果的なプランナーである EasyChauffeur を紹介します。
特に、私たちの調査結果は、オンポリシー RL を組み込むとパフォーマンスとデータ効率が大幅に向上することを示しています。
この効率をさらに高めるために、エンコーダの潜在空間からデータを選択的にサンプリングする新しい方法である SNE-Sampling を提案し、RL による EasyChauffeur のパフォーマンスを大幅に向上させます。
さらに、現在の評価方法には欠陥があり、自我車両の初期状態のわずかな変更によるパフォーマンスの大幅な低下により、さまざまなプランナーの堅牢性を正確に評価できていないことがわかりました。
これに応えて、プランナーの堅牢性を評価するための新しい評価設定である Ego-Shifting を提案します。
私たちの調査結果は、ネットワーク アーキテクチャへの主な焦点から、トレーニング戦略、データ効率、堅牢な評価方法を含む総合的なアプローチの採用への移行を提唱しています。

要約(オリジナル)

Recent advancements in deep-learning-based driving planners have primarily focused on elaborate network engineering, yielding limited improvements. This paper diverges from conventional approaches by exploring three fundamental yet underinvestigated aspects: training policy, data efficiency, and evaluation robustness. We introduce EasyChauffeur, a reproducible and effective planner for both imitation learning (IL) and reinforcement learning (RL) on Waymax, a GPU-accelerated simulator. Notably, our findings indicate that the incorporation of on-policy RL significantly boosts performance and data efficiency. To further enhance this efficiency, we propose SNE-Sampling, a novel method that selectively samples data from the encoder’s latent space, substantially improving EasyChauffeur’s performance with RL. Additionally, we identify a deficiency in current evaluation methods, which fail to accurately assess the robustness of different planners due to significant performance drops from minor changes in the ego vehicle’s initial state. In response, we propose Ego-Shifting, a new evaluation setting for assessing planners’ robustness. Our findings advocate for a shift from a primary focus on network architectures to adopting a holistic approach encompassing training strategies, data efficiency, and robust evaluation methods.

arxiv情報

著者 Lingyu Xiao,Jiang-Jiang Liu,Xiaoqing Ye,Wankou Yang,Jingdong Wang
発行日 2024-08-29 09:34:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク