Generalizing Motion Planners with Mixture of Experts for Autonomous Driving

要約

大規模な現実世界の運転データセットは、自動運転のためのデータ駆動型モーション プランナーのさまざまな側面に関する重要な研究を引き起こしました。
これらには、データ拡張、モデル アーキテクチャ、報酬設計、トレーニング戦略、プランナー パイプラインが含まれます。
これらのプランナーは、複雑でショット数が少ないケースに対して、以前の方法よりも優れた一般化を約束します。
ただし、実験結果では、これらのアプローチの多くは、過度に複雑な設計やトレーニング パラダイムにより、計画パフォーマンスの一般化能力が限られていることが示されています。
このペーパーでは、一般化に焦点を当てて以前の方法をレビューし、ベンチマークします。
実験結果は、モデルが適切にスケーリングされると、多くの設計要素が冗長になることを示しています。
StateTransformer-2 (STR2) は、Vision Transformer (ViT) エンコーダーと Mixed of Experts (MoE) 因果的 Transformer アーキテクチャを使用する、スケーラブルなデコーダー専用モーション プランナーです。
MoE バックボーンは、トレーニング中の専門家によるルーティングによるモダリティの崩壊と報酬のバランスに対処します。
NuPlan データセットに対する広範な実験により、私たちの方法がさまざまなテスト セットや閉ループ シミュレーションにわたって以前のアプローチよりも一般化できることがわかりました。
さらに、何十億もの実際の都市部の運転シナリオでそのスケーラビリティを評価し、データとモデルのサイズの両方が増大するにつれて一貫して精度が向上することを実証しました。

要約(オリジナル)

Large real-world driving datasets have sparked significant research into various aspects of data-driven motion planners for autonomous driving. These include data augmentation, model architecture, reward design, training strategies, and planner pipelines. These planners promise better generalizations on complicated and few-shot cases than previous methods. However, experiment results show that many of these approaches produce limited generalization abilities in planning performance due to overly complex designs or training paradigms. In this paper, we review and benchmark previous methods focusing on generalizations. The experimental results indicate that as models are appropriately scaled, many design elements become redundant. We introduce StateTransformer-2 (STR2), a scalable, decoder-only motion planner that uses a Vision Transformer (ViT) encoder and a mixture-of-experts (MoE) causal Transformer architecture. The MoE backbone addresses modality collapse and reward balancing by expert routing during training. Extensive experiments on the NuPlan dataset show that our method generalizes better than previous approaches across different test sets and closed-loop simulations. Furthermore, we assess its scalability on billions of real-world urban driving scenarios, demonstrating consistent accuracy improvements as both data and model size grow.

arxiv情報

著者 Qiao Sun,Huimin Wang,Jiahao Zhan,Fan Nie,Xin Wen,Leimeng Xu,Kun Zhan,Peng Jia,Xianpeng Lang,Hang Zhao
発行日 2024-10-29 05:35:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク