Enhancing End-to-End Autonomous Driving with Latent World Model

要約

エンドツーエンドの自動運転は幅広い注目を集めています。
現在のエンドツーエンドのアプローチは、シーン表現の学習を支援する検出、追跡、マップ セグメンテーションなどの認識タスクによる監視に大きく依存しています。
ただし、これらの方法では大規模な注釈が必要となり、データのスケーラビリティが妨げられます。
この課題に対処するために、高価なラベルを必要とせずにエンドツーエンドの駆動を強化する新しい自己監視型方法を提案します。
具体的には、私たちのフレームワーク \textbf{LAW} は、LAtent World モデルを使用して、予測されたエゴの行動と現在のフレームの潜在的な特徴に基づいて将来の潜在的な特徴を予測します。
予測された潜在的な特徴は、将来実際に観察される特徴によって監視されます。
この監視により、潜在的な特徴の学習と行動予測が共同で最適化され、運転パフォーマンスが大幅に向上します。
その結果、私たちのアプローチは、コストのかかるアノテーションなしで、開ループと閉ループの両方のベンチマークで最先端のパフォーマンスを達成します。

要約(オリジナル)

End-to-end autonomous driving has garnered widespread attention. Current end-to-end approaches largely rely on the supervision from perception tasks such as detection, tracking, and map segmentation to aid in learning scene representations. However, these methods require extensive annotations, hindering the data scalability. To address this challenge, we propose a novel self-supervised method to enhance end-to-end driving without the need for costly labels. Specifically, our framework \textbf{LAW} uses a LAtent World model to predict future latent features based on the predicted ego actions and the latent feature of the current frame. The predicted latent features are supervised by the actually observed features in the future. This supervision jointly optimizes the latent feature learning and action prediction, which greatly enhances the driving performance. As a result, our approach achieves state-of-the-art performance in both open-loop and closed-loop benchmarks without costly annotations.

arxiv情報

著者 Yingyan Li,Lue Fan,Jiawei He,Yuqi Wang,Yuntao Chen,Zhaoxiang Zhang,Tieniu Tan
発行日 2024-06-12 17:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク