Efficient Fusion and Task Guided Embedding for End-to-end Autonomous Driving

要約

センサー フュージョンと安全リスク予測の課題に対処するために、模倣学習を利用する現代の閉ループ自動運転ニューラル ネットワークは通常、ニューラル ネットワークを実行するためにかなりの量のパラメーターと計算リソースを必要とします。
車載コンピュータの計算能力には制約があるため、EfficientFuser というコンパクトで強力なソリューションを導入します。
このアプローチでは、視覚情報の抽出に EfficientViT を採用し、クロス アテンションを通じて特徴マップを統合します。
その後、複数の機能を統合するためにデコーダ専用のトランスフォーマーを利用します。
予測の目的で、学習可能なベクトルがトークンとして埋め込まれ、注意を通じてタスクとセンサーの特徴の間の関連性が調査されます。
CARLA シミュレーション プラットフォームで評価した EfficientFuser は、最先端の軽量手法と比較してパラメータの 37.6% と計算の 8.7% を利用するだけで、運転スコアがわずか 0.4% 低いだけで、安全性スコアに近づくという顕著な効率を示しました。
安全性を強化する最先端の手法であり、その有効性と自動運転システムへの実用化の可能性を示しています。

要約(オリジナル)

To address the challenges of sensor fusion and safety risk prediction, contemporary closed-loop autonomous driving neural networks leveraging imitation learning typically require a substantial volume of parameters and computational resources to run neural networks. Given the constrained computational capacities of onboard vehicular computers, we introduce a compact yet potent solution named EfficientFuser. This approach employs EfficientViT for visual information extraction and integrates feature maps via cross attention. Subsequently, it utilizes a decoder-only transformer for the amalgamation of multiple features. For prediction purposes, learnable vectors are embedded as tokens to probe the association between the task and sensor features through attention. Evaluated on the CARLA simulation platform, EfficientFuser demonstrates remarkable efficiency, utilizing merely 37.6% of the parameters and 8.7% of the computations compared to the state-of-the-art lightweight method with only 0.4% lower driving score, and the safety score neared that of the leading safety-enhanced method, showcasing its efficacy and potential for practical deployment in autonomous driving systems.

arxiv情報

著者 Yipin Guo,Yilin Lang,Qinyuan Ren
発行日 2024-07-17 00:50:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク