Efficient Fusion and Task Guided Embedding for End-to-end Autonomous Driving

要約

センサーフュージョンと安全リスク予測の課題に対処するために、模倣学習を活用した現代の閉ループ自律走行ニューラルネットワークは、通常、ニューラルネットワークを実行するために相当量のパラメータと計算資源を必要とする。車載コンピュータの計算能力が制約されていることを考慮し、EfficientFuserと名付けられたコンパクトかつ強力なソリューションを紹介します。このアプローチは、視覚情報抽出にEfficientViTを採用し、交差注意によって特徴マップを統合する。その後、複数の特徴の統合のためにデコーダのみの変換器を利用する。予測目的のために、学習可能なベクトルをトークンとして埋め込み、注意を通してタスクとセンサ特徴間の関連性を探る。CARLAシミュレーションプラットフォームで評価した結果、EfficientFuserは、最先端の軽量手法と比較して、わずか37.6%のパラメータと8.7%の計算を利用するだけで、0.4%低いドライビングスコアしか得られないという驚くべき効率を示し、安全性のスコアは、主要な安全強化手法に近づいた。

要約(オリジナル)

To address the challenges of sensor fusion and safety risk prediction, contemporary closed-loop autonomous driving neural networks leveraging imitation learning typically require a substantial volume of parameters and computational resources to run neural networks. Given the constrained computational capacities of onboard vehicular computers, we introduce a compact yet potent solution named EfficientFuser. This approach employs EfficientViT for visual information extraction and integrates feature maps via cross attention. Subsequently, it utilizes a decoder-only transformer for the amalgamation of multiple features. For prediction purposes, learnable vectors are embedded as tokens to probe the association between the task and sensor features through attention. Evaluated on the CARLA simulation platform, EfficientFuser demonstrates remarkable efficiency, utilizing merely 37.6% of the parameters and 8.7% of the computations compared to the state-of-the-art lightweight method with only 0.4% lower driving score, and the safety score neared that of the leading safety-enhanced method, showcasing its efficacy and potential for practical deployment in autonomous driving systems.

arxiv情報

著者 Yipin Guo,Yilin Lang,Qinyuan Ren
発行日 2024-07-03 07:45:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO パーマリンク