M2DA: Multi-Modal Fusion Transformer Incorporating Driver Attention for Autonomous Driving

要約

エンドツーエンドの自動運転は目覚ましい進歩を遂げています。
しかし、自動運転車の広範な展開はまだ実現していません。その主な理由は 1) 非効率的なマルチモーダル環境認識: マルチモーダル センサーからのデータをより効率的に統合する方法。
2) 人間以外の状況の理解: 経験豊富なドライバーのように、交通シナリオにおいて重要な危険人物を効果的に見つけて予測する方法。
これらの課題を克服するために、本稿では、自動運転用のドライバー・アテンション(M2DA)を組み込んだマルチモーダル融合変圧器を提案します。
マルチモーダル データをより適切に融合し、異なるモダリティ間の高度な調整を達成するために、新しい Lidar-Vision-Attendance-based Fusion (LVAFusion) モジュールが提案されています。
ドライバーの注意を組み込むことで、自動運転車に人間のような情景理解能力を与え、複雑なシナリオ内の重要な領域を正確に特定し、安全性を確保します。
CARLA シミュレーターで実験を実施し、閉ループ ベンチマークでより少ないデータで最先端のパフォーマンスを実現します。
ソース コードは https://anonymous.4open.science/r/M2DA-4772 で入手できます。

要約(オリジナル)

End-to-end autonomous driving has witnessed remarkable progress. However, the extensive deployment of autonomous vehicles has yet to be realized, primarily due to 1) inefficient multi-modal environment perception: how to integrate data from multi-modal sensors more efficiently; 2) non-human-like scene understanding: how to effectively locate and predict critical risky agents in traffic scenarios like an experienced driver. To overcome these challenges, in this paper, we propose a Multi-Modal fusion transformer incorporating Driver Attention (M2DA) for autonomous driving. To better fuse multi-modal data and achieve higher alignment between different modalities, a novel Lidar-Vision-Attention-based Fusion (LVAFusion) module is proposed. By incorporating driver attention, we empower the human-like scene understanding ability to autonomous vehicles to identify crucial areas within complex scenarios precisely and ensure safety. We conduct experiments on the CARLA simulator and achieve state-of-the-art performance with less data in closed-loop benchmarks. Source codes are available at https://anonymous.4open.science/r/M2DA-4772.

arxiv情報

著者 Dongyang Xu,Haokun Li,Qingfan Wang,Ziying Song,Lei Chen,Hanming Deng
発行日 2024-03-19 08:54:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク