要約
正確かつ堅牢なパフォーマンスを目指してマルチモダリティ マルチタスク ニューラル ネットワークを構築することは、自動運転の認識タスクにおける事実上の標準です。
ただし、複数のセンサーからのこのようなデータを活用して、予測タスクと計画タスクを共同で最適化する方法は、ほとんど解明されていないままです。
このペーパーでは、私たちの知る限り、カメラと LiDAR という 2 つの最も重要なセンサーからの情報を融合し、認識タスクを超えた初の統合フレームワークである FusionAD を紹介します。
具体的には、まずトランスフォーマーベースのマルチモダリティフュージョンネットワークを構築し、フュージョンベースの機能を効果的に生成します。
カメラベースのエンドツーエンド方式 UniAD とは対照的に、マルチモダリティ機能を活用する FMSPnP と呼ばれる、融合支援モダリティ認識予測およびステータス認識計画モジュールを確立します。
一般的に使用されるベンチマーク nuScenes データセットで広範な実験を実施し、FusionAD は最先端のパフォーマンスを達成し、検出や追跡などの認識タスクでベースラインを平均 15%、占有予測精度で 10% 上回り、予測誤差を 0.708 から 0.708 に削減しました。
ADE スコアが 0.389 になり、衝突率が 0.31% からわずか 0.12% に減少します。
要約(オリジナル)
Building a multi-modality multi-task neural network toward accurate and robust performance is a de-facto standard in perception task of autonomous driving. However, leveraging such data from multiple sensors to jointly optimize the prediction and planning tasks remains largely unexplored. In this paper, we present FusionAD, to the best of our knowledge, the first unified framework that fuse the information from two most critical sensors, camera and LiDAR, goes beyond perception task. Concretely, we first build a transformer based multi-modality fusion network to effectively produce fusion based features. In constrast to camera-based end-to-end method UniAD, we then establish a fusion aided modality-aware prediction and status-aware planning modules, dubbed FMSPnP that take advantages of multi-modality features. We conduct extensive experiments on commonly used benchmark nuScenes dataset, our FusionAD achieves state-of-the-art performance and surpassing baselines on average 15% on perception tasks like detection and tracking, 10% on occupancy prediction accuracy, reducing prediction error from 0.708 to 0.389 in ADE score and reduces the collision rate from 0.31% to only 0.12%.
arxiv情報
著者 | Tengju Ye,Wei Jing,Chunyong Hu,Shikun Huang,Lingping Gao,Fangzhen Li,Jingke Wang,Ke Guo,Wencong Xiao,Weibo Mao,Hang Zheng,Kun Li,Junbo Chen,Kaicheng Yu |
発行日 | 2023-08-14 08:28:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google