Exploring Recurrent Long-term Temporal Fusion for Multi-view 3D Perception

要約

長期的な時間的融合は、カメラベースの鳥瞰図 (BEV) 3D 認識において重要ですが、見過ごされがちな手法です。
既存のメソッドはほとんど並列方式です。
並列融合は長期的な情報から恩恵を受けることができますが、融合ウィンドウのサイズが大きくなるにつれて、計算とメモリのオーバーヘッドが増加するという問題があります。
別の方法として、BEVFormer は、履歴情報を効率的に統合できるように再帰的融合パイプラインを採用していますが、より長い時間フレームの恩恵を受けることはできません。
この論文では、LSSベースの方法に基づいて構築された非常に単純な長期反復融合戦略を調査し、両方のメリット、つまり豊富な長期情報と効率的な融合パイプラインをすでに享受できることを発見しました。
一時的な埋め込みモジュールは、実際のシナリオで時折見逃されるフレームに対するモデルの堅牢性を向上させるためにさらに提案されています。
このシンプルだが効果的なフュージング パイプラインを VideoBEV と名付けました。
nuScenes ベンチマークの実験結果によると、VideoBEV は、オブジェクト検出 (55.4% mAP および 62.9% NDS)、セグメンテーション (48.6% 車両 mIoU)、追跡 (54.8% AMOTA)、および
モーション予測 (0.80m minADE および 0.463 EPA)。
コードが利用可能になります。

要約(オリジナル)

Long-term temporal fusion is a crucial but often overlooked technique in camera-based Bird’s-Eye-View (BEV) 3D perception. Existing methods are mostly in a parallel manner. While parallel fusion can benefit from long-term information, it suffers from increasing computational and memory overheads as the fusion window size grows. Alternatively, BEVFormer adopts a recurrent fusion pipeline so that history information can be efficiently integrated, yet it fails to benefit from longer temporal frames. In this paper, we explore an embarrassingly simple long-term recurrent fusion strategy built upon the LSS-based methods and find it already able to enjoy the merits from both sides, i.e., rich long-term information and efficient fusion pipeline. A temporal embedding module is further proposed to improve the model’s robustness against occasionally missed frames in practical scenarios. We name this simple but effective fusing pipeline VideoBEV. Experimental results on the nuScenes benchmark show that VideoBEV obtains leading performance on various camera-based 3D perception tasks, including object detection (55.4% mAP and 62.9% NDS), segmentation (48.6% vehicle mIoU), tracking (54.8% AMOTA), and motion prediction (0.80m minADE and 0.463 EPA). Code will be available.

arxiv情報

著者 Chunrui Han,Jianjian Sun,Zheng Ge,Jinrong Yang,Runpei Dong,Hongyu Zhou,Weixin Mao,Yuang Peng,Xiangyu Zhang
発行日 2023-03-10 15:01:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク