要約
3D 認識は自動運転において重要な問題です。
最近、Bird-Eye-View (BEV) アプローチが、低コストの導入と望ましい視覚検出能力により広く注目を集めています。
しかし、既存のモデルは運転手順中の現実的なシナリオを無視しています。つまり、1 つ以上のビュー カメラが故障する可能性があり、これにより性能が大幅に低下します。
この問題に取り組むために、エンドツーエンドのトレーニングでランダムなマスキングとカメラビューの再構築を行うことで、この困難なシナリオに対する堅牢性を効果的に向上できる、汎用のマスクされた BEV (M-BEV) 認識フレームワークを提案します。
より具体的には、M-BEV 用の新しいマスク ビュー再構成 (MVR) モジュールを開発します。
さまざまなカメラビューの特徴をランダムにマスクすることでさまざまな欠落ケースを模倣し、これらのビューの元の特徴を自己監視として活用し、ビュー全体にわたる明確な時空間コンテキストを使用してマスクされた特徴を再構築します。
このようなプラグアンドプレイ MVR を介して、当社の M-BEV は、欠落しているビューを残りのビューから学習することができるため、テストでの堅牢なビューの回復と正確な認識のために十分に一般化されています。
当社では、人気の NuScenes ベンチマークで広範な実験を行っています。このベンチマークでは、当社のフレームワークにより、さまざまなビュー欠落ケースにおける最先端モデルの 3D 認識パフォーマンスが大幅に向上します。たとえば、後方ビューがない場合、当社の M-BEV は、
10.3% の mAP ゲインを備えた PETRv2 モデル。
要約(オリジナル)
3D perception is a critical problem in autonomous driving. Recently, the Bird-Eye-View (BEV) approach has attracted extensive attention, due to low-cost deployment and desirable vision detection capacity. However, the existing models ignore a realistic scenario during the driving procedure, i.e., one or more view cameras may be failed, which largely deteriorates the performance. To tackle this problem, we propose a generic Masked BEV (M-BEV) perception framework, which can effectively improve robustness to this challenging scenario, by random masking and reconstructing camera views in the end-to-end training. More specifically, we develop a novel Masked View Reconstruction (MVR) module for M-BEV. It mimics various missing cases by randomly masking features of different camera views, then leverages the original features of these views as self-supervision, and reconstructs the masked ones with the distinct spatio-temporal context across views. Via such a plug-and-play MVR, our M-BEV is capable of learning the missing views from the resting ones, and thus well generalized for robust view recovery and accurate perception in the testing. We perform extensive experiments on the popular NuScenes benchmark, where our framework can significantly boost 3D perception performance of the state-of-the-art models on various missing view cases, e.g., for the absence of back view, our M-BEV promotes the PETRv2 model with 10.3% mAP gain.
arxiv情報
著者 | Siran Chen,Yue Ma,Yu Qiao,Yali Wang |
発行日 | 2023-12-19 13:25:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google