Multi-latent Space Alignments for Unsupervised Domain Adaptation in Multi-view 3D Object Detection

要約

視覚中心の鳥瞰図 (BEV) 認識は有望な可能性を示しており、自動運転でますます注目を集めています。
最近の研究では、主に効率や精度の向上に焦点が当てられていますが、ドメイン シフトの問題が無視されているため、転送パフォーマンスが大幅に低下しています。
広範な観察により、シーン、天気、昼夜の変化のシナリオに存在する重要なドメインギャップを把握し、マルチビュー 3D オブジェクト検出のドメイン適応問題を解決する最初の試みを行います。
BEV 知覚アプローチは通常複雑でいくつかのコンポーネントを含むため、マルチ潜在空間でのドメイン シフトの蓄積により、BEV ドメインの適応が困難になります。
この論文では、ドメインシフトの蓄積を容易にするための新しいマルチレベルマルチスペースアラインメント教師-生徒 ($M^{2}ATS$) フレームワークを提案します。これは、深度認識教師 (DAT) とマルチ
-space Feature Aligned (MFA) 学生モデル。
具体的には、DAT モデルは不確実性ガイダンスを採用して、ターゲット ドメインで信頼できる深度情報をサンプリングします。
ドメイン不変の BEV 認識を構築した後、ピクセルおよびインスタンス レベルの知識を学生モデルに転送します。
グローバル レベルでのドメイン シフトをさらに緩和するために、MFA 学生モデルが導入され、2 つのドメインのタスク関連のマルチスペース機能が調整されます。
$M^{2}ATS$ の有効性を検証するために、4 つのクロスドメイン シナリオで BEV 3D オブジェクト検出実験を実施し、最先端のパフォーマンスを達成します (例: Day で +12.6% NDS および +9.1% mAP)
-夜)。
コードとデータセットがリリースされます。

要約(オリジナル)

Vision-Centric Bird-Eye-View (BEV) perception has shown promising potential and attracted increasing attention in autonomous driving. Recent works mainly focus on improving efficiency or accuracy but neglect the domain shift problem, resulting in severe degradation of transfer performance. With extensive observations, we figure out the significant domain gaps existing in the scene, weather, and day-night changing scenarios and make the first attempt to solve the domain adaption problem for multi-view 3D object detection. Since BEV perception approaches are usually complicated and contain several components, the domain shift accumulation on multi-latent spaces makes BEV domain adaptation challenging. In this paper, we propose a novel Multi-level Multi-space Alignment Teacher-Student ($M^{2}ATS$) framework to ease the domain shift accumulation, which consists of a Depth-Aware Teacher (DAT) and a Multi-space Feature Aligned (MFA) student model. Specifically, DAT model adopts uncertainty guidance to sample reliable depth information in target domain. After constructing domain-invariant BEV perception, it then transfers pixel and instance-level knowledge to student model. To further alleviate the domain shift at the global level, MFA student model is introduced to align task-relevant multi-space features of two domains. To verify the effectiveness of $M^{2}ATS$, we conduct BEV 3D object detection experiments on four cross domain scenarios and achieve state-of-the-art performance (e.g., +12.6% NDS and +9.1% mAP on Day-Night). Code and dataset will be released.

arxiv情報

著者 Jiaming Liu,Rongyu Zhang,Xiaowei Chi,Xiaoqi Li,Ming Lu,Yandong Guo,Shanghang Zhang
発行日 2022-11-30 16:03:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク