要約
最近の LiDAR ベースの 3D 物体検出 (3DOD) 手法は有望な結果を示していますが、多くの場合、ソース (またはトレーニング) データ分布の外側にあるターゲット ドメインにはうまく一般化できません。
このようなドメインギャップを削減し、3DOD モデルをより一般化できるようにするために、CMDA と呼ばれる新しい教師なしドメイン適応 (UDA) 手法を導入します。これは、(i) 画像モダリティ (つまり、カメラ画像) からの視覚的意味論的手がかりを効果的な手段として活用します。
クロスモーダル鳥瞰図 (BEV) 表現におけるドメイン ギャップを埋めるためのセマンティック ブリッジ。
さらに、(ii) 自己トレーニングベースの学習戦略も導入します。この戦略では、モデルがドメイン不変の特徴を生成するように敵対的にトレーニングされ、特徴インスタンスがソース ドメインから来たのか、それとも目に見えないターゲット ドメインから来たのかの区別を混乱させます。
全体として、当社の CMDA フレームワークは、3DOD モデルをガイドして、新しいデータ分布向けに非常に有益なドメイン適応機能を生成します。
nuScenes、Waymo、KITTI などの大規模ベンチマークを使用した広範な実験では、上記のベンチマークにより UDA タスクのパフォーマンスが大幅に向上し、最先端のパフォーマンスが実現されました。
要約(オリジナル)
Recent LiDAR-based 3D Object Detection (3DOD) methods show promising results, but they often do not generalize well to target domains outside the source (or training) data distribution. To reduce such domain gaps and thus to make 3DOD models more generalizable, we introduce a novel unsupervised domain adaptation (UDA) method, called CMDA, which (i) leverages visual semantic cues from an image modality (i.e., camera images) as an effective semantic bridge to close the domain gap in the cross-modal Bird’s Eye View (BEV) representations. Further, (ii) we also introduce a self-training-based learning strategy, wherein a model is adversarially trained to generate domain-invariant features, which disrupt the discrimination of whether a feature instance comes from a source or an unseen target domain. Overall, our CMDA framework guides the 3DOD model to generate highly informative and domain-adaptive features for novel data distributions. In our extensive experiments with large-scale benchmarks, such as nuScenes, Waymo, and KITTI, those mentioned above provide significant performance gains for UDA tasks, achieving state-of-the-art performance.
arxiv情報
著者 | Gyusam Chang,Wonseok Roh,Sujin Jang,Dongwook Lee,Daehyun Ji,Gyeongrok Oh,Jinsun Park,Jinkyu Kim,Sangpil Kim |
発行日 | 2024-03-07 02:20:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google