要約
カメラのみの鳥瞰図 (BEV) は、3D 空間での環境認識において大きな可能性を示しています。
ただし、既存の研究のほとんどは、さまざまな新しいデータを処理しながら適切に拡張できない教師付きセットアップの下で実施されました。
さまざまなラベルなしターゲットデータから効果的に学習する教師なしドメイン適応型 BEV は、ほとんど研究されていません。
この研究では、イメージビュー機能と BEV 機能の相補的な性質を活用することでドメイン適応型 BEV の課題に対処する初のドメイン適応型カメラ専用 BEV フレームワークである DA-BEV を設計します。
DA-BEV は、ドメイン アダプテーション フレームワークにクエリの概念を導入し、画像ビューと BEV の特徴から有用な情報を導き出します。
これは、クエリベースの敵対的学習 (QAL) とクエリベースの自己トレーニング (QST) という 2 つのクエリベースの設計で構成されており、画像ビューの特徴または BEV の特徴を利用して他方の適応を正規化します。
広範な実験により、DA-BEV が複数のデータセットおよび 3D オブジェクト検出や 3D シーン セグメンテーションなどのタスクにわたって優れたドメイン適応型 BEV 知覚パフォーマンスを一貫して達成することが示されています。
要約(オリジナル)
Camera-only Bird’s Eye View (BEV) has demonstrated great potential in environment perception in a 3D space. However, most existing studies were conducted under a supervised setup which cannot scale well while handling various new data. Unsupervised domain adaptive BEV, which effective learning from various unlabelled target data, is far under-explored. In this work, we design DA-BEV, the first domain adaptive camera-only BEV framework that addresses domain adaptive BEV challenges by exploiting the complementary nature of image-view features and BEV features. DA-BEV introduces the idea of query into the domain adaptation framework to derive useful information from image-view and BEV features. It consists of two query-based designs, namely, query-based adversarial learning (QAL) and query-based self-training (QST), which exploits image-view features or BEV features to regularize the adaptation of the other. Extensive experiments show that DA-BEV achieves superior domain adaptive BEV perception performance consistently across multiple datasets and tasks such as 3D object detection and 3D scene segmentation.
arxiv情報
著者 | Kai Jiang,Jiaxing Huang,Weiying Xie,Yunsong Li,Ling Shao,Shijian Lu |
発行日 | 2024-08-13 10:20:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google