DualCross: Cross-Modality Cross-Domain Adaptation for Monocular BEV Perception

要約

トレーニングと展開の間の領域のギャップを埋めること、および複数のセンサー モダリティを組み込むことは、自動運転にとって 2 つの困難かつ重要なトピックです。
既存の研究は、上記のトピックの 1 つにのみ焦点を当てており、現実世界のシナリオに広く存在するドメインとモダリティの同時変化を見落としています。
ヨーロッパで収集されたマルチセンサー データを使用してトレーニングされたモデルは、利用可能な入力センサーのサブセットを使用してアジアで実行する必要がある場合があります。
この研究では、より堅牢な単眼鳥瞰図 (BEV) 認識モデルの学習を容易にするクロスモダリティ クロスドメイン適応フレームワークである DualCross を提案します。これは、1 つのドメインの LiDAR センサーから点群の知識を転送します。
トレーニング段階では、別のドメインでのカメラのみのテスト シナリオに移行します。
この研究により、野生環境における単眼 3D タスクに対するクロスドメインのクロスセンサー知覚と適応に関する初の公開分析が行われました。
私たちは、広範囲のドメインシフトの下で大規模なデータセットに対するアプローチをベンチマークし、さまざまなベースラインに対して最先端の結果を示します。

要約(オリジナル)

Closing the domain gap between training and deployment and incorporating multiple sensor modalities are two challenging yet critical topics for self-driving. Existing work only focuses on single one of the above topics, overlooking the simultaneous domain and modality shift which pervasively exists in real-world scenarios. A model trained with multi-sensor data collected in Europe may need to run in Asia with a subset of input sensors available. In this work, we propose DualCross, a cross-modality cross-domain adaptation framework to facilitate the learning of a more robust monocular bird’s-eye-view (BEV) perception model, which transfers the point cloud knowledge from a LiDAR sensor in one domain during the training phase to the camera-only testing scenario in a different domain. This work results in the first open analysis of cross-domain cross-sensor perception and adaptation for monocular 3D tasks in the wild. We benchmark our approach on large-scale datasets under a wide range of domain shifts and show state-of-the-art results against various baselines.

arxiv情報

著者 Yunze Man,Liang-Yan Gui,Yu-Xiong Wang
発行日 2024-06-12 00:35:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク