Towards Generalizable Multi-Camera 3D Object Detection via Perspective Debiasing

要約

マルチカメラ 3D オブジェクト検出 (MC3D-Det) として知られる、複数のカメラを使用した 3D 空間内のオブジェクトの検出は、鳥瞰図 (BEV) アプローチの出現により注目を集めています。
しかし、これらの手法は、さまざまな視点や環境を包含する多様なトレーニング データが不足しているため、不慣れなテスト環境に直面すると苦労することがよくあります。
これに対処するために、3D 検出を 2D カメラ平面の結果と整合させ、一貫性のある正確な検出を保証する新しい方法を提案します。
私たちのフレームワークは、視点の偏りを軽減することに基づいており、ドメインの変化に強い特徴の学習に役立ちます。
私たちのアプローチでは、BEV フィーチャから多様なビュー マップをレンダリングし、暗黙的な前景ボリュームを活用してカメラと BEV プレーンをブリッジすることで、これらのマップの遠近バイアスを修正します。
この 2 段階のプロセスにより、視点やコンテキストに依存しない特徴の学習が促進されます。これは、さまざまな視点、カメラ パラメーター、環境条件にわたって正確に物体を検出するために重要です。
特に、モデルに依存しないアプローチにより、追加の推論コストが発生することなく元のネットワーク構造が維持され、さまざまなモデル間でのシームレスな統合が促進され、展開が簡素化されます。
さらに、仮想データセットのみを使用してトレーニングした場合、実際のシーンのアノテーションが不要な場合、私たちのアプローチが実際のデータで満足のいく結果を達成することも示します。
ドメイン一般化 (DG) と教師なしドメイン適応 (UDA) の両方に関する実験結果は、その有効性を明確に示しています。
私たちのコードが公開されます。

要約(オリジナル)

Detecting objects in 3D space using multiple cameras, known as Multi-Camera 3D Object Detection (MC3D-Det), has gained prominence with the advent of bird’s-eye view (BEV) approaches. However, these methods often struggle when faced with unfamiliar testing environments due to the lack of diverse training data encompassing various viewpoints and environments. To address this, we propose a novel method that aligns 3D detection with 2D camera plane results, ensuring consistent and accurate detections. Our framework, anchored in perspective debiasing, helps the learning of features resilient to domain shifts. In our approach, we render diverse view maps from BEV features and rectify the perspective bias of these maps, leveraging implicit foreground volumes to bridge the camera and BEV planes. This two-step process promotes the learning of perspective- and context-independent features, crucial for accurate object detection across varying viewpoints, camera parameters and environment conditions. Notably, our model-agnostic approach preserves the original network structure without incurring additional inference costs, facilitating seamless integration across various models and simplifying deployment. Furthermore, we also show our approach achieves satisfactory results in real data when trained only with virtual datasets, eliminating the need for real scene annotations. Experimental results on both Domain Generalization (DG) and Unsupervised Domain Adaptation (UDA) clearly demonstrate its effectiveness. Our code will be released.

arxiv情報

著者 Hao Lu,Yunpeng Zhang,Qing Lian,Dalong Du,Yingcong Chen
発行日 2023-10-17 15:31:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク