TiGDistill-BEV: Multi-view BEV 3D Object Detection via Target Inner-Geometry Learning Distillation

要約

自動運転などのアプリケーションには、正確なマルチビュー 3D オブジェクト検出が不可欠です。
研究者らは、LiDAR の正確な空間情報を活用して、深度監視や鳥瞰図 (BEV) 機能の抽出などの方法を通じてカメラベースの検出器を強化することを一貫して目指してきました。
ただし、既存のアプローチは、LiDAR とカメラのデータ表現間の固有の違いにより、課題に直面することがよくあります。
このペーパーでは、両方のセンサーの長所を活用してこのギャップを効果的に埋める新しいアプローチである TiGDistill-BEV を紹介します。
私たちの方法は、カメラベースの生徒検出器への教師モデルとして多様なモダリティ(例:LiDAR)から知識を抽出し、ターゲット内部幾何学学習スキームを利用して、多様なモダリティを活用することにより深度とBEV機能の両方を通じてカメラベースのBEV検出器を強化します。
特に、我々は 2 つの重要なモジュールを提案します。1 つは物体内部の低レベルの相対的な深度関係を学習し、検出器に物体レベルの空間構造をより深く理解させるための内部深さ監視モジュール、もう 1 つは高レベルの空間構造を転送するための内部特徴 BEV 蒸留モジュールです。
– 前景ターゲット内のさまざまなキーポイントのレベルのセマンティクス。
ドメインギャップをさらに軽減するために、チャネル間およびキーポイント間の蒸留の両方を組み込み、特徴の類似性をモデル化します。
nuScenes ベンチマークに関する広範な実験により、TiGDistill-BEV がカメラベースのみの検出器を大幅に向上させ、62.8% の NDS という最先端の性能を達成し、以前の方法を大幅に上回っていることが実証されました。
コードは https://github.com/Public-BOTs/TiGDistill-BEV.git から入手できます。

要約(オリジナル)

Accurate multi-view 3D object detection is essential for applications such as autonomous driving. Researchers have consistently aimed to leverage LiDAR’s precise spatial information to enhance camera-based detectors through methods like depth supervision and bird-eye-view (BEV) feature distillation. However, existing approaches often face challenges due to the inherent differences between LiDAR and camera data representations. In this paper, we introduce the TiGDistill-BEV, a novel approach that effectively bridges this gap by leveraging the strengths of both sensors. Our method distills knowledge from diverse modalities(e.g., LiDAR) as the teacher model to a camera-based student detector, utilizing the Target Inner-Geometry learning scheme to enhance camera-based BEV detectors through both depth and BEV features by leveraging diverse modalities. Specially, we propose two key modules: an inner-depth supervision module to learn the low-level relative depth relations within objects which equips detectors with a deeper understanding of object-level spatial structures, and an inner-feature BEV distillation module to transfer high-level semantics of different key points within foreground targets. To further alleviate the domain gap, we incorporate both inter-channel and inter-keypoint distillation to model feature similarity. Extensive experiments on the nuScenes benchmark demonstrate that TiGDistill-BEV significantly boosts camera-based only detectors achieving a state-of-the-art with 62.8% NDS and surpassing previous methods by a significant margin. The codes is available at: https://github.com/Public-BOTs/TiGDistill-BEV.git.

arxiv情報

著者 Shaoqing Xu,Fang Li,Peixiang Huang,Ziying Song,Zhi-Xin Yang
発行日 2024-12-30 12:44:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク