BEV-LGKD: A Unified LiDAR-Guided Knowledge Distillation Framework for BEV 3D Object Detection

要約

最近、鳥瞰図 (BEV) 表現は、マルチビュー 3D オブジェクト検出で注目を集めており、自動運転で有望なアプリケーションが実証されています。
マルチビュー カメラ システムは低コストで展開できますが、深度情報が不足しているため、現在のアプローチでは優れたパフォーマンスを得るために大規模なモデルを採用しています。
したがって、BEV 3D オブジェクト検出の効率を向上させることが不可欠です。
Knowledge Distillation (KD) は、効率的かつ正確なモデルをトレーニングするための最も実用的な手法の 1 つです。
ただし、BEV KD は、私たちの知る限り、まだ十分に調査されていません。
画像分類タスクとは異なり、BEV 3D オブジェクト検出アプローチはより複雑で、いくつかのコンポーネントで構成されています。
この論文では、BEV-LGKD という名前の統一されたフレームワークを提案して、教師と生徒の方法で知識を伝達します。
ただし、教師と生徒のパラダイムを BEV 機能に直接適用すると、RGB カメラの背景情報が多いため、満足のいく結果を得ることができません。
この問題を解決するために、LiDAR ポイントのローカリゼーションの利点を活用することを提案します。
具体的には、LiDAR ポイントを BEV 空間に変換し、教師と生徒のパラダイムの前景マスクとビュー依存マスクを生成します。
私たちの方法は、LiDAR ポイントのみを使用して、RGB モデル間の KD をガイドすることに注意してください。
深度推定の品質はBEVの知覚にとって重要であるため、フレームワークに深度蒸留をさらに導入します。
私たちの統一されたフレームワークはシンプルでありながら効果的であり、パフォーマンスを大幅に向上させます。
コードが公開されます。

要約(オリジナル)

Recently, Bird’s-Eye-View (BEV) representation has gained increasing attention in multi-view 3D object detection, which has demonstrated promising applications in autonomous driving. Although multi-view camera systems can be deployed at low cost, the lack of depth information makes current approaches adopt large models for good performance. Therefore, it is essential to improve the efficiency of BEV 3D object detection. Knowledge Distillation (KD) is one of the most practical techniques to train efficient yet accurate models. However, BEV KD is still under-explored to the best of our knowledge. Different from image classification tasks, BEV 3D object detection approaches are more complicated and consist of several components. In this paper, we propose a unified framework named BEV-LGKD to transfer the knowledge in the teacher-student manner. However, directly applying the teacher-student paradigm to BEV features fails to achieve satisfying results due to heavy background information in RGB cameras. To solve this problem, we propose to leverage the localization advantage of LiDAR points. Specifically, we transform the LiDAR points to BEV space and generate the foreground mask and view-dependent mask for the teacher-student paradigm. It is to be noted that our method only uses LiDAR points to guide the KD between RGB models. As the quality of depth estimation is crucial for BEV perception, we further introduce depth distillation to our framework. Our unified framework is simple yet effective and achieves a significant performance boost. Code will be released.

arxiv情報

著者 Jianing Li,Ming Lu,Jiaming Liu,Yandong Guo,Li Du,Shanghang Zhang
発行日 2022-12-01 16:17:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.9 パーマリンク