Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance

要約

弱教師付き 3D オブジェクト検出は、2D ラベルなど、より低いアノテーション コストで 3D 検出器を学習することを目的としています。
まだわずかな正確な 3D 注釈に依存している以前の研究とは異なり、3D ラベルを必要とせずに 2D ドメインと 3D ドメインの間の制約を活用する方法を研究するためのフレームワークを提案します。
具体的には、3 つの視点からビジュアル データを使用して、2D 領域と 3D 領域の間の接続を確立します。
まず、オブジェクト認識領域に基づいて LiDAR と画像の特徴を調整するための特徴レベルの制約を設計します。
第 2 に、2D ボックス推定と投影された 3D ボックス推定の間の重複を強制するために、出力レベルの制約が開発されます。
最後に、トレーニング レベルの制約を利用して、視覚データと一致する正確で一貫性のある 3D 擬似ラベルを生成します。
私たちは、提案された 3 つの制約の有効性を検証するために、KITTI データセットに対して広範な実験を実施しました。
3D ラベルを使用せずに、私たちの方法は最先端のアプローチに対して有利なパフォーマンスを達成し、500 フレームの 3D アノテーションを使用する方法と競合します。
コードとモデルは https://github.com/kuanchihhuang/VG-W3D で公開されます。

要約(オリジナル)

Weakly supervised 3D object detection aims to learn a 3D detector with lower annotation cost, e.g., 2D labels. Unlike prior work which still relies on few accurate 3D annotations, we propose a framework to study how to leverage constraints between 2D and 3D domains without requiring any 3D labels. Specifically, we employ visual data from three perspectives to establish connections between 2D and 3D domains. First, we design a feature-level constraint to align LiDAR and image features based on object-aware regions. Second, the output-level constraint is developed to enforce the overlap between 2D and projected 3D box estimations. Finally, the training-level constraint is utilized by producing accurate and consistent 3D pseudo-labels that align with the visual data. We conduct extensive experiments on the KITTI dataset to validate the effectiveness of the proposed three constraints. Without using any 3D labels, our method achieves favorable performance against state-of-the-art approaches and is competitive with the method that uses 500-frame 3D annotations. Code and models will be made publicly available at https://github.com/kuanchihhuang/VG-W3D.

arxiv情報

著者 Kuan-Chih Huang,Yi-Hsuan Tsai,Ming-Hsuan Yang
発行日 2024-04-23 17:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク