CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity

要約

路側カメラによる 3D 物体検出は、インテリジェント交通システムにおいて重要なタスクであり、視覚中心の車両の限界を超えて認識範囲を拡大し、交通安全を強化します。
これまでの研究では、深さまたは高さの情報のみを使用することには制限がありましたが、深さと高さの両方が重要であり、実際にはそれらが補完的であることがわかりました。
奥行き特徴は正確な幾何学的手がかりを包含するのに対し、高さ特徴は主に高さ間隔のさまざまなカテゴリを区別することに焦点を当てており、本質的に意味論的なコンテキストを提供します。
この洞察は、深さと高さを統合して堅牢な BEV 表現を構築する、新しいエンドツーエンドの単眼 3D 物体検出フレームワークである相補型 BEV (CoBEV) の開発の動機となります。
基本的に、CoBEV は各ピクセルの深さと高さの分布を推定し、新しく提案された 2 段階の相補的特徴選択 (CFS) モジュールを使用して、横方向融合のためにカメラの特徴を 3D 空間に持ち上げます。
BEV 特徴抽出フレームワークもシームレスに統合され、融合モーダル CoBEV 教師の事前知識からの検出精度がさらに向上します。
私たちは、路側カメラベースの DAIR-V2X-I と Rope3D のパブリック 3D 検出ベンチマーク、およびプライベートの Supremind-Road データセットで広範な実験を実施し、CoBEV が新しい現状の精度を達成するだけではないことを実証しています。
芸術だけでなく、困難な長距離シナリオやノイズの多いカメラの外乱に対する以前の方法の堅牢性も大幅に向上し、シーンとカメラのパラメーターが大幅に変化する異種設定での汎用性が大幅に向上します。
カメラモデルの車両 AP スコアは、DAIR-V2X-I のイージーモードで初めて 80% に達しました。
ソースコードは https://github.com/MasterHow/CoBEV で公開されます。

要約(オリジナル)

Roadside camera-driven 3D object detection is a crucial task in intelligent transportation systems, which extends the perception range beyond the limitations of vision-centric vehicles and enhances road safety. While previous studies have limitations in using only depth or height information, we find both depth and height matter and they are in fact complementary. The depth feature encompasses precise geometric cues, whereas the height feature is primarily focused on distinguishing between various categories of height intervals, essentially providing semantic context. This insight motivates the development of Complementary-BEV (CoBEV), a novel end-to-end monocular 3D object detection framework that integrates depth and height to construct robust BEV representations. In essence, CoBEV estimates each pixel’s depth and height distribution and lifts the camera features into 3D space for lateral fusion using the newly proposed two-stage complementary feature selection (CFS) module. A BEV feature distillation framework is also seamlessly integrated to further enhance the detection accuracy from the prior knowledge of the fusion-modal CoBEV teacher. We conduct extensive experiments on the public 3D detection benchmarks of roadside camera-based DAIR-V2X-I and Rope3D, as well as the private Supremind-Road dataset, demonstrating that CoBEV not only achieves the accuracy of the new state-of-the-art, but also significantly advances the robustness of previous methods in challenging long-distance scenarios and noisy camera disturbance, and enhances generalization by a large margin in heterologous settings with drastic changes in scene and camera parameters. For the first time, the vehicle AP score of a camera model reaches 80% on DAIR-V2X-I in terms of easy mode. The source code will be made publicly available at https://github.com/MasterHow/CoBEV.

arxiv情報

著者 Hao Shi,Chengshan Pang,Jiaming Zhang,Kailun Yang,Yuhao Wu,Huajian Ni,Yining Lin,Rainer Stiefelhagen,Kaiwei Wang
発行日 2023-10-18 01:44:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV パーマリンク