要約
マルチモーダル入力から3Dオブジェクトを検出する新しい方法を提示し、RGB検出ネットワークと3D LIDAR検出器を組み合わせたハイブリッド後期キャスケードスキームでLIDARカメラとRGBカメラの両方を活用します。
LIDARの偽陽性を減らすために後期融合原則を活用して、画像上のLIDARの境界ボックスを投影することにより、LIDAR検出をRGBのものと一致させます。
Cascade Fusionの原則に依存して、RGBの個別のビューの検出によって生成されたエピポーラの制約とフラストムを活用するLidarの偽陰性を回復します。
当社のソリューションは、基礎となるシングルモーダル検出器の上にプラグを付けることができ、事前に訓練されたLIDARおよびRGB検出器を利用できる柔軟なトレーニングプロセスを可能にしたり、2つのブランチを個別に訓練できます。
Kittiオブジェクト検出ベンチマークの結果を評価し、特に歩行者とサイクリストの検出のために、大幅なパフォーマンスの改善を示しています。
要約(オリジナル)
We present a new way to detect 3D objects from multimodal inputs, leveraging both LiDAR and RGB cameras in a hybrid late-cascade scheme, that combines an RGB detection network and a 3D LiDAR detector. We exploit late fusion principles to reduce LiDAR False Positives, matching LiDAR detections with RGB ones by projecting the LiDAR bounding boxes on the image. We rely on cascade fusion principles to recover LiDAR False Negatives leveraging epipolar constraints and frustums generated by RGB detections of separate views. Our solution can be plugged on top of any underlying single-modal detectors, enabling a flexible training process that can take advantage of pre-trained LiDAR and RGB detectors, or train the two branches separately. We evaluate our results on the KITTI object detection benchmark, showing significant performance improvements, especially for the detection of Pedestrians and Cyclists.
arxiv情報
著者 | Carlo Sgaravatti,Roberto Basla,Riccardo Pieroni,Matteo Corno,Sergio M. Savaresi,Luca Magri,Giacomo Boracchi |
発行日 | 2025-04-25 15:28:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google