SeaBird: Segmentation in Bird’s View with Dice Loss Improves Monocular 3D Detection of Large Objects

要約

単眼 3D 検出器は、自動車や小さな物体に対して優れたパフォーマンスを実現します。
しかし、より大きな物体では性能が低下し、致命的な事故につながります。
失敗の原因をトレーニング データの不足、または大きなオブジェクトの受容野の要件に帰する人もいます。
この論文では、大きなオブジェクトへの一般化に関するこの十分に研究されていない問題に焦点を当てます。
最新の前方検出器は、ほぼバランスの取れたデータセットであっても、大きな物体に一般化するのに苦労していることがわかりました。
私たちは、失敗の原因は、より大きなオブジェクトのノイズに対する深度回帰損失の感度であると主張します。
このギャップを埋めるために、回帰とダイス損失を包括的に調査し、さまざまなエラー レベルとオブジェクト サイズの下での堅牢性を調べます。
ダイス損失は、単純化されたケースの回帰損失と比較して、大きなオブジェクトの優れた耐ノイズ性とモデルの収束につながることを数学的に証明します。
理論的な洞察を活用して、大きなオブジェクトへの一般化に向けた最初のステップとして SeaBird (鳥瞰図でのセグメンテーション) を提案します。
SeaBird は、ダイス損失でトレーニングされたセグメンテーション ヘッドを使用して、3D 検出のために前景オブジェクトの BEV セグメンテーションを効果的に統合します。
SeaBird は、KITTI-360 リーダーボードで SoTA の結果を達成し、nuScenes リーダーボードで、特に大きなオブジェクトの既存の検出器を改善しました。
コードとモデルは https://github.com/abhi1kumar/SeaBird にあります。

要約(オリジナル)

Monocular 3D detectors achieve remarkable performance on cars and smaller objects. However, their performance drops on larger objects, leading to fatal accidents. Some attribute the failures to training data scarcity or their receptive field requirements of large objects. In this paper, we highlight this understudied problem of generalization to large objects. We find that modern frontal detectors struggle to generalize to large objects even on nearly balanced datasets. We argue that the cause of failure is the sensitivity of depth regression losses to noise of larger objects. To bridge this gap, we comprehensively investigate regression and dice losses, examining their robustness under varying error levels and object sizes. We mathematically prove that the dice loss leads to superior noise-robustness and model convergence for large objects compared to regression losses for a simplified case. Leveraging our theoretical insights, we propose SeaBird (Segmentation in Bird’s View) as the first step towards generalizing to large objects. SeaBird effectively integrates BEV segmentation on foreground objects for 3D detection, with the segmentation head trained with the dice loss. SeaBird achieves SoTA results on the KITTI-360 leaderboard and improves existing detectors on the nuScenes leaderboard, particularly for large objects. Code and models at https://github.com/abhi1kumar/SeaBird

arxiv情報

著者 Abhinav Kumar,Yuliang Guo,Xinyu Huang,Liu Ren,Xiaoming Liu
発行日 2024-03-29 17:41:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク