要約
自律ロボットによる複雑な環境の安全なナビゲーションには、正確な 3D オブジェクト検出 (3DOD) が不可欠です。
ただし、まばらな LiDAR データに基づいて、雑然とした環境で正確な 3D バウンディング ボックスを回帰させるのは、非常に困難な問題です。
私たちは、確率回帰のための条件付きエネルギーベース モデル (EBM) の最近の進歩を調査することで、この課題に取り組みます。
回帰に EBM を使用する方法は、画像内の 2D オブジェクト検出において優れたパフォーマンスを示していますが、これらの技術は 3D バウンディング ボックスには直接適用できません。
したがって、この作業では、EBM ネットワークのコア モジュールとして機能する、3D バウンディング ボックス用の微分可能なプーリング オペレーターを設計します。
さらに、この一般的なアプローチを最先端の 3D 物体検出器 SA-SSD に統合します。
KITTI データセットでは、私たちが提案したアプローチは、すべての 3DOD メトリックにわたって一貫して SA-SSD ベースラインを上回り、高精度 3DOD に対する EBM ベースの回帰の可能性を示しています。
コードは https://github.com/fregu856/ebms_3dod で入手できます。
要約(オリジナル)
Accurate 3D object detection (3DOD) is crucial for safe navigation of complex environments by autonomous robots. Regressing accurate 3D bounding boxes in cluttered environments based on sparse LiDAR data is however a highly challenging problem. We address this task by exploring recent advances in conditional energy-based models (EBMs) for probabilistic regression. While methods employing EBMs for regression have demonstrated impressive performance on 2D object detection in images, these techniques are not directly applicable to 3D bounding boxes. In this work, we therefore design a differentiable pooling operator for 3D bounding boxes, serving as the core module of our EBM network. We further integrate this general approach into the state-of-the-art 3D object detector SA-SSD. On the KITTI dataset, our proposed approach consistently outperforms the SA-SSD baseline across all 3DOD metrics, demonstrating the potential of EBM-based regression for highly accurate 3DOD. Code is available at https://github.com/fregu856/ebms_3dod.
arxiv情報
著者 | Fredrik K. Gustafsson,Martin Danelljan,Thomas B. Schön |
発行日 | 2023-11-07 11:38:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google