MonoDGP: Monocular 3D Object Detection with Decoupled-Query and Geometry-Error Priors

要約

視点投影は、単眼3Dオブジェクト検出方法で広く利用されています。
深度推定の不確実性を減らすために、2D境界ボックスと3Dオブジェクトの寸法から幾何学的なプライアーを導入します。
ただし、オブジェクトの視覚表面に由来する深度エラーのため、境界ボックスの高さは、幾何学的深さの有効性を損なう実際の投影された中央の高さを表すことができないことがよくあります。
予測された高さの直接予測は、2Dプライアーの喪失を避けてもたらされますが、複雑な枝を持つ多深い予測は幾何学的深さを完全に活用しません。
このホワイトペーパーでは、MonoDGPと呼ばれる変圧器ベースのモノクラー3Dオブジェクト検出方法を紹介します。これは、視点に不変のジオメトリエラーを採用して投影式を変更します。
また、多地的な予測に代わるシンプルだが効果的な代替として機能するジオメトリエラーの背後にあるメカニズムと有効性を体系的に議論し、説明しようとします。
さらに、MonoDGPは深さ誘導デコーダーを分離し、視覚的特徴にのみ依存する2Dデコーダーを構築し、3D検出の妨害なしに2Dプライアーとオブジェクトクエリを初期化します。
トランスデコーダーの入力トークンをさらに最適化および微調整するために、拡張機能とセグメントの埋め込みを生成するリージョンセグメントヘッド(RSH)も導入します。
私たちの単眼法は、追加のデータなしでキッティベンチマークで最先端のパフォーマンスを示しています。
コードはhttps://github.com/pufanqi23/monodgpで入手できます。

要約(オリジナル)

Perspective projection has been extensively utilized in monocular 3D object detection methods. It introduces geometric priors from 2D bounding boxes and 3D object dimensions to reduce the uncertainty of depth estimation. However, due to depth errors originating from the object’s visual surface, the height of the bounding box often fails to represent the actual projected central height, which undermines the effectiveness of geometric depth. Direct prediction for the projected height unavoidably results in a loss of 2D priors, while multi-depth prediction with complex branches does not fully leverage geometric depth. This paper presents a Transformer-based monocular 3D object detection method called MonoDGP, which adopts perspective-invariant geometry errors to modify the projection formula. We also try to systematically discuss and explain the mechanisms and efficacy behind geometry errors, which serve as a simple but effective alternative to multi-depth prediction. Additionally, MonoDGP decouples the depth-guided decoder and constructs a 2D decoder only dependent on visual features, providing 2D priors and initializing object queries without the disturbance of 3D detection. To further optimize and fine-tune input tokens of the transformer decoder, we also introduce a Region Segment Head (RSH) that generates enhanced features and segment embeddings. Our monocular method demonstrates state-of-the-art performance on the KITTI benchmark without extra data. Code is available at https://github.com/PuFanqi23/MonoDGP.

arxiv情報

著者 Fanqi Pu,Yifan Wang,Jiru Deng,Wenming Yang
発行日 2025-03-12 14:48:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク