MonoPGC: Monocular 3D Object Detection with Pixel Geometry Contexts

要約

単眼 3D オブジェクト検出は、自動運転における経済的ではあるが困難なタスクを明らかにします。
最近、中心ベースの単眼法が急速に発展しており、速度と精度の間の大きなトレードオフがあり、通常は 2D 機能によるオブジェクト中心の深度推定に依存しています。
ただし、十分なピクセル ジオメトリ情報を持たない視覚的なセマンティック機能は、空間 3D 検出タスクの手がかりのパフォーマンスに影響を与える可能性があります。
これを軽減するために、豊富なピクセル ジオメトリ コンテキストを備えた新しいエンド ツー エンドの単眼 3D オブジェクト検出フレームワークである MonoPGC を提案します。
ピクセル深度推定を補助タスクとして導入し、深度交差注意ピラミッド モジュール (DCPM) を設計して、ローカルおよびグローバル深度ジオメトリの知識を視覚的特徴に注入します。
さらに、3D 空間位置と深度認識機能を効率的に統合するための深度空間認識トランスフォーマー (DSAT) を紹介します。
さらに、新しい深度勾配位置エンコーディング (DGPE) を設計して、より明確なピクセル ジオメトリ コンテキストをトランスフォーマーに取り込み、オブジェクト検出を向上させます。
広範な実験により、私たちの方法がKITTIデータセットで最先端のパフォーマンスを達成することが実証されています。

要約(オリジナル)

Monocular 3D object detection reveals an economical but challenging task in autonomous driving. Recently center-based monocular methods have developed rapidly with a great trade-off between speed and accuracy, where they usually depend on the object center’s depth estimation via 2D features. However, the visual semantic features without sufficient pixel geometry information, may affect the performance of clues for spatial 3D detection tasks. To alleviate this, we propose MonoPGC, a novel end-to-end Monocular 3D object detection framework with rich Pixel Geometry Contexts. We introduce the pixel depth estimation as our auxiliary task and design depth cross-attention pyramid module (DCPM) to inject local and global depth geometry knowledge into visual features. In addition, we present the depth-space-aware transformer (DSAT) to integrate 3D space position and depth-aware features efficiently. Besides, we design a novel depth-gradient positional encoding (DGPE) to bring more distinct pixel geometry contexts into the transformer for better object detection. Extensive experiments demonstrate that our method achieves the state-of-the-art performance on the KITTI dataset.

arxiv情報

著者 Zizhang Wu,Yuanzhu Gan,Lei Wang,Guilian Chen,Jian Pu
発行日 2023-02-21 09:21:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク