DID-M3D: Decoupling Instance Depth for Monocular 3D Object Detection

要約

単眼3D検出は、その低コストとセットアップの単純さにより、コミュニティから大きな注目を集めています。
RGB画像を入力として受け取り、3D空間の3Dボックスを予測します。
最も難しいサブタスクは、インスタンスの深さの推定にあります。
以前の作品は通常、直接推定法を使用しています。
ただし、このペーパーでは、RGB画像のインスタンスの深さが直感的ではないことを指摘します。
それは視覚的な深さの手がかりとインスタンス属性の手がかりによって結合されているため、ネットワークで直接学習することは困難です。
したがって、インスタンスの深さを、インスタンスの視覚的な表面の深さ(視覚的な深さ)とインスタンスの属性の深さ(属性の深さ)の組み合わせに再定式化することを提案します。
視覚的な奥行きは、オブジェクトの外観と画像上の位置に関連しています。
対照的に、属性の深さは、画像上のオブジェクトのアフィン変換に対して不変であるオブジェクトの固有の属性に依存します。
これに対応して、3D位置の不確実性を視覚的な深度の不確実性と属性の深度の不確実性に分離します。
さまざまなタイプの深さと関連する不確実性を組み合わせることにより、最終的なインスタンスの深さを取得できます。
さらに、単眼3D検出でのデータ拡張は、通常、物理的性質のために制限されており、パフォーマンスの向上を妨げています。
提案されたインスタンス深度解きほぐし戦略に基づいて、この問題を軽減することができます。
KITTIで評価された私たちの方法は、新しい最先端の結果を達成し、広範なアブレーション研究により、私たちの方法の各コンポーネントの有効性が検証されます。
コードはhttps://github.com/SPengLiang/DID-M3Dでリリースされています。

要約(オリジナル)

Monocular 3D detection has drawn much attention from the community due to its low cost and setup simplicity. It takes an RGB image as input and predicts 3D boxes in the 3D space. The most challenging sub-task lies in the instance depth estimation. Previous works usually use a direct estimation method. However, in this paper we point out that the instance depth on the RGB image is non-intuitive. It is coupled by visual depth clues and instance attribute clues, making it hard to be directly learned in the network. Therefore, we propose to reformulate the instance depth to the combination of the instance visual surface depth (visual depth) and the instance attribute depth (attribute depth). The visual depth is related to objects’ appearances and positions on the image. By contrast, the attribute depth relies on objects’ inherent attributes, which are invariant to the object affine transformation on the image. Correspondingly, we decouple the 3D location uncertainty into visual depth uncertainty and attribute depth uncertainty. By combining different types of depths and associated uncertainties, we can obtain the final instance depth. Furthermore, data augmentation in monocular 3D detection is usually limited due to the physical nature, hindering the boost of performance. Based on the proposed instance depth disentanglement strategy, we can alleviate this problem. Evaluated on KITTI, our method achieves new state-of-the-art results, and extensive ablation studies validate the effectiveness of each component in our method. The codes are released at https://github.com/SPengLiang/DID-M3D.

arxiv情報

著者 Liang Peng,Xiaopei Wu,Zheng Yang,Haifeng Liu,Deng Cai
発行日 2022-07-22 12:20:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク