EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation

要約

タイトル:EPro-PnP:単眼オブジェクト姿勢推定のための一般化されたエンドツーエンド確率的Perspective-n-Points

要約:
– 単一のRGB画像からの3Dオブジェクトの位置特定は、コンピュータビジョンの長期的な問題である。
– 最近の研究では、エンドツーエンドの深層学習によって驅動されて、PnPを微分可能な層として解釈することが提案され、ポーズ損失の勾配を逆伝播することで2D-3D点の対応関係の一部を学習することができます。
– しかしながら、すべての対応関係をスクラッチから学ぶことは、特に曖昧な姿勢解が存在する場合には非常に困難であり、理論的に最適なポーズが点について微分可能ではない場合があるためです。
– 本論文では、一般化されたエンドツーエンド姿勢推定のための確率的PnPレイヤーであるEPro-PnPを提案します。EPro-PnPは、SE(3)多様体上の微分可能な確率密度を持つ姿勢の分布を出力します。
– 我々のアプローチは、将来の注目メカニズムに似た基本原理を持ち、従来のアプローチを一般化します。また、EPro-PnPは既存の対応ネットワークを強化し、PnPベースの手法とLineMOD 6DoFポーズ推定ベンチマークのタスク固有のリーダーとの差を縮めることができます。
– さらに、EPro-PnPは新たなネットワーク設計の可能性を探るのに役立ち、nuScenes 3Dオブジェクト検出ベンチマークで最先端のポーズ精度を持つ新しい変形対応ネットワークを示しました。
– コードはhttps://github.com/tjiiv-cprg/EPro-PnP-v2で利用可能です。

要約(オリジナル)

Locating 3D objects from a single RGB image via Perspective-n-Point (PnP) is a long-standing problem in computer vision. Driven by end-to-end deep learning, recent studies suggest interpreting PnP as a differentiable layer, allowing for partial learning of 2D-3D point correspondences by backpropagating the gradients of pose loss. Yet, learning the entire correspondences from scratch is highly challenging, particularly for ambiguous pose solutions, where the globally optimal pose is theoretically non-differentiable w.r.t. the points. In this paper, we propose the EPro-PnP, a probabilistic PnP layer for general end-to-end pose estimation, which outputs a distribution of pose with differentiable probability density on the SE(3) manifold. The 2D-3D coordinates and corresponding weights are treated as intermediate variables learned by minimizing the KL divergence between the predicted and target pose distribution. The underlying principle generalizes previous approaches, and resembles the attention mechanism. EPro-PnP can enhance existing correspondence networks, closing the gap between PnP-based method and the task-specific leaders on the LineMOD 6DoF pose estimation benchmark. Furthermore, EPro-PnP helps to explore new possibilities of network design, as we demonstrate a novel deformable correspondence network with the state-of-the-art pose accuracy on the nuScenes 3D object detection benchmark. Our code is available at https://github.com/tjiiv-cprg/EPro-PnP-v2.

arxiv情報

著者 Hansheng Chen,Wei Tian,Pichao Wang,Fan Wang,Lu Xiong,Hao Li
発行日 2023-04-17 08:23:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク