要約
遠近法-n-ポイント(PnP)を介して単一のRGB画像から3Dオブジェクトを見つけることは、コンピュータビジョンにおける長年の問題である。エンドツーエンドの深層学習により、最近の研究では、PnPを微分可能な層として解釈し、オブジェクトの姿勢に対する勾配を逆伝播することにより、2D-3D点の対応を部分的に学習できるようにすることが提案されている。しかし、決定論的なポーズは本質的に非微分であるため、無制限の2D-3D点の全セットをゼロから学習することは、既存のアプローチでは収束しない。本論文では、一般的なエンドツーエンドの姿勢推定のための確率的PnP層であるEPro-PnPを提案し、SE(3)多様体上の姿勢の分布を出力し、本質的にカテゴリ的ソフトマックスを連続領域へ持っていきます。2D-3D座標とそれに対応する重みは、予測されるポーズ分布とターゲットポーズ分布の間のKLダイバージェンスを最小化することによって学習される中間変数として扱われます。この基本原理は、既存のアプローチを統合し、注意のメカニズムに類似している。EPro-PnPは、LineMOD 6DoF姿勢推定とnuScenes 3Dオブジェクト検出ベンチマークにおいて、PnPベースの手法とタスク固有のリーダーとの間のギャップを縮め、競合ベースラインを大幅に上回る性能を発揮する。
要約(オリジナル)
Locating 3D objects from a single RGB image via Perspective-n-Points (PnP) is a long-standing problem in computer vision. Driven by end-to-end deep learning, recent studies suggest interpreting PnP as a differentiable layer, so that 2D-3D point correspondences can be partly learned by backpropagating the gradient w.r.t. object pose. Yet, learning the entire set of unrestricted 2D-3D points from scratch fails to converge with existing approaches, since the deterministic pose is inherently non-differentiable. In this paper, we propose the EPro-PnP, a probabilistic PnP layer for general end-to-end pose estimation, which outputs a distribution of pose on the SE(3) manifold, essentially bringing categorical Softmax to the continuous domain. The 2D-3D coordinates and corresponding weights are treated as intermediate variables learned by minimizing the KL divergence between the predicted and target pose distribution. The underlying principle unifies the existing approaches and resembles the attention mechanism. EPro-PnP significantly outperforms competitive baselines, closing the gap between PnP-based method and the task-specific leaders on the LineMOD 6DoF pose estimation and nuScenes 3D object detection benchmarks.
arxiv情報
著者 | Hansheng Chen,Pichao Wang,Fan Wang,Wei Tian,Lu Xiong,Hao Li |
発行日 | 2022-08-11 14:38:50+00:00 |
arxivサイト | arxiv_id(pdf) |