DPODv2: Dense Correspondence-Based 6 DoF Pose Estimation

要約

我々は、密な対応関係に依存するDPODv2(Dense Pose Object Detector)と呼ばれる3段階の6 DoFオブジェクト検出法を提案する。2Dオブジェクト検出器を密な対応関係推定ネットワークとマルチビューポーズ精密化手法と組み合わせて、完全な6 DoFのポーズを推定する。一般的に単眼のRGB画像に限定される他の深層学習手法とは異なり、我々は異なるイメージングモダリティ(RGBまたはDepth)を使用できる統一的な深層学習ネットワークを提案する。さらに、微分可能なレンダリングに基づく新しいポーズ精密化手法を提案する。主なコンセプトは、複数のビューで予測された対応とレンダリングされた対応を比較し、全てのビューで予測された対応と一致するポーズを得ることである。提案手法は,制御されたセットアップにおいて,異なるデータモダリティとタイプの学習データに対して厳密に評価された.その結果、RGBは対応関係の推定に優れ、深度は3D-3D対応関係が良好な場合にポーズ精度に寄与することが分かった。当然ながら、これらの組み合わせは全体として最高の性能を達成する。我々は、いくつかの困難なデータセットで結果を分析し検証するために、広範囲な評価とアブレーション研究を実施した。DPODv2は、使用するデータモダリティや学習データの種類に依存せず、高速かつスケーラブルでありながら、これら全てのデータセットにおいて優れた結果を達成した

要約(オリジナル)

We propose a three-stage 6 DoF object detection method called DPODv2 (Dense Pose Object Detector) that relies on dense correspondences. We combine a 2D object detector with a dense correspondence estimation network and a multi-view pose refinement method to estimate a full 6 DoF pose. Unlike other deep learning methods that are typically restricted to monocular RGB images, we propose a unified deep learning network allowing different imaging modalities to be used (RGB or Depth). Moreover, we propose a novel pose refinement method, that is based on differentiable rendering. The main concept is to compare predicted and rendered correspondences in multiple views to obtain a pose which is consistent with predicted correspondences in all views. Our proposed method is evaluated rigorously on different data modalities and types of training data in a controlled setup. The main conclusions is that RGB excels in correspondence estimation, while depth contributes to the pose accuracy if good 3D-3D correspondences are available. Naturally, their combination achieves the overall best performance. We perform an extensive evaluation and an ablation study to analyze and validate the results on several challenging datasets. DPODv2 achieves excellent results on all of them while still remaining fast and scalable independent of the used data modality and the type of training data

arxiv情報

著者 Ivan Shugurov,Sergey Zakharov,Slobodan Ilic
発行日 2022-07-06 16:48:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク