要約
本論文では、合成データで学習した手法の改善に焦点を当てた、新しい多視点6自由度物体姿勢精密化手法を紹介する。これはDPOD検出器に基づいており、各フレームにおけるモデルの頂点と画像ピクセルとの間の2D-3D対応関係を密に生成する。我々は、解釈可能なICP的損失関数によって幾何学的制約を導入できるように、既知の相対的カメラ変換を持つ複数のフレームを使用することを選択した。この損失関数は微分可能なレンダラで実装され、反復的に最適化される。また、合成データのみで学習させた完全な検出・改良パイプラインが、実データのオートラベリングに利用できることを示す。LineMOD、Occlusion、Homebrewed、YCB-Vの各データセットで定量評価を行い、合成データと実データで学習した最先端手法と比較して、優れた性能を報告する。本手法は数フレームしか必要とせず、カメラ位置の近接や外部カメラキャリブレーションにおけるノイズに頑健であることを経験的に示し、実用化が容易でユビキタスな手法であることを実証する。
要約(オリジナル)
This paper introduces a novel multi-view 6 DoF object pose refinement approach focusing on improving methods trained on synthetic data. It is based on the DPOD detector, which produces dense 2D-3D correspondences between the model vertices and the image pixels in each frame. We have opted for the use of multiple frames with known relative camera transformations, as it allows introduction of geometrical constraints via an interpretable ICP-like loss function. The loss function is implemented with a differentiable renderer and is optimized iteratively. We also demonstrate that a full detection and refinement pipeline, which is trained solely on synthetic data, can be used for auto-labeling real data. We perform quantitative evaluation on LineMOD, Occlusion, Homebrewed and YCB-V datasets and report excellent performance in comparison to the state-of-the-art methods trained on the synthetic and real data. We demonstrate empirically that our approach requires only a few frames and is robust to close camera locations and noise in extrinsic camera calibration, making its practical usage easier and more ubiquitous.
arxiv情報
| 著者 | Ivan Shugurov,Ivan Pavlov,Sergey Zakharov,Slobodan Ilic |
| 発行日 | 2022-07-06 17:02:22+00:00 |
| arxivサイト | arxiv_id(pdf) |