要約
通常、時間のかかる後処理を必要とする間接的な方法とは異なり、最近の深層学習ベースの 6D ポーズ推定の直接的な方法では、RGB-D データから直接 3D 回転と 3D 平行移動を予測しようとします。
ただし、ポーズの絶対変換を回帰する直接法では、トレーニング データとテスト データの間でさまざまなオブジェクトの変換分布が発生します。これは通常、実際には高価なデータ収集と注釈によって引き起こされます。
この目的のために、物理空間の3D座標と画像平面の2D座標でアンカーを定義することにより、5Dアンカーメカニズムを提案します。
アンカーベースのオブジェクト検出方法に着想を得た 5D アンカーは、ターゲットとアンカーの間のオフセットを回帰させ、分布のギャップをなくし、回帰ターゲットを小さな範囲に変換します。
しかし、オフセットを後退させると、絶対入力と相対出力の間に不一致が生じます。
絶対入力を相対入力に置き換えることにより、アンカーベースの投影モデルを構築します。これにより、パフォーマンスがさらに向上します。
5D アンカーを最新のダイレクト メソッドに差し込むことで、Uni6Dv2 と ES6D はそれぞれ 38.7% と 3.5% の改善が得られます。
具体的には、Uni6Dv3 と呼ばれる Uni6Dv2+5D アンカーは、Occlusion LineMOD (79.3%)、LineMOD (99.5%)、および YCB-Video データセット (91.5%) を含むデータセットで最先端の全体的な結果を達成し、わずか 10 個しか必要としません。
完全なデータと同等のパフォーマンスを達成するためのトレーニング データの割合。
要約(オリジナル)
Unlike indirect methods that usually require time-consuming post-processing, recent deep learning-based direct methods for 6D pose estimation try to predict the 3D rotation and 3D translation from RGB-D data directly. However, direct methods, regressing the absolute translation of the pose, suffer from diverse object translation distribution between training and test data, which is usually caused by expensive data collection and annotation in practice. To this end, we propose a 5D anchor mechanism by defining the anchor with 3D coordinates in the physical space and 2D coordinates in the image plane. Inspired by anchor-based object detection methods, 5D anchor regresses the offset between the target and anchor, which eliminates the distribution gap and transforms the regression target to a small range. But regressing offset leads to the mismatch between the absolute input and relative output. We build an anchor-based projection model by replacing the absolute input with the relative one, which further improves the performance. By plugging 5D anchor into the latest direct methods, Uni6Dv2 and ES6D obtain 38.7% and 3.5% improvement, respectively. Specifically, Uni6Dv2+5D anchor, dubbed Uni6Dv3, achieves state-of-the-art overall results on datasets including Occlusion LineMOD (79.3%), LineMOD (99.5%), and YCB-Video datasets (91.5%), and requires only 10% of training data to reach comparable performance as full data.
arxiv情報
著者 | Jianqiu Chen,Mingshan Sun,Ye Zheng,Tianpeng Bao,Zhenyu He,Donghai Li,Guoqiang Jin,Rui Zhao,Liwei Wu,Xiaoke Jiang |
発行日 | 2022-10-21 09:28:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google