要約
我々は、6 自由度姿勢推定 (6DoF PE) におけるシミュレーションと実際の領域のギャップに対処し、RKHS の学習可能なカーネルを使用してこのギャップを効果的に狭める、新しい自己教師ありキーポイント投票ベースの 6DoF PE フレームワークを提案します。
このドメイン ギャップは、以前の反復マッチング手法とは異なり、高次元の特徴空間内の距離として定式化されます。
私たちは、合成グラウンド トゥルース ポーズを使用した純粋な合成データで事前トレーニングされ、ネットワーク パラメーターをこのソース合成ドメインからターゲット実ドメインに進化させるアダプター ネットワークを提案します。
重要なのは、実際のデータ トレーニングでは、擬似キーポイントによって推定された擬似ポーズのみが使用されるため、実際のグラウンド トゥルース データの注釈は必要ないことです。
私たちが提案した手法は RKHSPose と呼ばれ、LINEMOD (+4.2%)、Occlusion LINEMOD (+2%)、YCB-Video (
+3%)。
また、適用可能な 6 つの BOP コア データセットすべてで完全教師あり手法と比較しても優れており、上位の完全教師あり結果の -11.3% ~ +0.2% 以内を達成しています。
要約(オリジナル)
We address the simulation-to-real domain gap in six degree-of-freedom pose estimation (6DoF PE), and propose a novel self-supervised keypoint voting-based 6DoF PE framework, effectively narrowing this gap using a learnable kernel in RKHS. We formulate this domain gap as a distance in high-dimensional feature space, distinct from previous iterative matching methods. We propose an adapter network, which is pre-trained on purely synthetic data with synthetic ground truth poses, and which evolves the network parameters from this source synthetic domain to the target real domain. Importantly, the real data training only uses pseudo-poses estimated by pseudo-keypoints, and thereby requires no real ground truth data annotations. Our proposed method is called RKHSPose, and achieves state-of-the-art performance among self-supervised methods on three commonly used 6DoF PE datasets including LINEMOD (+4.2%), Occlusion LINEMOD (+2%), and YCB-Video (+3%). It also compares favorably to fully supervised methods on all six applicable BOP core datasets, achieving within -11.3% to +0.2% of the top fully supervised results.
arxiv情報
著者 | Yangzheng Wu,Michael Greenspan |
発行日 | 2024-07-17 15:10:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google