Robust Category-Level 3D Pose Estimation from Synthetic Data

要約

正確な 3D オブジェクトのポーズを取得することは、3D 再構成やシーンの理解など、多くのコンピューター ビジョン アプリケーションにとって不可欠です。
ただし、現実世界のオブジェクトに注釈を付けるのは時間がかかり、困難です。
合成的に生成されたトレーニング データは実行可能な代替手段ですが、実際のデータと合成データの間のドメインの移行は大きな課題です。
この研究では、合成データと少数の実画像でトレーニングされたモデルと、大規模データでトレーニングされた完全教師モデルとの間のパフォーマンスのギャップを狭めることを目的としています。
私たちは 2 つの観点から問題にアプローチすることでこれを達成します。 1) CAD モデルから生成され、新しいアルゴリズムで強化されたオブジェクト姿勢推定用の新しい合成データセットである SyntheticP3D を導入します。
2) 逆レンダリングを介して姿勢推定を実行するニューラル メッシュ モデルをトレーニングするための新しいアプローチ (CC3D) を提案します。
特に、メッシュ表面上の特徴間の空間関係と対照的な学習スキームを利用して、ドメイン適応プロセスをガイドします。
これら 2 つのアプローチを組み合わせることで、実際のトレーニング画像のそれぞれ 10% のみを使用して、モデルが最先端のモデルと競合するパフォーマンスを発揮できると同時に、しきい値 pi/18 で 50% のみを使用して SOTA モデルのパフォーマンスを 10.4% 上回ります。
実際のトレーニング データの。
私たちのトレーニング済みモデルは、最小限の実データでトレーニングされているにもかかわらず、分布外シナリオに対する堅牢な一般化をさらに実証しています。

要約(オリジナル)

Obtaining accurate 3D object poses is vital for numerous computer vision applications, such as 3D reconstruction and scene understanding. However, annotating real-world objects is time-consuming and challenging. While synthetically generated training data is a viable alternative, the domain shift between real and synthetic data is a significant challenge. In this work, we aim to narrow the performance gap between models trained on synthetic data and few real images and fully supervised models trained on large-scale data. We achieve this by approaching the problem from two perspectives: 1) We introduce SyntheticP3D, a new synthetic dataset for object pose estimation generated from CAD models and enhanced with a novel algorithm. 2) We propose a novel approach (CC3D) for training neural mesh models that perform pose estimation via inverse rendering. In particular, we exploit the spatial relationships between features on the mesh surface and a contrastive learning scheme to guide the domain adaptation process. Combined, these two approaches enable our models to perform competitively with state-of-the-art models using only 10% of the respective real training images, while outperforming the SOTA model by 10.4% with a threshold of pi/18 using only 50% of the real training data. Our trained model further demonstrates robust generalization to out-of-distribution scenarios despite being trained with minimal real data.

arxiv情報

著者 Jiahao Yang,Wufei Ma,Angtian Wang,Xiaoding Yuan,Alan Yuille,Adam Kortylewski
発行日 2023-05-25 14:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク