Learning Articulated Shape with Keypoint Pseudo-labels from Web Images

要約

タイトル:ウェブ画像からキーポイント擬似ラベルを使った可動式形状の学習

要約:

– 50〜150枚の画像に2Dキーポイントの言葉をつけることができると、関節のある物体(例えば馬、牛、羊)の単眼的な3D再構築のためのモデルを学習できることがわかります。
– 当該物体カテゴリに特化したキーポイント予測器のトレーニング、未ラベル化されたウェブ画像で2Dキーポイント疑似ラベルを生成し、それらを使用して3D再建モデルをトレーニングすることが含まれます。
– 2つの洞察に基づいており、(1)その物体カテゴリの50〜150枚の画像でトレーニングされた2Dキーポイントの推定ネットワークはよく一般化され、信頼できる擬似ラベルを生成することができます。 (2)データ選択メカニズムが自動的に少数のラベル化されていないWeb画像の「管理された」サブセットを作成でき、4つのデータ選択方法を評価しました。
– これらの2つの洞察を結びつけることで、Web画像を効果的に活用してモデルをトレーニングできます。結果として、完全に監視されたベースラインを超えて、いくつかの可動式物体カテゴリの改良された3D再構成性能が得られます。
– 当社の方法は、モデルを迅速にブートストラップすることができ、2Dキーポイントにラベルが付けられたわずかな数の画像だけを必要とします。この要件は、任意の新しい物体カテゴリに簡単に満たすことができます。
– 示すために、COCOからキリンとクマの画像に2Dキーポイントを注釈し、注釈プロセスは1枚あたり1分未満しかかかりません。

要約(オリジナル)

This paper shows that it is possible to learn models for monocular 3D reconstruction of articulated objects (e.g., horses, cows, sheep), using as few as 50-150 images labeled with 2D keypoints. Our proposed approach involves training category-specific keypoint estimators, generating 2D keypoint pseudo-labels on unlabeled web images, and using both the labeled and self-labeled sets to train 3D reconstruction models. It is based on two key insights: (1) 2D keypoint estimation networks trained on as few as 50-150 images of a given object category generalize well and generate reliable pseudo-labels; (2) a data selection mechanism can automatically create a ‘curated’ subset of the unlabeled web images that can be used for training — we evaluate four data selection methods. Coupling these two insights enables us to train models that effectively utilize web images, resulting in improved 3D reconstruction performance for several articulated object categories beyond the fully-supervised baseline. Our approach can quickly bootstrap a model and requires only a few images labeled with 2D keypoints. This requirement can be easily satisfied for any new object category. To showcase the practicality of our approach for predicting the 3D shape of arbitrary object categories, we annotate 2D keypoints on giraffe and bear images from COCO — the annotation process takes less than 1 minute per image.

arxiv情報

著者 Anastasis Stathopoulos,Georgios Pavlakos,Ligong Han,Dimitris Metaxas
発行日 2023-04-27 17:57:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク