要約
3Dの形態モデル(3DMMS)は、オブジェクトカテゴリの可能な形と外観を表すための強力なツールです。
単一のテスト画像を考えると、3DMMを使用して、3D形状、ポーズ、セマンティック対応、オブジェクトのインスタンスセグメンテーションの予測など、さまざまなタスクを解決できます。
残念ながら、3DMMは、厳しい3Dデータ収集とカテゴリ固有のトレーニングプロセスを必要とするため、顔や人体など、特に興味深い非常に興味深いオブジェクトカテゴリでのみ使用できます。
対照的に、オブジェクト中心のビデオのコレクションから完全に自己監視された方法で共通オブジェクトの3DMMを学習する新しい方法であるCommon3Dを紹介します。
この目的のために、私たちのモデルは、学習した3Dテンプレートメッシュとしてのオブジェクトと、画像コンディショナルニューラルネットワークとしてパラメーター化された変形場として表します。
以前の作品とは異なり、Common3Dは、RGB色の代わりに神経特徴を持つオブジェクトの外観を表します。これにより、ピクセル強度からの抽象化を通じて、より一般化可能な表現の学習が可能になります。
重要なことに、変形可能なテンプレートメッシュを介して定義された対応を活用することにより、対照的な目的を使用して外観機能をトレーニングします。
これにより、関連する作品と比較して高品質の対応機能が高くなり、3Dオブジェクトのポーズとセマンティック対応の推定でモデルのパフォーマンスが大幅に向上します。
Common3Dは、ゼロショットの方法でさまざまなビジョンタスクを解決できる最初の完全に自己監視された方法です。
要約(オリジナル)
3D morphable models (3DMMs) are a powerful tool to represent the possible shapes and appearances of an object category. Given a single test image, 3DMMs can be used to solve various tasks, such as predicting the 3D shape, pose, semantic correspondence, and instance segmentation of an object. Unfortunately, 3DMMs are only available for very few object categories that are of particular interest, like faces or human bodies, as they require a demanding 3D data acquisition and category-specific training process. In contrast, we introduce a new method, Common3D, that learns 3DMMs of common objects in a fully self-supervised manner from a collection of object-centric videos. For this purpose, our model represents objects as a learned 3D template mesh and a deformation field that is parameterized as an image-conditioned neural network. Different from prior works, Common3D represents the object appearance with neural features instead of RGB colors, which enables the learning of more generalizable representations through an abstraction from pixel intensities. Importantly, we train the appearance features using a contrastive objective by exploiting the correspondences defined through the deformable template mesh. This leads to higher quality correspondence features compared to related works and a significantly improved model performance at estimating 3D object pose and semantic correspondence. Common3D is the first completely self-supervised method that can solve various vision tasks in a zero-shot manner.
arxiv情報
著者 | Leonhard Sommer,Olaf Dünkel,Christian Theobalt,Adam Kortylewski |
発行日 | 2025-04-30 15:42:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google