DOVE: Learning Deformable 3D Objects by Watching Videos

要約

2D画像から変形可能な3Dオブジェクトを学習することは、多くの場合、不適切な問題です。
既存の方法は、明示的な監視に依存して、テンプレート形状モデルやキーポイント注釈などのマルチビュー対応を確立します。これにより、「野生の」オブジェクトへの適用が制限されます。
通信を確立するより自然な方法は、動き回るオブジェクトのビデオを見ることです。
この論文では、キーポイント、視点、またはテンプレート形状の監視なしに、オンラインで利用可能な単眼ビデオから変形可能なオブジェクトカテゴリのテクスチャ3Dモデルを学習する方法であるDOVEを紹介します。
対称性に起因するポーズのあいまいさを解決し、ビデオの時間的対応を活用することで、モデルは自動的に3D形状、関節式ポーズ、テクスチャを個々のRGBフレームから除外することを学習し、テスト時に単一画像の推論を行う準備が整います。
実験では、既存の方法では、追加のキーポイントまたはテンプレートの監視なしでは適切な3D形状を学習できないことを示していますが、私たちの方法では、任意の視点からアニメーション化およびレンダリングできる時間的に一貫した3Dモデルを生成します。

要約(オリジナル)

Learning deformable 3D objects from 2D images is often an ill-posed problem. Existing methods rely on explicit supervision to establish multi-view correspondences, such as template shape models and keypoint annotations, which restricts their applicability on objects ‘in the wild’. A more natural way of establishing correspondences is by watching videos of objects moving around. In this paper, we present DOVE, a method that learns textured 3D models of deformable object categories from monocular videos available online, without keypoint, viewpoint or template shape supervision. By resolving symmetry-induced pose ambiguities and leveraging temporal correspondences in videos, the model automatically learns to factor out 3D shape, articulated pose and texture from each individual RGB frame, and is ready for single-image inference at test time. In the experiments, we show that existing methods fail to learn sensible 3D shapes without additional keypoint or template supervision, whereas our method produces temporally consistent 3D models, which can be animated and rendered from arbitrary viewpoints.

arxiv情報

著者 Shangzhe Wu,Tomas Jakab,Christian Rupprecht,Andrea Vedaldi
発行日 2022-06-29 17:03:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク