Unsupervised Volumetric Animation

要約

非剛体変形可能オブジェクトの教師なし 3D アニメーションのための新しいアプローチを提案します。
私たちの方法は、オブジェクトの 3D 構造とダイナミクスを単一ビューの RGB ビデオのみから学習し、それらを追跡およびアニメーション化できる意味的に意味のある部分に分解できます。
微分可能な PnP アルゴリズムを介してキーポイント推定器と組み合わせた 3D オートデコーダー フレームワークを使用して、モデルは基礎となるオブジェクトのジオメトリとパーツの分解を完全に教師なしで学習します。
これにより、3D セグメンテーション、3D キーポイント推定、新規ビュー合成、およびアニメーションを実行できます。
主に、VoxCeleb $256^2$ と TEDXPeople $256^2$ の 2 つのビデオ データセットでフレームワークを評価します。
さらに、Cats $256^2$ 画像データセットでは、静止画像から説得力のある 3D ジオメトリを学習することさえ示しています。
最後に、モデルが単一または少数の画像からアニメート可能な 3D オブジェクトを取得できることを示します。
コードと視覚的な結果は、プロジェクトの Web サイトで入手できます。https://snap-research.github.io/unsupervised-volumetric-animation を参照してください。

要約(オリジナル)

We propose a novel approach for unsupervised 3D animation of non-rigid deformable objects. Our method learns the 3D structure and dynamics of objects solely from single-view RGB videos, and can decompose them into semantically meaningful parts that can be tracked and animated. Using a 3D autodecoder framework, paired with a keypoint estimator via a differentiable PnP algorithm, our model learns the underlying object geometry and parts decomposition in an entirely unsupervised manner. This allows it to perform 3D segmentation, 3D keypoint estimation, novel view synthesis, and animation. We primarily evaluate the framework on two video datasets: VoxCeleb $256^2$ and TEDXPeople $256^2$. In addition, on the Cats $256^2$ image dataset, we show it even learns compelling 3D geometry from still images. Finally, we show our model can obtain animatable 3D objects from a single or few images. Code and visual results available on our project website, see https://snap-research.github.io/unsupervised-volumetric-animation .

arxiv情報

著者 Aliaksandr Siarohin,Willi Menapace,Ivan Skorokhodov,Kyle Olszewski,Jian Ren,Hsin-Ying Lee,Menglei Chai,Sergey Tulyakov
発行日 2023-01-26 18:58:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク