要約
ラベルのない未加工のオンライン ビデオから、関節のある 3D 動物の動きの生成モデルを学習する新しい方法である Ponymation を紹介します。
モーション合成の既存のアプローチとは異なり、私たちのモデルはトレーニングにポーズの注釈やパラメトリック形状モデルを必要とせず、インターネットから取得した生のビデオ クリップのコレクションから純粋に学習されます。
私たちは、単一の画像コレクションから純粋に関節のある 3D 動物の形状を学習する最近の作品 MagicPony を基にして、それを 2 つの面で拡張しています。
まず、静止画像でトレーニングする代わりに、時間的正則化を組み込んだビデオ トレーニング パイプラインでフレームワークを強化し、より正確で時間的に一貫した再構成を実現します。
次に、明示的なポーズ アノテーションに依存せずに、単純に 2D 再構成損失を使用して、時空間変換 VAE を介して、基礎となる多関節 3D モーション シーケンスの生成モデルを学習します。
推論時に、新しい動物インスタンスの 1 つの 2D 画像が与えられると、モデルは多関節でテクスチャ化された 3D メッシュを再構築し、学習されたモーション潜在空間からサンプリングすることで、妥当な 3D アニメーションを生成します。
要約(オリジナル)
We introduce Ponymation, a new method for learning a generative model of articulated 3D animal motions from raw, unlabeled online videos. Unlike existing approaches for motion synthesis, our model does not require any pose annotations or parametric shape models for training, and is learned purely from a collection of raw video clips obtained from the Internet. We build upon a recent work, MagicPony, which learns articulated 3D animal shapes purely from single image collections, and extend it on two fronts. First, instead of training on static images, we augment the framework with a video training pipeline that incorporates temporal regularizations, achieving more accurate and temporally consistent reconstructions. Second, we learn a generative model of the underlying articulated 3D motion sequences via a spatio-temporal transformer VAE, simply using 2D reconstruction losses without relying on any explicit pose annotations. At inference time, given a single 2D image of a new animal instance, our model reconstructs an articulated, textured 3D mesh, and generates plausible 3D animations by sampling from the learned motion latent space.
arxiv情報
著者 | Keqiang Sun,Dor Litvak,Yunzhi Zhang,Hongsheng Li,Jiajun Wu,Shangzhe Wu |
発行日 | 2024-07-30 15:49:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google