要約
限られたトレーニング シーケンスから人間の動きを合成することを学習する生成モデルを紹介します。
私たちのフレームワークは、複数の時間解像度にわたる条件付き生成とブレンディングを提供します。
このモデルは、骨格畳み込み層とマルチスケール アーキテクチャを統合することにより、人間の動作パターンを適切に捕捉します。
私たちのモデルには、埋め込みモジュールとともに生成ネットワークと敵対ネットワークのセットが含まれており、それぞれのコンテンツと詳細を制御しながら、特定のフレーム レートでモーションを生成するように調整されています。
特に、私たちのアプローチは共同音声ジェスチャの合成にも拡張されており、ペアのデータが限られている場合でも、音声入力から同期したジェスチャを生成できる能力を実証しています。
SMPL 姿勢パラメータの直接合成により、私たちのアプローチは人体メッシュに適合させるためのテスト時の調整を回避します。
実験結果は、ローカルおよびグローバルの多様性メトリクスで示されるように、多様なモーションを生成しながら、トレーニング例を広範囲にカバーするモデルの能力を示しています。
要約(オリジナル)
We present a generative model that learns to synthesize human motion from limited training sequences. Our framework provides conditional generation and blending across multiple temporal resolutions. The model adeptly captures human motion patterns by integrating skeletal convolution layers and a multi-scale architecture. Our model contains a set of generative and adversarial networks, along with embedding modules, each tailored for generating motions at specific frame rates while exerting control over their content and details. Notably, our approach also extends to the synthesis of co-speech gestures, demonstrating its ability to generate synchronized gestures from speech inputs, even with limited paired data. Through direct synthesis of SMPL pose parameters, our approach avoids test-time adjustments to fit human body meshes. Experimental results showcase our model’s ability to achieve extensive coverage of training examples, while generating diverse motions, as indicated by local and global diversity metrics.
arxiv情報
著者 | David Eduardo Moreno-Villamarín,Anna Hilsmann,Peter Eisert |
発行日 | 2024-11-25 15:36:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google