要約
世界がデジタル変革を受け入れるにつれて、3D 人間のモーションの制御可能な生成が重要なトピックになっています。
既存の作品は、拡散モデルの出現により有望な進歩を遂げているものの、注意深くキャプチャされ注釈(テキストなど)が付けられた高品質のモーション コーパスに大きく依存しており、現実世界ではリソースを大量に消費する取り組みとなります。
これは、ノイズの多いモーション シーケンスと注釈のないモーション シーケンスの両方を活用する、シンプルでありながら効果的な弱教師付き拡散モデルである、私たちが提案する MotionMix の動機となります。
具体的には、拡散モデルのノイズ除去の目的を 2 つの段階に分けます。最初の $T-T^*$ ステップで、ノイズのある注釈付きモーションを学習することで条件付きの粗いモーション近似を取得し、その後、最後の $T でこれらの予備的なモーションを無条件に改良します。
^*$ は、注釈のないモーションを使用してステップを実行します。
特に、不完全なデータの 2 つのソースから学習しているにもかかわらず、私たちのモデルは、ゴールド データにアクセスする完全に教師ありのアプローチと比較して、モーション生成の品質を損なうことはありません。
いくつかのベンチマークに関する広範な実験により、当社の MotionMix は多用途のフレームワークとして、テキストからモーション、アクションからモーション、音楽からダンスのタスクにおいて常に最先端のパフォーマンスを達成できることが実証されています。
プロジェクトページ: https://nhathoang2002.github.io/MotionMix-page/
要約(オリジナル)
Controllable generation of 3D human motions becomes an important topic as the world embraces digital transformation. Existing works, though making promising progress with the advent of diffusion models, heavily rely on meticulously captured and annotated (e.g., text) high-quality motion corpus, a resource-intensive endeavor in the real world. This motivates our proposed MotionMix, a simple yet effective weakly-supervised diffusion model that leverages both noisy and unannotated motion sequences. Specifically, we separate the denoising objectives of a diffusion model into two stages: obtaining conditional rough motion approximations in the initial $T-T^*$ steps by learning the noisy annotated motions, followed by the unconditional refinement of these preliminary motions during the last $T^*$ steps using unannotated motions. Notably, though learning from two sources of imperfect data, our model does not compromise motion generation quality compared to fully supervised approaches that access gold data. Extensive experiments on several benchmarks demonstrate that our MotionMix, as a versatile framework, consistently achieves state-of-the-art performances on text-to-motion, action-to-motion, and music-to-dance tasks. Project page: https://nhathoang2002.github.io/MotionMix-page/
arxiv情報
著者 | Nhat M. Hoang,Kehong Gong,Chuan Guo,Michael Bi Mi |
発行日 | 2024-01-24 13:08:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google