MMM: Generative Masked Motion Model

要約

拡散モデルと自己回帰モデルを使用したテキストからモーションへの生成の最近の進歩により、有望な結果が示されています。
ただし、これらのモデルは、リアルタイム パフォーマンス、高忠実度、モーション編集可能性の間のトレードオフに悩まされることがよくあります。
このギャップに対処するために、マスクされたモーション モデルに基づいた斬新かつシンプルなモーション生成パラダイムである MMM を紹介します。
MMM は 2 つの重要なコンポーネントで構成されます: (1) 3D 人間のモーションを潜在空間内の一連の離散トークンに変換するモーション トークナイザー、および (2) 事前条件に基づいて、ランダムにマスクされたモーション トークンを予測することを学習する条件付きマスク モーション トランスフォーマー
-計算されたテキストトークン。
MMM は、あらゆる方向のモーション トークンとテキスト トークンに注意を払うことにより、モーション トークン間の固有の依存関係と、モーション トークンとテキスト トークン間のセマンティック マッピングを明示的にキャプチャします。
これにより、推論中に、きめの細かいテキスト記述との一貫性が高い複数のモーション トークンを並列かつ反復的にデコードできるため、高忠実度で高速なモーション生成を同時に実現できます。
さらに、MMM にはモーション編集機能が備わっています。
編集が必要な場所にマスク トークンを配置するだけで、MMM は自動的にギャップを埋め、編集部分と非編集部分の間のスムーズな移行を保証します。
HumanML3D および KIT-ML データセットに関する広範な実験により、MMM が高品質のモーションを生成する点で現在の主要な手法を上回り (0.08 および 0.429 という優れた FID スコアによって証明されています)、ボディパーツの変更、モーションインなどの高度な編集機能を提供していることが実証されました。
間の調整、および長いモーション シーケンスの合成。
さらに、MMM は、単一のミッドレンジ GPU 上で、編集可能なモーション拡散モデルよりも 2 桁高速です。
私たちのプロジェクト ページは \url{https://exitudio.github.io/MMM-page} から入手できます。

要約(オリジナル)

Recent advances in text-to-motion generation using diffusion and autoregressive models have shown promising results. However, these models often suffer from a trade-off between real-time performance, high fidelity, and motion editability. To address this gap, we introduce MMM, a novel yet simple motion generation paradigm based on Masked Motion Model. MMM consists of two key components: (1) a motion tokenizer that transforms 3D human motion into a sequence of discrete tokens in latent space, and (2) a conditional masked motion transformer that learns to predict randomly masked motion tokens, conditioned on the pre-computed text tokens. By attending to motion and text tokens in all directions, MMM explicitly captures inherent dependency among motion tokens and semantic mapping between motion and text tokens. During inference, this allows parallel and iterative decoding of multiple motion tokens that are highly consistent with fine-grained text descriptions, therefore simultaneously achieving high-fidelity and high-speed motion generation. In addition, MMM has innate motion editability. By simply placing mask tokens in the place that needs editing, MMM automatically fills the gaps while guaranteeing smooth transitions between editing and non-editing parts. Extensive experiments on the HumanML3D and KIT-ML datasets demonstrate that MMM surpasses current leading methods in generating high-quality motion (evidenced by superior FID scores of 0.08 and 0.429), while offering advanced editing features such as body-part modification, motion in-betweening, and the synthesis of long motion sequences. In addition, MMM is two orders of magnitude faster on a single mid-range GPU than editable motion diffusion models. Our project page is available at \url{https://exitudio.github.io/MMM-page}.

arxiv情報

著者 Ekkasit Pinyoanuntapong,Pu Wang,Minwoo Lee,Chen Chen
発行日 2023-12-06 16:35:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク