FLAME: Free-form Language-based Motion Synthesis & Editing

要約

テキストベースのモーション生成モデルは、ゲーム、アニメーション、またはロボット業界でモーション作成プロセスを自動化する可能性があるため、関心が高まっています。
この論文では、FLAMEという名前の拡散ベースのモーション合成および編集モデルを提案します。
最近の拡散モデルの成功に着想を得て、拡散ベースの生成モデルをモーション ドメインに統合します。
FLAME は、指定されたテキストに合わせて忠実度の高いモーションを生成できます。
また、微調整なしで、モーションの一部をフレーム単位とジョイント単位の両方で編集できます。
FLAME には、モーション データをより適切に処理するために考案した、新しいトランスフォーマー ベースのアーキテクチャが含まれています。
実験では、FLAME が 3 つのテキストモーション データセット (HumanML3D、BABEL、および KIT) で最先端の生成パフォーマンスを達成することを示しています。
また、FLAME の編集機能を、以前は専用モデルでカバーされていたモーション予測やモーション インビトウィーンなどの他のタスクに拡張できることも示しています。

要約(オリジナル)

Text-based motion generation models are drawing a surge of interest for their potential for automating the motion-making process in the game, animation, or robot industries. In this paper, we propose a diffusion-based motion synthesis and editing model named FLAME. Inspired by the recent successes in diffusion models, we integrate diffusion-based generative models into the motion domain. FLAME can generate high-fidelity motions well aligned with the given text. Also, it can edit the parts of the motion, both frame-wise and joint-wise, without any fine-tuning. FLAME involves a new transformer-based architecture we devise to better handle motion data, which is found to be crucial to manage variable-length motions and well attend to free-form text. In experiments, we show that FLAME achieves state-of-the-art generation performances on three text-motion datasets: HumanML3D, BABEL, and KIT. We also demonstrate that editing capability of FLAME can be extended to other tasks such as motion prediction or motion in-betweening, which have been previously covered by dedicated models.

arxiv情報

著者 Jihoon Kim,Jiseob Kim,Sungjoon Choi
発行日 2022-09-01 10:34:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク