要約
テキスト誘導モーション編集により、従来のキーフレームアニメーションを超えて、高レベルのセマンティックコントロールと反復的な変更が可能になります。
既存の方法は、限られた事前に収集されたトレーニングトリプレットに依存しており、これは多様な編集シナリオにおける汎用性を著しく妨げます。
入力テキストに基づいてボディパーツの動きをブレンドすることにより、トレーニングトリプレットを動的に生成するオンラインデータ増強手法であるMotionCutmixを紹介します。
MotionCutmixはトレーニングの分布を効果的に拡張しますが、組成の性質はランダム性と潜在的な身体部分の不整合を導入します。
このような豊富な分布をモデル化するために、モーションコーディネーターを使用した自動回帰拡散モデルであるMotionRefitを提示します。
自動回帰アーキテクチャは、長いシーケンスを分解することにより学習を促進し、モーションコーディネーターはモーション構成のアーティファクトを軽減します。
私たちの方法は、追加の仕様や大規模な言語モデルに依存することなく、高レベルの人間の指示から直接空間モーションと時間のモーション編集を編集します。
広範な実験を通じて、MotionRefitがテキスト誘導モーション編集で最先端のパフォーマンスを達成することを示します。
要約(オリジナル)
Text-guided motion editing enables high-level semantic control and iterative modifications beyond traditional keyframe animation. Existing methods rely on limited pre-collected training triplets, which severely hinders their versatility in diverse editing scenarios. We introduce MotionCutMix, an online data augmentation technique that dynamically generates training triplets by blending body part motions based on input text. While MotionCutMix effectively expands the training distribution, the compositional nature introduces increased randomness and potential body part incoordination. To model such a rich distribution, we present MotionReFit, an auto-regressive diffusion model with a motion coordinator. The auto-regressive architecture facilitates learning by decomposing long sequences, while the motion coordinator mitigates the artifacts of motion composition. Our method handles both spatial and temporal motion edits directly from high-level human instructions, without relying on additional specifications or Large Language Models. Through extensive experiments, we show that MotionReFit achieves state-of-the-art performance in text-guided motion editing.
arxiv情報
著者 | Nan Jiang,Hongjie Li,Ziye Yuan,Zimo He,Yixin Chen,Tengyu Liu,Yixin Zhu,Siyuan Huang |
発行日 | 2025-03-26 17:07:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google