要約
ヒューマンモーションの生成と編集は、コンピュータグラフィックスとビジョンの重要な要素である。しかし、この分野の現在のアプローチは、特定のタスクに合わせた孤立したソリューションを提供する傾向があり、実世界のアプリケーションでは非効率的で実用的でない場合がある。モーション関連タスクの統一を目指した取り組みもあるが、これらの手法は、モーション生成を導くための条件として異なるモダリティを使用しているだけである。その結果、編集機能やきめ細かな制御ができず、タスク間の知識共有を促進することができない。これらの限界に対処し、人間のモーション生成と編集の両方を扱うことができる、汎用的で統一されたフレームワークを提供するために、我々は新しいパラダイムを導入する:このパラダイムに基づき、我々はMotionLabという統一的なフレームワークを提案する。MotionLabは、指定された条件に導かれながら、ソースモーションからターゲットモーションへのマッピングを学習するための整流フローを組み込む。MotionLabでは、1)タスク固有のモジュールなしで条件生成と編集を強化するMotionFlow Transformer、2)ソースモーションとターゲットモーションの時間同期を保証するAligned Rotational Position Encoding}、3)タスク指定の命令変調、4)効率的なマルチタスク学習とタスク間の知識共有のためのMotion Curriculum Learningを導入する。特に、我々のMotionLabは、人間の動きに関する複数のベンチマークにおいて、有望な汎化能力と推論効率を示している。我々のコードとその他のビデオ結果は、https://diouo.github.io/motionlab.github.io/。
要約(オリジナル)
Human motion generation and editing are key components of computer graphics and vision. However, current approaches in this field tend to offer isolated solutions tailored to specific tasks, which can be inefficient and impractical for real-world applications. While some efforts have aimed to unify motion-related tasks, these methods simply use different modalities as conditions to guide motion generation. Consequently, they lack editing capabilities, fine-grained control, and fail to facilitate knowledge sharing across tasks. To address these limitations and provide a versatile, unified framework capable of handling both human motion generation and editing, we introduce a novel paradigm: Motion-Condition-Motion, which enables the unified formulation of diverse tasks with three concepts: source motion, condition, and target motion.Based on this paradigm, we propose a unified framework, MotionLab, which incorporates rectified flows to learn the mapping from source motion to target motion, guided by the specified conditions.In MotionLab, we introduce the 1) MotionFlow Transformer to enhance conditional generation and editing without task-specific modules; 2) Aligned Rotational Position Encoding} to guarantee the time synchronization between source motion and target motion; 3) Task Specified Instruction Modulation; and 4) Motion Curriculum Learning for effective multi-task learning and knowledge sharing across tasks. Notably, our MotionLab demonstrates promising generalization capabilities and inference efficiency across multiple benchmarks for human motion. Our code and additional video results are available at: https://diouo.github.io/motionlab.github.io/.
arxiv情報
著者 | Ziyan Guo,Zeyu Hu,Na Zhao,De Wen Soh |
発行日 | 2025-02-04 14:43:26+00:00 |
arxivサイト | arxiv_id(pdf) |