MotionLab: Unified Human Motion Generation and Editing via the Motion-Condition-Motion Paradigm

要約

人間のモーション生成と編集は、コンピューターグラフィックとビジョンの重要なコンポーネントです。
ただし、この分野での現在のアプローチは、特定のタスクに合わせて調整された孤立したソリューションを提供する傾向があります。これは、実際のアプリケーションでは非効率的で非実用的です。
いくつかの努力がモーション関連のタスクを統合することを目的としていますが、これらの方法は、モーション生成を導くために条件として異なるモダリティを使用するだけです。
その結果、編集機能がなく、細かい制御がなく、タスク全体の知識共有を促進できません。
これらの制限に対処し、人間の動きの生成と編集の両方を処理できる多用途の統一されたフレームワークを提供するために、新しいパラダイム:モーションコンディションモーションを紹介します。
ターゲットモーション。
このパラダイムに基づいて、指定された条件に導かれたソースモーションからターゲットモーションへのマッピングを学習するために整流されたフローを組み込んだ統一されたフレームワークであるMotionLabを提案します。
MotionLabでは、1)MotionFlowトランスを導入して、タスク固有のモジュールなしで条件付き生成と編集を強化します。
2)アラインされた回転位置エンコード}}ソースの動きとターゲットの動きの間の時間同期を保証する。
3)タスク指定命令変調。
4)タスク全体で効果的なマルチタスク学習と知識の共有のためのモーションカリキュラム学習。
特に、私たちのMotionLabは、人間の動きのための複数のベンチマークにわたって有望な一般化能力と推論効率を示しています。
コードと追加のビデオ結果は、https://diouo.github.io/motionlab.github.io/で入手できます。

要約(オリジナル)

Human motion generation and editing are key components of computer graphics and vision. However, current approaches in this field tend to offer isolated solutions tailored to specific tasks, which can be inefficient and impractical for real-world applications. While some efforts have aimed to unify motion-related tasks, these methods simply use different modalities as conditions to guide motion generation. Consequently, they lack editing capabilities, fine-grained control, and fail to facilitate knowledge sharing across tasks. To address these limitations and provide a versatile, unified framework capable of handling both human motion generation and editing, we introduce a novel paradigm: Motion-Condition-Motion, which enables the unified formulation of diverse tasks with three concepts: source motion, condition, and target motion. Based on this paradigm, we propose a unified framework, MotionLab, which incorporates rectified flows to learn the mapping from source motion to target motion, guided by the specified conditions. In MotionLab, we introduce the 1) MotionFlow Transformer to enhance conditional generation and editing without task-specific modules; 2) Aligned Rotational Position Encoding} to guarantee the time synchronization between source motion and target motion; 3) Task Specified Instruction Modulation; and 4) Motion Curriculum Learning for effective multi-task learning and knowledge sharing across tasks. Notably, our MotionLab demonstrates promising generalization capabilities and inference efficiency across multiple benchmarks for human motion. Our code and additional video results are available at: https://diouo.github.io/motionlab.github.io/.

arxiv情報

著者 Ziyan Guo,Zeyu Hu,Na Zhao,De Wen Soh
発行日 2025-02-06 15:03:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク