要約
最近出現したテキストからモーションへの進歩により、便利でインタラクティブな人間のモーション生成に対する数多くの試みが生まれました。
しかし、既存の方法は、身体のダイナミクスやテキストなどのさまざまな条件を処理することはおろか、豊富な両手の動きを考慮せずに身体の動きを生成することだけに主に限定されています。
データのボトルネックを打破するために、両手モーション生成用の新しいマルチモーダル データセットである BOTH57M を提案します。
私たちのデータセットには人体と手の正確な動作追跡が含まれており、ペアごとの指レベルの手の注釈と体の説明を提供します。
さらに、暗黙的な身体ダイナミクスと明示的なテキスト プロンプトの両方から鮮やかな両手の動きを生成するという新しいタスクに対して、強力なベースライン メソッドである BOTH2Hands を提供します。
まず、身体から手へ、およびテキストから手への 2 つの並列拡散モデルをウォームアップし、次にクロスアテンション トランスフォーマーをモーション ブレンディングに利用します。
広範な実験と相互検証により、身体とテキストのハイブリッド条件から説得力のある両手動作を生成するための私たちのアプローチとデータセットの有効性が実証されています。
私たちのデータセットとコードは、将来の研究のためにコミュニティに配布されます。
要約(オリジナル)
The recently emerging text-to-motion advances have spired numerous attempts for convenient and interactive human motion generation. Yet, existing methods are largely limited to generating body motions only without considering the rich two-hand motions, let alone handling various conditions like body dynamics or texts. To break the data bottleneck, we propose BOTH57M, a novel multi-modal dataset for two-hand motion generation. Our dataset includes accurate motion tracking for the human body and hands and provides pair-wised finger-level hand annotations and body descriptions. We further provide a strong baseline method, BOTH2Hands, for the novel task: generating vivid two-hand motions from both implicit body dynamics and explicit text prompts. We first warm up two parallel body-to-hand and text-to-hand diffusion models and then utilize the cross-attention transformer for motion blending. Extensive experiments and cross-validations demonstrate the effectiveness of our approach and dataset for generating convincing two-hand motions from the hybrid body-and-textual conditions. Our dataset and code will be disseminated to the community for future research.
arxiv情報
著者 | Wenqian Zhang,Molin Huang,Yuxuan Zhou,Juze Zhang,Jingyi Yu,Jingya Wang,Lan Xu |
発行日 | 2024-04-10 13:35:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google