要約
テキストとモーションの合成は、コンピューター ビジョンにおける重要なタスクです。
既存の方法は、1 人または 2 人のシナリオに合わせて調整されており、より多くの人のモーションを生成するために適用できないため、汎用性が限られています。
本論文では、無数の動作合成を実現するために、動作生成を再検討し、条件付き動作分配により一人と複数人の動作を統合することを提案する。
さらに、条件付きモーション生成のプロセスを分離し、最終的にナンバーフリーのモーション合成をサポートするために、生成モジュールと対話モジュールが FreeMotion フレームワーク用に設計されています。
さらに、私たちのフレームワークに基づいて、現在の一人の動きの空間制御方法をシームレスに統合し、複数人の動きの正確な制御を達成することができます。
広範な実験により、私たちの方法の優れたパフォーマンスと、単一および複数の人間の動きを同時に推論する能力が実証されました。
要約(オリジナル)
Text-to-motion synthesis is a crucial task in computer vision. Existing methods are limited in their universality, as they are tailored for single-person or two-person scenarios and can not be applied to generate motions for more individuals. To achieve the number-free motion synthesis, this paper reconsiders motion generation and proposes to unify the single and multi-person motion by the conditional motion distribution. Furthermore, a generation module and an interaction module are designed for our FreeMotion framework to decouple the process of conditional motion generation and finally support the number-free motion synthesis. Besides, based on our framework, the current single-person motion spatial control method could be seamlessly integrated, achieving precise control of multi-person motion. Extensive experiments demonstrate the superior performance of our method and our capability to infer single and multi-human motions simultaneously.
arxiv情報
著者 | Ke Fan,Junshu Tang,Weijian Cao,Ran Yi,Moran Li,Jingyu Gong,Jiangning Zhang,Yabiao Wang,Chengjie Wang,Lizhuang Ma |
発行日 | 2024-05-24 17:57:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google