Textual Decomposition Then Sub-motion-space Scattering for Open-Vocabulary Motion Generation

要約

テキストからモーションの生成は、コンピューター ビジョンにおいて重要なタスクであり、指定されたテキストによってターゲットの 3D モーションを生成します。
既存のアノテーション付きデータセットは規模が制限されているため、ほとんどの既存の手法は小さなデータセットに過剰適合し、開いた領域の動きに一般化できません。
一部の方法では、CLIP 空間に合わせたり、Pretrain-then-Finetuning パラダイムを使用したりすることで、オープン語彙のモーション生成問題を解決しようとします。
ただし、現在のアノテーション付きデータセットのスケールが制限されているため、フルテキスト空間とフルモーション空間の間のマッピング (フル マッピング) ではなく、サブテキスト空間からサブモーション空間へのマッピングしか実現できません。
オープンな語彙動作生成を達成するための鍵。
この目的を達成するために、この論文では、中間表現として原子運動 (短期間にわたる単純な身体部分の運動) を活用し、2 つの規則的に結合されたステップ、つまりテキスト分解とサブ運動空間散乱を活用して、
完全なマッピングの問題。
テキスト分解では、きめの細かい記述変換アルゴリズムを設計し、それを大規模な言語モデルの一般化機能と組み合わせて、特定のモーション テキストをアトミック テキストに変換します。
サブモーションスペース散乱は、アトミックモーションからターゲットモーションまでの構成プロセスを学習し、学習したサブモーションスペースを散乱させてフルモーションスペースを形成します。
オープンドメインの特定の動きに対して、外挿を内挿に変換することで汎化が大幅に向上します。
私たちのネットワーク $DSO$-Net は、テキスト $d$ecomposition とサブモーション空間 $s$cattering を組み合わせて、$o$pen 語彙モーション生成を解決します。
広範な実験により、当社の DSO-Net は、オープン語彙モーション生成に関する最先端の方法に比べて大幅な改善を達成していることが実証されています。
コードは https://vankouf.github.io/DSONet/ で入手できます。

要約(オリジナル)

Text-to-motion generation is a crucial task in computer vision, which generates the target 3D motion by the given text. The existing annotated datasets are limited in scale, resulting in most existing methods overfitting to the small datasets and unable to generalize to the motions of the open domain. Some methods attempt to solve the open-vocabulary motion generation problem by aligning to the CLIP space or using the Pretrain-then-Finetuning paradigm. However, the current annotated dataset’s limited scale only allows them to achieve mapping from sub-text-space to sub-motion-space, instead of mapping between full-text-space and full-motion-space (full mapping), which is the key to attaining open-vocabulary motion generation. To this end, this paper proposes to leverage the atomic motion (simple body part motions over a short time period) as an intermediate representation, and leverage two orderly coupled steps, i.e., Textual Decomposition and Sub-motion-space Scattering, to address the full mapping problem. For Textual Decomposition, we design a fine-grained description conversion algorithm, and combine it with the generalization ability of a large language model to convert any given motion text into atomic texts. Sub-motion-space Scattering learns the compositional process from atomic motions to the target motions, to make the learned sub-motion-space scattered to form the full-motion-space. For a given motion of the open domain, it transforms the extrapolation into interpolation and thereby significantly improves generalization. Our network, $DSO$-Net, combines textual $d$ecomposition and sub-motion-space $s$cattering to solve the $o$pen-vocabulary motion generation. Extensive experiments demonstrate that our DSO-Net achieves significant improvements over the state-of-the-art methods on open-vocabulary motion generation. Code is available at https://vankouf.github.io/DSONet/.

arxiv情報

著者 Ke Fan,Jiangning Zhang,Ran Yi,Jingyu Gong,Yabiao Wang,Yating Wang,Xin Tan,Chengjie Wang,Lizhuang Ma
発行日 2024-11-06 17:57:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク