要約
この作業は、挑戦的なタスクを目的としています。つまり、人間のアクション反応合成、つまり、他の作用シーケンスの条件としての人間の反応を生成します。
現在、自己回帰モデリングアプローチは、モーション生成タスクで顕著なパフォーマンスを達成しています。
テキストからモーション。
ただし、自己回帰生成に伴うベクター量子化(VQ)には、量子化情報の喪失、コードブックの利用などの固有の欠点があります。さらに、ボディ関節の動きのみに焦点を当てたテキストからモーションとは異なり、人間の作用反応合成は、細粒の手の動きを網羅しています。
この作業では、連続表現で協調的で微細な反応運動を生成するように設計された新しいフレームワークであるMarrsを提案します。
最初に、ユニットを存在するモーション変動自動エンコーダー(UD-VAE)を提示します。これは、体全体を明確な体と手単位に分割し、独立してエンコードします。
その後、アクション条件付き融合(ACF)を提案します。これには、リアクティブトークンのサブセットをランダムにマスキングし、アクティブトークンから身体と手に関する特定の情報を抽出することを提案します。
さらに、一方のユニットからの情報を使用して他のユニットからの相互作用を促進するために、適応ユニット変調(AUM)を導入します。
最後に、拡散モデルでは、個別の各ボディユニットのノイズ予測因子としてコンパクトMLPを使用し、拡散損失を組み込み、各トークンの確率分布をモデル化します。
定量的および定性的な結果は、私たちの方法が優れたパフォーマンスを達成することを示しています。
コードは受け入れられるとリリースされます。
要約(オリジナル)
This work aims at a challenging task: human action-reaction synthesis, i.e., generating human reactions based on the action sequence of the other as conditions. Currently, autoregressive modeling approaches have achieved remarkable performance in motion generation tasks, e.g. text-to-motion. However, vector quantization (VQ) accompanying autoregressive generation has inherent disadvantages, including loss of quantization information, low codebook utilization, etc. Moreover, unlike text-to-motion, which focuses solely on the movement of body joints, human action-reaction synthesis also encompasses fine-grained hand movements. In this work, we propose MARRS, a novel framework designed to generate coordinated and fine-grained reaction motions in continuous representations. Initially, we present the Unit-distinguished Motion Variational AutoEncoder (UD-VAE), which segments the entire body into distinct body and hand units, encoding them independently. Subsequently, we propose Action-Conditioned Fusion (ACF), which involves randomly masking a subset of reactive tokens and extracting specific information about the body and hands from the active tokens. Furthermore, we introduce Adaptive Unit Modulation (AUM) to facilitate interaction between body and hand units by using the information from one unit to adaptively modulate the other. Finally, for the diffusion model, we employ a compact MLP as a noise predictor for each distinct body unit and incorporate the diffusion loss to model the probability distribution of each token. Quantitative and qualitative results demonstrate that our method achieves superior performance. The code will be released upon acceptance.
arxiv情報
著者 | Y. B. Wang,S Wang,J. N. Zhang,J. F. Wu,Q. D. He,C. C. Fu,C. J. Wang,Y. Liu |
発行日 | 2025-05-16 15:00:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google