要約
新しい様式化された運動潜在拡散モデルであるStylemotifを提示し、複数のモダリティからコンテンツとスタイルの両方に条件付けられた動きを生成します。
多様なモーションコンテンツの生成またはシーケンスからスタイルの転送に焦点を当てた既存のアプローチとは異なり、スタイレモチーは、モーション、テキスト、画像、ビデオ、オーディオなどのマルチモーダル入力からのスタイルのキューを組み込んでいる間、幅広いコンテンツでモーションをシームレスに合成します。
これを実現するために、スタイルコンテンツクロスフュージョンメカニズムを導入し、スタイルエンコーダーを事前に訓練したマルチモーダルモデルに合わせて、生成されたモーションがリアリズムを維持しながら参照スタイルを正確にキャプチャするようにします。
広範な実験は、私たちのフレームワークが様式化されたモーション生成の既存の方法を上回り、マルチモーダルモーションスタイリゼーションの緊急能力を示すことを示しており、より微妙なモーション合成を可能にします。
ソースコードと事前に訓練されたモデルは、受け入れられるとリリースされます。
プロジェクトページ:https://stylemotif.github.io
要約(オリジナル)
We present StyleMotif, a novel Stylized Motion Latent Diffusion model, generating motion conditioned on both content and style from multiple modalities. Unlike existing approaches that either focus on generating diverse motion content or transferring style from sequences, StyleMotif seamlessly synthesizes motion across a wide range of content while incorporating stylistic cues from multi-modal inputs, including motion, text, image, video, and audio. To achieve this, we introduce a style-content cross fusion mechanism and align a style encoder with a pre-trained multi-modal model, ensuring that the generated motion accurately captures the reference style while preserving realism. Extensive experiments demonstrate that our framework surpasses existing methods in stylized motion generation and exhibits emergent capabilities for multi-modal motion stylization, enabling more nuanced motion synthesis. Source code and pre-trained models will be released upon acceptance. Project Page: https://stylemotif.github.io
arxiv情報
著者 | Ziyu Guo,Young Yoon Lee,Joseph Liu,Yizhak Ben-Shabat,Victor Zordan,Mubbasir Kapadia |
発行日 | 2025-03-27 17:59:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google