Diffusion-based Human Motion Style Transfer with Semantic Guidance

要約

3D ヒューマン モーション スタイルの転送は、コンピュータ グラフィックスおよびアニメーション処理における基本的な問題です。
既存の AdaIN ベースの手法では、クラスター化された潜在空間をトレーニングするために、バランスのとれたスタイル分布とコンテンツ/スタイル ラベルを備えたデータセットが必要です。
ただし、実際のシナリオでは、見たことのない単一のスタイル例に遭遇する可能性がありますが、AdaIN ベースのメソッドのスタイル クラスターを構成するのに十分な量ではありません。
したがって、この論文では、拡散モデルに基づいた少数ショット形式の転移学習のための新しい 2 段階フレームワークを提案します。
具体的には、最初の段階では、さまざまなコンテンツのモーション入力に対応できるように、拡散ベースのテキストからモーションへのモデルを生成事前学習として事前トレーニングします。
第 2 段階では、単一スタイルの例に基づいて、事前トレーニングされた拡散モデルを数回の方法で微調整し、スタイルを転送できるようにします。
重要なアイデアは、モーション スタイルを特別なモーション バリエーションとみなすことができるため、拡散の逆プロセスをモーション スタイルの変換プロセスとみなすことです。
スタイル転送の微調整中に、CLIP セマンティック空間でのスタイル転送を監視するために、スタイル例の再構築損失と調整された、シンプルかつ効果的なセマンティック ガイド付きスタイル転送ロスが導入されます。
定性的および定量的評価は、私たちの方法が最先端のパフォーマンスを達成でき、実用的な用途があることを示しています。

要約(オリジナル)

3D Human motion style transfer is a fundamental problem in computer graphic and animation processing. Existing AdaIN- based methods necessitate datasets with balanced style distribution and content/style labels to train the clustered latent space. However, we may encounter a single unseen style example in practical scenarios, but not in sufficient quantity to constitute a style cluster for AdaIN-based methods. Therefore, in this paper, we propose a novel two-stage framework for few-shot style transfer learning based on the diffusion model. Specifically, in the first stage, we pre-train a diffusion-based text-to-motion model as a generative prior so that it can cope with various content motion inputs. In the second stage, based on the single style example, we fine-tune the pre-trained diffusion model in a few-shot manner to make it capable of style transfer. The key idea is regarding the reverse process of diffusion as a motion-style translation process since the motion styles can be viewed as special motion variations. During the fine-tuning for style transfer, a simple yet effective semantic-guided style transfer loss coordinated with style example reconstruction loss is introduced to supervise the style transfer in CLIP semantic space. The qualitative and quantitative evaluations demonstrate that our method can achieve state-of-the-art performance and has practical applications.

arxiv情報

著者 Lei Hu,Zihao Zhang,Yongjing Ye,Yiwen Xu,Shihong Xia
発行日 2024-08-07 14:06:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68U05, cs.CV, cs.GR, I.3.0 パーマリンク