要約
ダイナミックなポーズや表情を備えた様式化されたアバターのアニメーション化は、その幅広い用途から注目を集めています。
これまでの研究は、参照特性、ポーズ、表情条件に基づいてアニメーションを合成するための制御可能な生成モデルをトレーニングすることにより、大幅な進歩を遂げました。
ただし、ポーズや表現を制御するためにこれらの方法で使用されるメカニズムは、ターゲットのモーションから意図しない特徴を誤って導入することがよくあり、また、特に様式化されたアニメーションに適用した場合、表現関連の詳細の損失も引き起こします。
この論文では、様式化されたアバターをアニメーション化するための新しい調整モジュールを組み込んだ、AniFaceDiff と呼ばれる安定拡散に基づく新しい方法を提案します。
まず、ターゲットの動きに同一性の特徴が含まれないようにするために、顔の位置合わせによる洗練された空間調整アプローチを提案します。
次に、式関連情報の潜在的な損失に対処するために追加のクロスアテンション レイヤーを組み込んだ式アダプターを導入します。
私たちのアプローチは、入力画像の一貫性を維持しながら、ターゲットビデオのポーズと表情を効果的に保存します。
広範な実験により、私たちの方法が最先端の結果を達成し、優れた画質、参照特徴の保存、特に多様なスタイルにわたるドメイン外アニメーションの表現精度を示し、その多用途性と強力な一般化機能が強調されていることが実証されています。
この取り組みは、ポジティブなアプリケーション向けの仮想様式化アニメーションの品質を向上させることを目的としています。
仮想環境での責任ある使用を促進するために、当社は最先端の検出器を評価し、潜在的な改善領域を強調し、解決策を提案することで、生成コンテンツの検出の進歩に貢献します。
要約(オリジナル)
Animating stylized avatars with dynamic poses and expressions has attracted increasing attention for its broad range of applications. Previous research has made significant progress by training controllable generative models to synthesize animations based on reference characteristics, pose, and expression conditions. However, the mechanisms used in these methods to control pose and expression often inadvertently introduce unintended features from the target motion, while also causing a loss of expression-related details, particularly when applied to stylized animation. This paper proposes a new method based on Stable Diffusion, called AniFaceDiff, incorporating a new conditioning module for animating stylized avatars. First, we propose a refined spatial conditioning approach by Facial Alignment to prevent the inclusion of identity characteristics from the target motion. Then, we introduce an Expression Adapter that incorporates additional cross-attention layers to address the potential loss of expression-related information. Our approach effectively preserves pose and expression from the target video while maintaining input image consistency. Extensive experiments demonstrate that our method achieves state-of-the-art results, showcasing superior image quality, preservation of reference features, and expression accuracy, particularly for out-of-domain animation across diverse styles, highlighting its versatility and strong generalization capabilities. This work aims to enhance the quality of virtual stylized animation for positive applications. To promote responsible use in virtual environments, we contribute to the advancement of detection for generative content by evaluating state-of-the-art detectors, highlighting potential areas for improvement, and suggesting solutions.
arxiv情報
著者 | Ken Chen,Sachith Seneviratne,Wei Wang,Dongting Hu,Sanjay Saha,Md. Tarek Hasan,Sanka Rasnayaka,Tamasha Malepathirana,Mingming Gong,Saman Halgamuge |
発行日 | 2024-12-02 12:18:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google