InstructAvatar: Text-Guided Emotion and Motion Control for Avatar Generation

要約

最近のトーキングアバター生成モデルは、音声とのリアルで正確なリップシンクの実現においては進歩を遂げていますが、アバターの詳細な表情や感情を制御して伝えるには不十分なことが多く、生成されるビデオの鮮明さや制御性が低下します。
この論文では、感情表現豊かな 2D アバターを生成するための新しいテキストガイドによるアプローチを提案し、きめ細かい制御、対話性の向上、結果として得られるビデオの汎用性を提供します。
InstructAvatar という名前の私たちのフレームワークは、自然言語インターフェイスを活用して、アバターの顔の動きだけでなく感情も制御します。
技術的には、音声とテキストの指示を同時に伴うアバターを予測する新しい 2 ブランチ拡散ベースのジェネレーターを備えた、指示とビデオのペアのトレーニング データセットを構築するための自動アノテーション パイプラインを設計します。
実験結果は、InstructAvatar が両方の条件によく一致する結果を生成し、きめ細かい感情制御、リップシンクの品質、自然さの点で既存の方法よりも優れていることを示しています。
私たちのプロジェクトページは https://wangyuchi369.github.io/InstructAvatar/ です。

要約(オリジナル)

Recent talking avatar generation models have made strides in achieving realistic and accurate lip synchronization with the audio, but often fall short in controlling and conveying detailed expressions and emotions of the avatar, making the generated video less vivid and controllable. In this paper, we propose a novel text-guided approach for generating emotionally expressive 2D avatars, offering fine-grained control, improved interactivity, and generalizability to the resulting video. Our framework, named InstructAvatar, leverages a natural language interface to control the emotion as well as the facial motion of avatars. Technically, we design an automatic annotation pipeline to construct an instruction-video paired training dataset, equipped with a novel two-branch diffusion-based generator to predict avatars with audio and text instructions at the same time. Experimental results demonstrate that InstructAvatar produces results that align well with both conditions, and outperforms existing methods in fine-grained emotion control, lip-sync quality, and naturalness. Our project page is https://wangyuchi369.github.io/InstructAvatar/.

arxiv情報

著者 Yuchi Wang,Junliang Guo,Jianhong Bai,Runyi Yu,Tianyu He,Xu Tan,Xu Sun,Jiang Bian
発行日 2024-05-24 17:53:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク