ExpCLIP: Bridging Text and Facial Expressions via Semantic Alignment

要約

定型化された音声駆動のフェイシャル アニメーションの目的は、特定の感情表現をカプセル化したアニメーションを作成することです。
既存の方法は、事前に確立された感情ラベルや表情テンプレートに依存していることが多く、ユーザーの意図を正確に伝えるために必要な柔軟性が制限される可能性があります。
本研究では、感情の促しとして自然言語を活用することで、任意のスタイルの制御を可能にする手法を紹介します。
この手法には、柔軟性と使いやすさの両方の点で利点があります。
この目的を実現するために、最初に、各表情がいくつかのプロンプトのような説明とペアになっている Text-Expression Alignment Dataset (TEAD) を構築します。
データセットの構築により、手動によるアノテーションの大幅なコストが削減されます。
これに続いて、TEAD を利用して ExpCLIP と呼ばれる CLIP ベースのモデルをトレーニングします。このモデルは、テキストと表情を意味的に調整されたスタイル埋め込みにエンコードします。
その後、埋め込みは顔アニメーション ジェネレーターに統合され、表現力豊かで制御可能な顔アニメーションが生成されます。
既存の音声駆動の顔アニメーション トレーニング データでは顔の感情の多様性が限られていることを考慮して、効果的な Expression Prompt Augmentation (EPA) メカニズムをさらに導入して、アニメーション ジェネレーターが前例のない豊富なスタイル制御をサポートできるようにします。
包括的な実験により、私たちの方法が表現力豊かな顔のアニメーションの生成を実現し、目的のスタイルを効果的に伝える柔軟性が向上することが示されています。

要約(オリジナル)

The objective of stylized speech-driven facial animation is to create animations that encapsulate specific emotional expressions. Existing methods often depend on pre-established emotional labels or facial expression templates, which may limit the necessary flexibility for accurately conveying user intent. In this research, we introduce a technique that enables the control of arbitrary styles by leveraging natural language as emotion prompts. This technique presents benefits in terms of both flexibility and user-friendliness. To realize this objective, we initially construct a Text-Expression Alignment Dataset (TEAD), wherein each facial expression is paired with several prompt-like descriptions.We propose an innovative automatic annotation method, supported by Large Language Models (LLMs), to expedite the dataset construction, thereby eliminating the substantial expense of manual annotation. Following this, we utilize TEAD to train a CLIP-based model, termed ExpCLIP, which encodes text and facial expressions into semantically aligned style embeddings. The embeddings are subsequently integrated into the facial animation generator to yield expressive and controllable facial animations. Given the limited diversity of facial emotions in existing speech-driven facial animation training data, we further introduce an effective Expression Prompt Augmentation (EPA) mechanism to enable the animation generator to support unprecedented richness in style control. Comprehensive experiments illustrate that our method accomplishes expressive facial animation generation and offers enhanced flexibility in effectively conveying the desired style.

arxiv情報

著者 Yicheng Zhong,Huawei Wei,Peiji Yang,Zhisheng Wang
発行日 2023-08-28 09:35:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク