要約
以前のオーディオ駆動型トーキングヘッド生成 (THG) 方法は、駆動オーディオから頭のポーズを生成しますが、生成されたポーズや唇はオーディオとうまく一致しないか、編集できません。
この研究では、テキスト プロンプトと音声を条件としたフリー ヘッド ポーズを備えた口同期トーキング ヘッド ビデオを自由に生成できる THG システム \textbf{PoseTalk} を提案します。
私たちの方法の核となる洞察は、頭部のポーズを使用して視覚、言語、および音声信号を接続することです。
まず、音声とテキストのプロンプトの両方からポーズを生成することを提案します。音声は頭の動きの短期的なバリエーションとリズムの対応を提供し、テキスト プロンプトは頭の動きの長期的なセマンティクスを説明します。
この目標を達成するために、ポーズ潜在空間内のテキスト プロンプトと音声キューからモーション潜在を生成するポーズ潜在拡散 (PLD) モデルを考案しました。
次に、損失の不均衡の問題が観察されます。唇領域の損失は、ポーズと唇の両方によって引き起こされる総再構成損失の 4\% 未満に寄与しており、最適化は唇の形状よりも頭の動きに偏っています。
この問題に対処するために、我々は、2 つのカスケード ネットワーク、つまり CoarseNet と RefineNet を使用して自然なトーキング ビデオを合成するための洗練ベースの学習戦略を提案します。
CoarseNet は、粗い動きを推定して新しいポーズのアニメーション画像を生成し、RefineNet は、唇の動きを低解像度から高解像度まで段階的に推定することで、より細かい唇の動きを学習することに重点を置き、口唇同期のパフォーマンスを向上させます。
実験では、当社のポーズ予測戦略が、テキストのみや音声のみと比較して、より優れたポーズの多様性とリアルさを実現していることを実証しており、当社のビデオ ジェネレーター モデルは、自然な頭の動きを伴うトーキング ビデオの合成において、最先端の手法を上回っています。
プロジェクト: https://junleen.github.io/projects/posetalk。
要約(オリジナル)
While previous audio-driven talking head generation (THG) methods generate head poses from driving audio, the generated poses or lips cannot match the audio well or are not editable. In this study, we propose \textbf{PoseTalk}, a THG system that can freely generate lip-synchronized talking head videos with free head poses conditioned on text prompts and audio. The core insight of our method is using head pose to connect visual, linguistic, and audio signals. First, we propose to generate poses from both audio and text prompts, where the audio offers short-term variations and rhythm correspondence of the head movements and the text prompts describe the long-term semantics of head motions. To achieve this goal, we devise a Pose Latent Diffusion (PLD) model to generate motion latent from text prompts and audio cues in a pose latent space. Second, we observe a loss-imbalance problem: the loss for the lip region contributes less than 4\% of the total reconstruction loss caused by both pose and lip, making optimization lean towards head movements rather than lip shapes. To address this issue, we propose a refinement-based learning strategy to synthesize natural talking videos using two cascaded networks, i.e., CoarseNet, and RefineNet. The CoarseNet estimates coarse motions to produce animated images in novel poses and the RefineNet focuses on learning finer lip motions by progressively estimating lip motions from low-to-high resolutions, yielding improved lip-synchronization performance. Experiments demonstrate our pose prediction strategy achieves better pose diversity and realness compared to text-only or audio-only, and our video generator model outperforms state-of-the-art methods in synthesizing talking videos with natural head motions. Project: https://junleen.github.io/projects/posetalk.
arxiv情報
著者 | Jun Ling,Yiwen Wang,Han Xue,Rong Xie,Li Song |
発行日 | 2024-09-04 12:30:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google