要約
最近、オーディオ主導のトーキングフェイスビデオ生成が大きな注目を集めています。
しかし、業界で強い需要がある、継続的に制御可能な表情を備えたこれらのトーキングフェイスビデオの感情編集の問題に取り組んでいる研究はほとんどありません。
課題は、音声関連の表現と感情関連の表現が高度に結合していることが多いことです。
一方、従来の画像から画像への変換方法は、表情とポーズなどの他の属性が結合しているため、このアプリケーションではうまく機能しません。つまり、各フレーム内のキャラクターの表情を変換すると、バイアスにより頭のポーズも同時に変化する可能性があります。
トレーニングデータの分布。
本稿では、ユーザが編集後の映像内で目的とする感情を連続的に制御できる、話し顔映像に対する高品質な表情編集手法を提案する。
モーション情報編集の特別なケースとして、このタスクに新しい視点を提示します。このタスクでは、3DMM を使用して主要な顔の動きをキャプチャし、StyleGAN によってモデル化された関連テクスチャ マップを使用して外観の詳細をキャプチャします。
どちらの表現 (3DMM とテクスチャ マップ) にも感情情報が含まれており、ニューラル ネットワークによって継続的に変更でき、係数/潜在空間での平均化によって簡単に平滑化できるため、私たちの方法はシンプルでありながら効果的です。
また、口の同期と編集された表現の誇張の程度との間のトレードオフを制御するために、口の形状の保存損失も導入します。
広範な実験とユーザー調査により、私たちの方法がさまざまな評価基準にわたって最先端のパフォーマンスを達成することが示されています。
要約(オリジナル)
Recently audio-driven talking face video generation has attracted considerable attention. However, very few researches address the issue of emotional editing of these talking face videos with continuously controllable expressions, which is a strong demand in the industry. The challenge is that speech-related expressions and emotion-related expressions are often highly coupled. Meanwhile, traditional image-to-image translation methods cannot work well in our application due to the coupling of expressions with other attributes such as poses, i.e., translating the expression of the character in each frame may simultaneously change the head pose due to the bias of the training data distribution. In this paper, we propose a high-quality facial expression editing method for talking face videos, allowing the user to control the target emotion in the edited video continuously. We present a new perspective for this task as a special case of motion information editing, where we use a 3DMM to capture major facial movements and an associated texture map modeled by a StyleGAN to capture appearance details. Both representations (3DMM and texture map) contain emotional information and can be continuously modified by neural networks and easily smoothed by averaging in coefficient/latent spaces, making our method simple yet effective. We also introduce a mouth shape preservation loss to control the trade-off between lip synchronization and the degree of exaggeration of the edited expression. Extensive experiments and a user study show that our method achieves state-of-the-art performance across various evaluation criteria.
arxiv情報
著者 | Zhiyao Sun,Yu-Hui Wen,Tian Lv,Yanan Sun,Ziyang Zhang,Yaoyuan Wang,Yong-Jin Liu |
発行日 | 2023-11-28 15:31:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google