ToonTalker: Cross-Domain Face Reenactment

要約

この論文では、クロスドメインの顔の再現、つまり、漫画の画像と実際の人物のビデオを組み合わせたり、その逆をターゲットにしています。
最近、多くの作品は、実際のビデオを使用してポートレートを駆動する、つまりドメイン内での再現を目的とした、ワンショットの話す顔の生成に焦点を当てています。
これらの方法をそのままクロスドメイン アニメーションに適用すると、漫画と実際の顔の間のドメインのシフトにより、不正確な表情の転送、ぼかし効果、さらには明らかなアーティファクトが発生します。
クロスドメインの顔の再現を解決しようとする作品はわずかです。
最も関連する作業である AnimeCeleb では、3D キャラクターをアニメーション化してポーズ ベクトルと漫画画像のペアを含むデータセットを構築する必要があるため、ペアのデータが利用できない場合は適用できなくなります。
この論文では、ペアのデータを使用しないクロスドメイン再現のための新しい方法を提案します。
具体的には、異なるドメインからの動きを共通の潜在空間に整列させ、潜在コードの追加によって動きの転送が行われるトランスフォーマーベースのフレームワークを提案します。
2 つのドメイン固有のモーション エンコーダと 2 つの学習可能なモーション ベース メモリを使用して、ドメインのプロパティをキャプチャします。
ソースクエリトランスフォーマーと駆動トランスフォーマーは、ドメイン固有のモーションを正規空間に投影するために利用されます。
編集されたモーションは、トランスフォーマーを使用してソースのドメインに投影されます。
さらに、ペアのデータが提供されないため、設計された類似性制約を持つ 2 つのドメインからのデータを使用する新しいクロスドメイン トレーニング スキームを提案します。
さらに、ディズニー スタイルの漫画データセットも提供しています。
広範な評価により、競合手法に対する当社の手法の優位性が実証されています。

要約(オリジナル)

We target cross-domain face reenactment in this paper, i.e., driving a cartoon image with the video of a real person and vice versa. Recently, many works have focused on one-shot talking face generation to drive a portrait with a real video, i.e., within-domain reenactment. Straightforwardly applying those methods to cross-domain animation will cause inaccurate expression transfer, blur effects, and even apparent artifacts due to the domain shift between cartoon and real faces. Only a few works attempt to settle cross-domain face reenactment. The most related work AnimeCeleb requires constructing a dataset with pose vector and cartoon image pairs by animating 3D characters, which makes it inapplicable anymore if no paired data is available. In this paper, we propose a novel method for cross-domain reenactment without paired data. Specifically, we propose a transformer-based framework to align the motions from different domains into a common latent space where motion transfer is conducted via latent code addition. Two domain-specific motion encoders and two learnable motion base memories are used to capture domain properties. A source query transformer and a driving one are exploited to project domain-specific motion to the canonical space. The edited motion is projected back to the domain of the source with a transformer. Moreover, since no paired data is provided, we propose a novel cross-domain training scheme using data from two domains with the designed analogy constraint. Besides, we contribute a cartoon dataset in Disney style. Extensive evaluations demonstrate the superiority of our method over competing methods.

arxiv情報

著者 Yuan Gong,Yong Zhang,Xiaodong Cun,Fei Yin,Yanbo Fan,Xuan Wang,Baoyuan Wu,Yujiu Yang
発行日 2023-08-24 15:43:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク