FSRT: Facial Scene Representation Transformer for Face Reenactment from Factorized Appearance, Head-pose, and Facial Expression Features

要約

顔の再現のタスクは、運転ビデオからの頭の動きと顔の表情を、別の人の可能性があるソース画像の外観に転送することです (相互再現)。
既存の手法のほとんどは CNN ベースであり、ソース イメージから現在の駆動フレームまでのオプティカル フローを推定し、その後修復および調整されて出力アニメーションを生成します。
我々は、ソース画像のセット潜在表現を計算するためのトランスフォーマベースのエンコーダを提案します。
次に、トランスフォーマー ベースのデコーダーを使用してクエリ ピクセルの出力色を予測します。デコーダーはキーポイントと駆動フレームから抽出された表情ベクトルで条件付けされます。
ソース人物の潜在表現は、外見、頭の姿勢、顔の表情を因数分解する自己教師付きの方法で学習されます。
したがって、それらは相互再現に完全に適しています。
ほとんどの関連研究とは対照的に、私たちの方法は自然に複数のソース画像に拡張できるため、人物固有の顔のダイナミクスに適応できます。
また、過学習を防止し、学習された表現の一般化可能性をサポートするために必要なデータ拡張および正則化スキームも提案します。
私たちは、ランダム化されたユーザー調査でアプローチを評価しました。
結果は、モーション転送品質と時間的一貫性の点で、最先端技術と比較して優れたパフォーマンスを示しています。

要約(オリジナル)

The task of face reenactment is to transfer the head motion and facial expressions from a driving video to the appearance of a source image, which may be of a different person (cross-reenactment). Most existing methods are CNN-based and estimate optical flow from the source image to the current driving frame, which is then inpainted and refined to produce the output animation. We propose a transformer-based encoder for computing a set-latent representation of the source image(s). We then predict the output color of a query pixel using a transformer-based decoder, which is conditioned with keypoints and a facial expression vector extracted from the driving frame. Latent representations of the source person are learned in a self-supervised manner that factorize their appearance, head pose, and facial expressions. Thus, they are perfectly suited for cross-reenactment. In contrast to most related work, our method naturally extends to multiple source images and can thus adapt to person-specific facial dynamics. We also propose data augmentation and regularization schemes that are necessary to prevent overfitting and support generalizability of the learned representations. We evaluated our approach in a randomized user study. The results indicate superior performance compared to the state-of-the-art in terms of motion transfer quality and temporal consistency.

arxiv情報

著者 Andre Rochow,Max Schwarz,Sven Behnke
発行日 2024-04-15 12:37:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク