Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models

要約

顔交換タスクの有望な進歩にも関わらず、現実的な交換画像は依然としてとらえどころがなく、特にポーズのバリエーション、色の違い、オクルージョンが大きいシナリオではアーチファクトによって損なわれることがよくあります。
これらの問題に対処するために、私たちは以下の核となる貢献を行うことにより、顔交換のための拡散モデルをより適切に利用する新しいアプローチを提案します。
(a) 顔交換タスクを自己教師型のトレーニング時の修復問題として再構成し、ターゲット画像とブレンドしながらアイデンティティの転送を強化することを提案します。
(b) トレーニング中にマルチステップのノイズ除去拡散暗黙モデル (DDIM) サンプリングを導入し、同一性と知覚的類似性を強化します。
(c) 第三に、CLIP 特徴のもつれ解除を導入して、ターゲット画像からポーズ、表情、照明情報を抽出し、忠実度を向上させます。
(d) さらに、修復トレーニング中にマスク シャッフル手法を導入します。これにより、頭部交換の追加機能を備えた、いわゆる交換用のユニバーサル モデルを作成できます。
従来の顔の交換を超えて、髪やアクセサリーさえも交換できます。
複数の既製モデルに依存した以前の研究とは異なり、私たちのアプローチは比較的統一されたアプローチであるため、他の既製モデルのエラーに対する耐性があります。
FFHQ および CelebA データセットに対する広範な実験により、私たちのアプローチの有効性と堅牢性が検証され、最小限の推論時間で忠実度が高く現実的な顔の交換が実証されました。
私たちのコードは https://github.com/Sanoojan/REFace で入手できます。

要約(オリジナル)

Despite promising progress in face swapping task, realistic swapped images remain elusive, often marred by artifacts, particularly in scenarios involving high pose variation, color differences, and occlusion. To address these issues, we propose a novel approach that better harnesses diffusion models for face-swapping by making following core contributions. (a) We propose to re-frame the face-swapping task as a self-supervised, train-time inpainting problem, enhancing the identity transfer while blending with the target image. (b) We introduce a multi-step Denoising Diffusion Implicit Model (DDIM) sampling during training, reinforcing identity and perceptual similarities. (c) Third, we introduce CLIP feature disentanglement to extract pose, expression, and lighting information from the target image, improving fidelity. (d) Further, we introduce a mask shuffling technique during inpainting training, which allows us to create a so-called universal model for swapping, with an additional feature of head swapping. Ours can swap hair and even accessories, beyond traditional face swapping. Unlike prior works reliant on multiple off-the-shelf models, ours is a relatively unified approach and so it is resilient to errors in other off-the-shelf models. Extensive experiments on FFHQ and CelebA datasets validate the efficacy and robustness of our approach, showcasing high-fidelity, realistic face-swapping with minimal inference time. Our code is available at https://github.com/Sanoojan/REFace.

arxiv情報

著者 Sanoojan Baliah,Qinliang Lin,Shengcai Liao,Xiaodan Liang,Muhammad Haris Khan
発行日 2024-09-11 13:43:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク