Personalized Face Inpainting with Diffusion Models by Parallel Visual Attention

要約

顔の修復は、写真の復元、画像編集、仮想現実などのさまざまなアプリケーションで重要です。
顔生成モデルが大幅に進歩したにもかかわらず、修復プロセス中に個人の固有の顔のアイデンティティを確実に維持することは、依然としてとらえどころのない目標です。
MyStyle に代表される現在の最先端技術では、新しいアイデンティティごとに大量のリソースを必要とする微調整と相当数の画像が必要です。
さらに、既存の方法では、ひげや表情などのユーザー指定の意味属性に対応できないことがよくあります。
インペインティングの結果を改善し、推論中の計算の複雑さを軽減するために、この論文では、拡散モデルと組み合わせた Parallel Visual Attendance (PVA) の使用を提案します。
具体的には、ノイズ除去ネットワーク内の各クロス アテンション モジュールに並列アテンション マトリックスを挿入します。これは、アイデンティティ エンコーダーによって参照画像から抽出された特徴に注目します。
追加されたアテンション モジュールとアイデンティティ エンコーダを、アイデンティティを保持する顔の修復のために提案されたデータセットである CelebAHQ-IDI でトレーニングします。
実験では、MyStyle、Paint by Example、Custom Diffusion などのさまざまなベンチマークと比較して、PVA が顔の修復と言語ガイダンス タスクによる顔の修復の両方で比類のないアイデンティティの類似性を達成することを示しています。
私たちの調査結果は、PVA が効果的な言語制御性を提供しながら、良好な ID の保存を保証することを明らかにしています。
さらに、カスタム拡散とは対照的に、PVA では新しいアイデンティティごとに 40 の微調整ステップが必要なだけで、これは 20 倍を超える大幅な速度向上につながります。

要約(オリジナル)

Face inpainting is important in various applications, such as photo restoration, image editing, and virtual reality. Despite the significant advances in face generative models, ensuring that a person’s unique facial identity is maintained during the inpainting process is still an elusive goal. Current state-of-the-art techniques, exemplified by MyStyle, necessitate resource-intensive fine-tuning and a substantial number of images for each new identity. Furthermore, existing methods often fall short in accommodating user-specified semantic attributes, such as beard or expression. To improve inpainting results, and reduce the computational complexity during inference, this paper proposes the use of Parallel Visual Attention (PVA) in conjunction with diffusion models. Specifically, we insert parallel attention matrices to each cross-attention module in the denoising network, which attends to features extracted from reference images by an identity encoder. We train the added attention modules and identity encoder on CelebAHQ-IDI, a dataset proposed for identity-preserving face inpainting. Experiments demonstrate that PVA attains unparalleled identity resemblance in both face inpainting and face inpainting with language guidance tasks, in comparison to various benchmarks, including MyStyle, Paint by Example, and Custom Diffusion. Our findings reveal that PVA ensures good identity preservation while offering effective language-controllability. Additionally, in contrast to Custom Diffusion, PVA requires just 40 fine-tuning steps for each new identity, which translates to a significant speed increase of over 20 times.

arxiv情報

著者 Jianjin Xu,Saman Motamed,Praneetha Vaddamanu,Chen Henry Wu,Christian Haene,Jean-Charles Bazin,Fernando de la Torre
発行日 2023-12-06 15:39:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク