Visual Style Prompt Learning Using Diffusion Models for Blind Face Restoration

要約

ブラインドフェイス復元は、さまざまな未確認の劣化源から高品質の顔画像を復元することを目的としていますが、劣化した画像から取得できる情報が最小限であるため、重大な課題が生じます。
幾何学的事前分布と顔の特徴を活用した事前の知識ベースの方法は、顔の復元の進歩につながりましたが、多くの場合、微細な詳細を捉えるには至りません。
これに対処するために、拡散確率モデルを利用して、事前トレーニングされた生成モデルの潜在空間内に視覚的プロンプトを明示的に生成する、視覚的スタイル プロンプト学習フレームワークを導入します。
これらのプロンプトは、復元プロセスをガイドするように設計されています。
視覚的なプロンプトを最大限に活用し、有益で豊富なパターンの抽出を強化するために、スタイル調整された集計変換レイヤーを導入します。
広範な実験と応用により、高品質のブラインドフェイス修復を達成する上での私たちの方法の優位性が実証されています。
ソース コードは \href{https://github.com/LonglongaaaGo/VSPBFR}{https://github.com/LonglongaaaGo/VSPBFR} で入手できます。

要約(オリジナル)

Blind face restoration aims to recover high-quality facial images from various unidentified sources of degradation, posing significant challenges due to the minimal information retrievable from the degraded images. Prior knowledge-based methods, leveraging geometric priors and facial features, have led to advancements in face restoration but often fall short of capturing fine details. To address this, we introduce a visual style prompt learning framework that utilizes diffusion probabilistic models to explicitly generate visual prompts within the latent space of pre-trained generative models. These prompts are designed to guide the restoration process. To fully utilize the visual prompts and enhance the extraction of informative and rich patterns, we introduce a style-modulated aggregation transformation layer. Extensive experiments and applications demonstrate the superiority of our method in achieving high-quality blind face restoration. The source code is available at \href{https://github.com/LonglongaaaGo/VSPBFR}{https://github.com/LonglongaaaGo/VSPBFR}.

arxiv情報

著者 Wanglong Lu,Jikai Wang,Tao Wang,Kaihao Zhang,Xianta Jiang,Hanli Zhao
発行日 2024-12-30 16:05:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68U10, cs.CV, cs.MM, I.4.3 パーマリンク