Towards Real-World Blind Face Restoration with Generative Diffusion Prior

要約

ブラインドフェイスの復元はコンピュータビジョンにおける重要なタスクであり、その幅広い用途により大きな注目を集めています。
これまでの研究では、主に顔の事前分布を利用して顔画像を復元し、高品質の結果を実証してきました。
ただし、有限のデータから得られる事前知識が限られているため、忠実な顔の詳細を生成することは依然として困難な問題です。
この研究では、ブラインドフェイスの復元に事前トレーニング済みの安定拡散を活用する可能性を掘り下げます。
私たちは、低品質の顔画像から特徴を効果的に抽出するように思慮深く設計されており、事前学習済みの安定拡散の生成プリアを使用して現実的で忠実な顔の詳細を復元できる BFRffusion を提案します。
さらに、人種、性別、年齢などのバランスの取れた属性を備えた、PFHQ と呼ばれるプライバシーを保護する顔データセットを構築します。
このデータセットは、ブラインド顔復元ネットワークをトレーニングするための実行可能な代替手段として機能し、通常は素顔のデータセットに関連するプライバシーとバイアスの問題に効果的に対処できます。
広範な一連の実験を通じて、私たちは、BFRffusion がブラインドフェイス復元用の合成および現実世界の公開テストデータセットの両方で最先端のパフォーマンスを達成し、PFHQ データセットがブラインドフェイス復元ネットワークのトレーニングに利用できるリソースであることを実証しました。
コード、事前トレーニング済みモデル、データセットは https://github.com/chenxx89/BFRffusion でリリースされています。

要約(オリジナル)

Blind face restoration is an important task in computer vision and has gained significant attention due to its wide-range applications. Previous works mainly exploit facial priors to restore face images and have demonstrated high-quality results. However, generating faithful facial details remains a challenging problem due to the limited prior knowledge obtained from finite data. In this work, we delve into the potential of leveraging the pretrained Stable Diffusion for blind face restoration. We propose BFRffusion which is thoughtfully designed to effectively extract features from low-quality face images and could restore realistic and faithful facial details with the generative prior of the pretrained Stable Diffusion. In addition, we build a privacy-preserving face dataset called PFHQ with balanced attributes like race, gender, and age. This dataset can serve as a viable alternative for training blind face restoration networks, effectively addressing privacy and bias concerns usually associated with the real face datasets. Through an extensive series of experiments, we demonstrate that our BFRffusion achieves state-of-the-art performance on both synthetic and real-world public testing datasets for blind face restoration and our PFHQ dataset is an available resource for training blind face restoration networks. The codes, pretrained models, and dataset are released at https://github.com/chenxx89/BFRffusion.

arxiv情報

著者 Xiaoxu Chen,Jingfan Tan,Tao Wang,Kaihao Zhang,Wenhan Luo,Xiaochun Cao
発行日 2024-03-18 12:23:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク