DiffBFR: Bootstrapping Diffusion Model Towards Blind Face Restoration

要約

チャレンジ中はブラインドフェイスレストレーション(BFR)が重要です。
以前の研究では、品質と効率のバランスを考慮して、このタスクに取り組むために GAN ベースのフレームワークを活用することが好まれていました。
ただし、これらの方法は安定性が低く、ロングテール配布への適応性に問題があり、ソースの同一性を保持し、詳細を復元することを同時に行うことができません。
訓練崩壊の回避とロングテール分布の生成という点で GAN よりも BFR が優れていることを考慮して、上記の問題に取り組むために DiffBFR に拡散確率モデル (DPM) を導入することを提案します。
DiffBFR は 2 段階の設計を利用しており、最初に低品質の画像から ID 情報を復元し、次に実際の顔の分布に従ってテクスチャの詳細を強化します。
この設計は 2 つの主要なコンポーネントで実装されています。 1) 結果内の顔の詳細を保存するための ID 復元モジュール (IRM)。
逆プロセス中の条件としてLQ画像を使用して純粋なガウスランダム分布からノイズを除去する代わりに、部分ノイズを追加したLQ画像から開始する新しい切り捨てサンプリング方法を提案します。
この変更により DPM の証拠の下限が縮小され、より元の詳細が復元されることが理論的に証明されています。
理論的な証明により、異なる入力サイズを持つ 2 つのカスケード条件付き DPM が導入され、このサンプリング効果が強化され、直接生成された高解像度画像のトレーニングの困難さが軽減されます。
2) 画像のテクスチャを磨き上げるためのテクスチャ強化モジュール (TEM)。
ここでは、修復物をさらに現実的に見せるために、無条件 DPM、LQ フリー モデルが導入されています。
私たちは、純粋な HQ 画像でトレーニングされたこの無条件 DPM が、ピクセル レベルの空間で IRM から出力される推論画像の正しい分布を正当化することに貢献することを理論的に証明しました。
分数タイムステップによる切り捨てられたサンプリングを利用して、アイデンティティ情報を維持しながらピクセルレベルのテクスチャを磨きます。

要約(オリジナル)

Blind face restoration (BFR) is important while challenging. Prior works prefer to exploit GAN-based frameworks to tackle this task due to the balance of quality and efficiency. However, these methods suffer from poor stability and adaptability to long-tail distribution, failing to simultaneously retain source identity and restore detail. We propose DiffBFR to introduce Diffusion Probabilistic Model (DPM) for BFR to tackle the above problem, given its superiority over GAN in aspects of avoiding training collapse and generating long-tail distribution. DiffBFR utilizes a two-step design, that first restores identity information from low-quality images and then enhances texture details according to the distribution of real faces. This design is implemented with two key components: 1) Identity Restoration Module (IRM) for preserving the face details in results. Instead of denoising from pure Gaussian random distribution with LQ images as the condition during the reverse process, we propose a novel truncated sampling method which starts from LQ images with part noise added. We theoretically prove that this change shrinks the evidence lower bound of DPM and then restores more original details. With theoretical proof, two cascade conditional DPMs with different input sizes are introduced to strengthen this sampling effect and reduce training difficulty in the high-resolution image generated directly. 2) Texture Enhancement Module (TEM) for polishing the texture of the image. Here an unconditional DPM, a LQ-free model, is introduced to further force the restorations to appear realistic. We theoretically proved that this unconditional DPM trained on pure HQ images contributes to justifying the correct distribution of inference images output from IRM in pixel-level space. Truncated sampling with fractional time step is utilized to polish pixel-level textures while preserving identity information.

arxiv情報

著者 Xinmin Qiu,Congying Han,Zicheng Zhang,Bonan Li,Tiande Guo,Xuecheng Nie
発行日 2023-08-08 15:50:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク