OSDFace: One-Step Diffusion Model for Face Restoration

要約

拡散モデルは、顔の修復における印象的なパフォーマンスを実証しています。
しかし、それらのマルチステップ推論プロセスは計算集中的なままであり、実際のシナリオでの適用性を制限しています。
さらに、既存の方法はしばしば、対象のアイデンティティと一致する、調和がよく、現実的で、一致する顔の画像を生成するのに苦労しています。
この作業では、顔の修復のための新しいワンステップ拡散モデルであるOSDFACEを提案します。
具体的には、以前の情報をよりよくキャプチャし、入力フェイスを理解するために、視覚表現胚(VRE)を提案します。
VREでは、低品質の面は視覚トークネザーによって処理され、その後、視覚プロンプトを生成するためにベクター定量化された辞書が埋め込まれます。
さらに、顔認識から得られた顔のアイデンティティの損失を組み込み、アイデンティティの一貫性をさらに確保します。
さらに、復元された顔とグラウンドトゥルースの間の分布の調整を促進するためのガイダンスモデルとして、生成敵対的ネットワーク(GAN)を採用します。
実験結果は、OSDFACEが視覚的品質と定量的メトリックの両方で現在の最先端(SOTA)メソッドを上回り、高い忠実さの自然な顔の画像を生成し、アイデンティティの一貫性が高いことを示しています。
コードとモデルはhttps://github.com/jkwang28/osdfaceでリリースされます。

要約(オリジナル)

Diffusion models have demonstrated impressive performance in face restoration. Yet, their multi-step inference process remains computationally intensive, limiting their applicability in real-world scenarios. Moreover, existing methods often struggle to generate face images that are harmonious, realistic, and consistent with the subject’s identity. In this work, we propose OSDFace, a novel one-step diffusion model for face restoration. Specifically, we propose a visual representation embedder (VRE) to better capture prior information and understand the input face. In VRE, low-quality faces are processed by a visual tokenizer and subsequently embedded with a vector-quantized dictionary to generate visual prompts. Additionally, we incorporate a facial identity loss derived from face recognition to further ensure identity consistency. We further employ a generative adversarial network (GAN) as a guidance model to encourage distribution alignment between the restored face and the ground truth. Experimental results demonstrate that OSDFace surpasses current state-of-the-art (SOTA) methods in both visual quality and quantitative metrics, generating high-fidelity, natural face images with high identity consistency. The code and model will be released at https://github.com/jkwang28/OSDFace.

arxiv情報

著者 Jingkai Wang,Jue Gong,Lin Zhang,Zheng Chen,Xing Liu,Hong Gu,Yutong Liu,Yulun Zhang,Xiaokang Yang
発行日 2025-04-23 14:42:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク