Overcoming False Illusions in Real-World Face Restoration with Multi-Modal Guided Diffusion Model

要約

低品質の入力からの顔の画像修復の品質を向上させるために設計された、新しいマルチモーダルガイドの実世界の顔修復(MGFR)技術を紹介します。
属性テキストプロンプト、高品質の参照画像、およびID情報のブレンドを活用して、MGFRは、生成的顔の修復方法にしばしば関連する誤った顔の属性とアイデンティティの生成を軽減できます。
デュアルコントロールアダプターと2段階のトレーニング戦略を組み込むことにより、この方法は、ターゲット復元タスクにマルチモーダル以前の情報を効果的に利用します。
また、参照フェイストレーニング画像の必要性に対処するために、4800のアイデンティティにわたって21,000を超える高解像度のフェイシャル画像を含む、Reface-HQデータセットも提示します。
私たちのアプローチは、重度の劣化下で顔の詳細を回復する上で優れた視覚品質を達成し、制御された修復プロセスを可能にし、アイデンティティの保存と属性修正の精度を高めます。
トレーニングに否定的な品質サンプルと属性プロンプトを含めると、詳細で知覚的に正確な画像を生成するモデルの能力がさらに洗練されます。

要約(オリジナル)

We introduce a novel Multi-modal Guided Real-World Face Restoration (MGFR) technique designed to improve the quality of facial image restoration from low-quality inputs. Leveraging a blend of attribute text prompts, high-quality reference images, and identity information, MGFR can mitigate the generation of false facial attributes and identities often associated with generative face restoration methods. By incorporating a dual-control adapter and a two-stage training strategy, our method effectively utilizes multi-modal prior information for targeted restoration tasks. We also present the Reface-HQ dataset, comprising over 21,000 high-resolution facial images across 4800 identities, to address the need for reference face training images. Our approach achieves superior visual quality in restoring facial details under severe degradation and allows for controlled restoration processes, enhancing the accuracy of identity preservation and attribute correction. Including negative quality samples and attribute prompts in the training further refines the model’s ability to generate detailed and perceptually accurate images.

arxiv情報

著者 Keda Tao,Jinjin Gu,Yulun Zhang,Xiucheng Wang,Nan Cheng
発行日 2025-04-21 11:47:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク