要約
ブラインドフェイスの復元は非常に不適切な問題であり、1)劣化した入力から目的の出力へのマッピングを改善する、または2)入力で失われた高品質の詳細を補完するための補助的なガイダンスが必要になることがよくあります。
この論文では、小さなプロキシスペースで事前に学習した個別のコードブックが、コード予測タスクとしてブラインドフェイス復元をキャストすることにより、復元マッピングの不確実性とあいまいさを大幅に軽減し、高品質の顔を生成するための豊富な視覚的原子を提供することを示します。
このパラダイムの下で、CodeFormerという名前のTransformerベースの予測ネットワークを提案し、コード予測のために低品質の顔のグローバルな構成とコンテキストをモデル化して、入力が厳しい場合でもターゲットの顔に近い自然な顔の発見を可能にします
劣化しました。
さまざまな劣化に対する適応性を強化するために、忠実度と品質の間の柔軟なトレードオフを可能にする制御可能な機能変換モジュールも提案します。
表現力豊かなコードブックの事前およびグローバルモデリングのおかげで、CodeFormerは、品質と忠実度の両方で最先端の技術を上回り、劣化に対する優れた堅牢性を示しています。
合成および実世界のデータセットに関する広範な実験結果は、私たちの方法の有効性を検証します。
要約(オリジナル)
Blind face restoration is a highly ill-posed problem that often requires auxiliary guidance to 1) improve the mapping from degraded inputs to desired outputs, or 2) complement high-quality details lost in the inputs. In this paper, we demonstrate that a learned discrete codebook prior in a small proxy space largely reduces the uncertainty and ambiguity of restoration mapping by casting blind face restoration as a code prediction task, while providing rich visual atoms for generating high-quality faces. Under this paradigm, we propose a Transformer-based prediction network, named CodeFormer, to model global composition and context of the low-quality faces for code prediction, enabling the discovery of natural faces that closely approximate the target faces even when the inputs are severely degraded. To enhance the adaptiveness for different degradation, we also propose a controllable feature transformation module that allows a flexible trade-off between fidelity and quality. Thanks to the expressive codebook prior and global modeling, CodeFormer outperforms state of the arts in both quality and fidelity, showing superior robustness to degradation. Extensive experimental results on synthetic and real-world datasets verify the effectiveness of our method.
arxiv情報
著者 | Shangchen Zhou,Kelvin C. K. Chan,Chongyi Li,Chen Change Loy |
発行日 | 2022-06-22 17:58:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google