RestoreFormer++: Towards Real-World Blind Face Restoration from Undegraded Key-Value Pairs

要約

ブラインド顔復元は、劣化が不明な顔画像から高品質の顔画像を復元することを目的としています。
現在のアルゴリズムは主に事前分布を導入して、高品質の詳細を補完し、目覚ましい進歩を達成します。
ただし、これらのアルゴリズムのほとんどは、顔の豊富なコンテキスト情報と事前情報との相互作用を無視し、次善のパフォーマンスをもたらします。
さらに、合成シナリオと現実世界のシナリオの間のギャップにはあまり注意を払っておらず、現実世界のアプリケーションに対する堅牢性と一般化が制限されています。
この研究では、RestoreFormer++ を提案します。これは、一方ではコンテキスト情報と事前情報との相互作用をモデル化するための完全な空間的注意メカニズムを導入し、他方では、より現実的な劣化した顔画像の生成に役立つ拡張劣化モデルを探索します。
合成世界と現実世界のギャップを軽減するため。
現在のアルゴリズムと比較して、RestoreFormer++ にはいくつかの重要な利点があります。
まず、従来のビジュアル トランスフォーマーのようなマルチヘッド セルフ アテンション メカニズムを使用する代わりに、マルチスケール フィーチャ上でマルチヘッド クロス アテンションを導入し、破損した情報と高品質の事前分布の間の空間的相互作用を完全に調査します。
このようにして、RestoreFormer++ がより高い現実性と忠実度で顔画像を復元することが容易になります。
第二に、認識指向の辞書とは対照的に、より多様で高品質な顔の詳細が含まれ、復元ターゲットとよりよく一致する再構成指向の辞書を事前学習として学習します。
3 番目に、トレーニング データ合成のためのより現実的な劣化シナリオを含む拡張劣化モデルを導入します。これにより、RestoreFormer++ モデルの堅牢性と一般化が強化されます。
広範な実験により、RestoreFormer++ が合成データセットと現実世界のデータセットの両方で最先端のアルゴリズムよりも優れたパフォーマンスを発揮することが示されています。

要約(オリジナル)

Blind face restoration aims at recovering high-quality face images from those with unknown degradations. Current algorithms mainly introduce priors to complement high-quality details and achieve impressive progress. However, most of these algorithms ignore abundant contextual information in the face and its interplay with the priors, leading to sub-optimal performance. Moreover, they pay less attention to the gap between the synthetic and real-world scenarios, limiting the robustness and generalization to real-world applications. In this work, we propose RestoreFormer++, which on the one hand introduces fully-spatial attention mechanisms to model the contextual information and the interplay with the priors, and on the other hand, explores an extending degrading model to help generate more realistic degraded face images to alleviate the synthetic-to-real-world gap. Compared with current algorithms, RestoreFormer++ has several crucial benefits. First, instead of using a multi-head self-attention mechanism like the traditional visual transformer, we introduce multi-head cross-attention over multi-scale features to fully explore spatial interactions between corrupted information and high-quality priors. In this way, it can facilitate RestoreFormer++ to restore face images with higher realness and fidelity. Second, in contrast to the recognition-oriented dictionary, we learn a reconstruction-oriented dictionary as priors, which contains more diverse high-quality facial details and better accords with the restoration target. Third, we introduce an extending degrading model that contains more realistic degraded scenarios for training data synthesizing, and thus helps to enhance the robustness and generalization of our RestoreFormer++ model. Extensive experiments show that RestoreFormer++ outperforms state-of-the-art algorithms on both synthetic and real-world datasets.

arxiv情報

著者 Zhouxia Wang,Jiawei Zhang,Tianshui Chen,Wenping Wang,Ping Luo
発行日 2023-08-14 16:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク