HF-Diff: High-Frequency Perceptual Loss and Distribution Matching for One-Step Diffusion-Based Image Super-Resolution

要約

最近の拡散ベースのシングルステップ超解像手法は、SinSR と比較して優れたパフォーマンスを実現しますが、計算が複雑です。
SinSR のパフォーマンスを向上させるために、ダウングレードされた画像には詳細な情報が欠けているため、超解像 (SR) 中に高周波の詳細特徴を維持することを検討します。
この目的のために、ImageNet データセットで事前トレーニングされた可逆ニューラル ネットワーク (INN) を利用して、高周波の知覚損失を導入します。
事前トレーニングされた INN のさまざまな特徴マップにより、画像のさまざまな高周波側面が生成されます。
トレーニング フェーズでは、推論中の SR 画質を向上させる超解像画像とグラウンド トゥルース (GT) 画像の高周波特徴を保持するように強制します。
さらに、事前学習済み DINO-v2 埋め込み空間における GT イメージと SR イメージの間の Jenson-Shannon 発散も利用して、それらの分布を一致させます。
シングルステップ $\textbf{diff}usion-based$ SR ($\textbf{HF-Diff) に $\textbf{h}igh$- $\textbf{f}requency$ を保持する損失と分布一致制約を導入することで、
}$)、ベンチマーク RealSR、RealSet65、DIV2K-Val、および ImageNet データセットで最先端の CLIPIQA スコアを達成しました。
さらに、いくつかのデータセットの実験結果は、高周波知覚損失が LPIPS および VGG ベースの知覚損失よりも優れた SR 画質をもたらすことを示しています。
コードは https://github.com/shoaib-sami/HF-Diff で公開されます。

要約(オリジナル)

Although recent diffusion-based single-step super-resolution methods achieve better performance as compared to SinSR, they are computationally complex. To improve the performance of SinSR, we investigate preserving the high-frequency detail features during super-resolution (SR) because the downgraded images lack detailed information. For this purpose, we introduce a high-frequency perceptual loss by utilizing an invertible neural network (INN) pretrained on the ImageNet dataset. Different feature maps of pretrained INN produce different high-frequency aspects of an image. During the training phase, we impose to preserve the high-frequency features of super-resolved and ground truth (GT) images that improve the SR image quality during inference. Furthermore, we also utilize the Jenson-Shannon divergence between GT and SR images in the pretrained DINO-v2 embedding space to match their distribution. By introducing the $\textbf{h}igh$- $\textbf{f}requency$ preserving loss and distribution matching constraint in the single-step $\textbf{diff}usion-based$ SR ($\textbf{HF-Diff}$), we achieve a state-of-the-art CLIPIQA score in the benchmark RealSR, RealSet65, DIV2K-Val, and ImageNet datasets. Furthermore, the experimental results in several datasets demonstrate that our high-frequency perceptual loss yields better SR image quality than LPIPS and VGG-based perceptual losses. Our code will be released at https://github.com/shoaib-sami/HF-Diff.

arxiv情報

著者 Shoaib Meraj Sami,Md Mahedi Hasan,Jeremy Dawson,Nasser Nasrabadi
発行日 2024-11-20 18:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク