要約
画質評価(IQA)は、一連のアプリケーションにおいて、高品質な画像を選択し、圧縮や強調の方法を導く上で重要な役割を果たす。ブラインドIQAは、参照画像なしで複雑な本物の歪みを含む実画像の品質を評価するもので、より大きな課題を提起している。既存の手法は、局所的なパッチを持つ一様分布のモデリングに限定されており、(広く採用されている事前訓練された分類ネットワークに起因する)低レベルと高レベルのビジョン間のギャップに悩まされている。本論文では、DP-IQA(diffusion priors-based IQA)と呼ばれる新しいIQA手法を提案する。DP-IQAは、画像の視覚的品質の知覚における意味的ギャップを埋めるために、その優れた力を持つ事前訓練された拡散モデルからの事前知識を活用する。具体的には、事前に学習された安定拡散をバックボーンとして用い、指定されたタイムステップでアップサンプリング処理中のノイズ除去U-Netから多値特徴量を抽出し、それらをデコードして画質スコアを推定する。下流タスクのドメインギャップを緩和し、変分オートエンコーダのボトルネックによる情報損失を修正するために、テキストと画像のアダプタが採用される。最後に、上記のモデルの知識をCNNベースの生徒モデルに抽出し、適用性を高めるためにパラメータを大幅に削減する。実験結果は、我々のDP-IQAが、より優れた汎化能力で、様々なin-the-wildデータセットにおいて、最先端の結果を達成したことを示しており、これは、グローバルモデリングと、画質評価のための拡散の階層的特徴量の手がかりの利用において、我々の手法が優れていることを示している。
要約(オリジナル)
Image quality assessment (IQA) plays a critical role in selecting high-quality images and guiding compression and enhancement methods in a series of applications. The blind IQA, which assesses the quality of in-the-wild images containing complex authentic distortions without reference images, poses greater challenges. Existing methods are limited to modeling a uniform distribution with local patches and are bothered by the gap between low and high-level visions (caused by widely adopted pre-trained classification networks). In this paper, we propose a novel IQA method called diffusion priors-based IQA (DP-IQA), which leverages the prior knowledge from the pre-trained diffusion model with its excellent powers to bridge semantic gaps in the perception of the visual quality of images. Specifically, we use pre-trained stable diffusion as the backbone, extract multi-level features from the denoising U-Net during the upsampling process at a specified timestep, and decode them to estimate the image quality score. The text and image adapters are adopted to mitigate the domain gap for downstream tasks and correct the information loss caused by the variational autoencoder bottleneck. Finally, we distill the knowledge in the above model into a CNN-based student model, significantly reducing the parameter to enhance applicability, with the student model performing similarly or even better than the teacher model surprisingly. Experimental results demonstrate that our DP-IQA achieves state-of-the-art results on various in-the-wild datasets with better generalization capability, which shows the superiority of our method in global modeling and utilizing the hierarchical feature clues of diffusion for evaluating image quality.
arxiv情報
著者 | Honghao Fu,Yufei Wang,Wenhan Yang,Bihan Wen |
発行日 | 2024-06-03 11:32:40+00:00 |
arxivサイト | arxiv_id(pdf) |