要約
画質評価は画像処理の分野における基本的な問題であり、ほとんどの実際的なシナリオでは参照画像が不足しているため、最近では非参照画質評価 (NR-IQA) の注目が高まっています。
深層学習技術の発展に伴い、データベース情報の理解に基づいて画質を学習しようとする、多くの深層ニューラルネットワークベースのNR-IQA手法が開発されています。
現在、Transformer はさまざまなビジョンタスクにおいて目覚ましい進歩を遂げています。
Transformer の注意メカニズムの特性は、人間が知覚するアーティファクトの全体的な知覚的影響に適合するため、Transformer は画質評価タスクに非常に適しています。
この論文では、予測された客観的誤差マップと知覚品質トークンを使用した、Transformer ベースの NR-IQA モデルを提案します。
具体的には、まず、Transformer エンコーダとデコーダで構成される 1 つのモデルを事前トレーニングすることによって、予測誤差マップを生成します。このモデルでは、歪んだ画像と参照画像の間の客観的な差分が監視として使用されます。
次に、事前トレーニングされたモデルのパラメーターをフリーズし、ビジョン Transformer を使用して別のブランチを設計し、予測誤差マップとの特徴融合のための知覚品質トークンを抽出します。
最後に、融合された特徴が最終的な画質スコアに回帰されます。
広範な実験により、私たちが提案した方法が本物の画像データベースと合成画像データベースの両方において現在の最先端の方法よりも優れていることが示されました。
さらに、知覚品質トークンによって抽出された注意マップも人間の視覚システムの特性に適合します。
要約(オリジナル)
Image quality assessment is a fundamental problem in the field of image processing, and due to the lack of reference images in most practical scenarios, no-reference image quality assessment (NR-IQA), has gained increasing attention recently. With the development of deep learning technology, many deep neural network-based NR-IQA methods have been developed, which try to learn the image quality based on the understanding of database information. Currently, Transformer has achieved remarkable progress in various vision tasks. Since the characteristics of the attention mechanism in Transformer fit the global perceptual impact of artifacts perceived by a human, Transformer is thus well suited for image quality assessment tasks. In this paper, we propose a Transformer based NR-IQA model using a predicted objective error map and perceptual quality token. Specifically, we firstly generate the predicted error map by pre-training one model consisting of a Transformer encoder and decoder, in which the objective difference between the distorted and the reference images is used as supervision. Then, we freeze the parameters of the pre-trained model and design another branch using the vision Transformer to extract the perceptual quality token for feature fusion with the predicted error map. Finally, the fused features are regressed to the final image quality score. Extensive experiments have shown that our proposed method outperforms the current state-of-the-art in both authentic and synthetic image databases. Moreover, the attentional map extracted by the perceptual quality token also does conform to the characteristics of the human visual system.
arxiv情報
著者 | Jinsong Shi,Pan Gao,Aljosa Smolic |
発行日 | 2023-05-16 11:17:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google