要約
画質の自動認識は、毎日何十億ものインターネット ユーザーやソーシャル メディア ユーザーに影響を与える困難な問題です。
この分野の研究を進めるために、我々はビジョントランスフォーマー(ViT)モデルに基づいたCross-IQAと呼ばれる非参照画質評価(NR-IQA)方法を提案します。
提案された Cross-IQA 手法は、ラベルなしの画像データから画質の特徴を学習できます。
ViTブロックに基づいた画質情報を教師なしで抽出するための合成画像再構成のプレテキストタスクを構築します。
Cross-IQA の事前トレーニングされたエンコーダーは、スコア予測の線形回帰モデルを微調整するために使用されます。
実験結果は、Cross-IQA が、従来のフルリファレンス IQA や NR-IQA と比較して、画像の低周波劣化情報 (色の変化、ぼやけなど) を評価する際に最先端のパフォーマンスを達成できることを示しています。
同じデータセットの下にあります。
要約(オリジナル)
Automatic perception of image quality is a challenging problem that impacts billions of Internet and social media users daily. To advance research in this field, we propose a no-reference image quality assessment (NR-IQA) method termed Cross-IQA based on vision transformer(ViT) model. The proposed Cross-IQA method can learn image quality features from unlabeled image data. We construct the pretext task of synthesized image reconstruction to unsupervised extract the image quality information based ViT block. The pretrained encoder of Cross-IQA is used to fine-tune a linear regression model for score prediction. Experimental results show that Cross-IQA can achieve state-of-the-art performance in assessing the low-frequency degradation information (e.g., color change, blurring, etc.) of images compared with the classical full-reference IQA and NR-IQA under the same datasets.
arxiv情報
著者 | Zhen Zhang |
発行日 | 2024-05-07 13:35:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google