要約
既存のブラインド画質評価 (BIQA) 手法は、畳み込みニューラル ネットワーク (CNN) またはトランスフォーマーに基づく複雑なネットワークの設計に焦点を当てています。
さらに、一部の BIQA メソッドは、2 段階のトレーニング方法でモデルのパフォーマンスを向上させます。
大幅な進歩にもかかわらず、これらの方法ではモデルのパラメータ数が著しく増加するため、より多くのトレーニング時間と計算リソースが必要になります。
上記の問題に取り組むために、BIQA 用の軽量並列フレームワーク (LPF) を提案します。
まず、事前トレーニングされた特徴抽出ネットワークを使用して視覚的特徴を抽出します。
さらに、視覚的特徴を変換するためのシンプルかつ効果的な特徴埋め込みネットワーク (FEN) を構築し、顕著な歪み情報を含む潜在表現を生成することを目的としています。
潜在表現の堅牢性を向上させるために、サンプル レベルのカテゴリ予測タスクとバッチ レベルの品質比較タスクを含む 2 つの新しい自己教師ありサブタスクを提示します。
サンプルレベルのカテゴリ予測タスクは、モデルによる粗粒度の歪み認識を支援するために提供されます。
バッチレベルの品質比較タスクは、トレーニング データを強化し、潜在表現の堅牢性を向上させるために定式化されます。
最後に、潜在表現は歪みを考慮した品質回帰ネットワーク (DaQRN) に入力され、人間の視覚システム (HVS) をシミュレートして正確な品質スコアを生成します。
複数のベンチマーク データセットでの実験結果は、提案された方法が最先端のアプローチよりも優れたパフォーマンスを達成することを示しています。
さらに、広範な分析により、提案された方法は計算の複雑さが低く、収束速度が速いことが証明されています。
要約(オリジナル)
Existing blind image quality assessment (BIQA) methods focus on designing complicated networks based on convolutional neural networks (CNNs) or transformer. In addition, some BIQA methods enhance the performance of the model in a two-stage training manner. Despite the significant advancements, these methods remarkably raise the parameter count of the model, thus requiring more training time and computational resources. To tackle the above issues, we propose a lightweight parallel framework (LPF) for BIQA. First, we extract the visual features using a pre-trained feature extraction network. Furthermore, we construct a simple yet effective feature embedding network (FEN) to transform the visual features, aiming to generate the latent representations that contain salient distortion information. To improve the robustness of the latent representations, we present two novel self-supervised subtasks, including a sample-level category prediction task and a batch-level quality comparison task. The sample-level category prediction task is presented to help the model with coarse-grained distortion perception. The batch-level quality comparison task is formulated to enhance the training data and thus improve the robustness of the latent representations. Finally, the latent representations are fed into a distortion-aware quality regression network (DaQRN), which simulates the human vision system (HVS) and thus generates accurate quality scores. Experimental results on multiple benchmark datasets demonstrate that the proposed method achieves superior performance over state-of-the-art approaches. Moreover, extensive analyses prove that the proposed method has lower computational complexity and faster convergence speed.
arxiv情報
著者 | Qunyue Huang,Bin Fang |
発行日 | 2024-02-19 10:56:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google