Global-Local Progressive Integration Network for Blind Image Quality Assessment

要約

ビジョン トランスフォーマー (ViT) は、長期的な依存関係をモデル化するためのコンピューター ビジョンに優れていますが、画質評価 (IQA) では 2 つの重要な課題に直面しています。それは、パッチの埋め込み中に微細なディテールが破棄されることと、帰納的バイアスが欠如しているために広範なトレーニング データが必要になることです。
この研究では、GlintIQA と呼ばれる IQA 用のグローバル-ローカル プログレッシブ INTegration ネットワークを提案し、3 つの主要なコンポーネントを通じてこれらの問題に対処します。 1) ViT ベースのグローバル特徴抽出器 (VGFE) と畳み込みニューラル ネットワーク (CNN) を組み合わせたハイブリッド特徴抽出
ベースのローカル特徴抽出器 (CLFE) は、グローバルな粗粒度の特徴とローカルの細かい粒度の特徴をそれぞれキャプチャします。
CNN を組み込むことで、ViT アーキテクチャに固有のパッチレベルの情報損失と誘導性バイアスの制約が軽減されます。
2) プログレッシブ機能統合は、埋め込みで多様なカーネル サイズを活用して、粗粒フィーチャと細粒フィーチャを空間的に位置合わせし、チャネルごとのアテンション モジュールと空間拡張モジュールをインタラクティブに積み重ねることによって、これらのフィーチャを段階的に集約して、効果的な品質を意識した表現を構築します。
3) 主観的な品質スコアに基づいて、多様なコンテンツを含む画像に品質ラベルを自動的に割り当てるコンテンツ類似性に基づくラベル付けアプローチが提案されています。
これにより、合成データセット内のラベル付きトレーニング データの不足に対処し、モデルの一般化が強化されます。
実験結果は、私たちのアプローチの有効性を示しており、相互認証データセット評価で平均 5.04% の SROCC ゲインが得られました。
さらに、私たちのモデルと提案されたデータセットで事前トレーニングされた対応モデルは、合成データセット全体の評価においてそれぞれ 5.40% と 13.23% の改善を示しました。
コードと提案されたデータセットは https://github.com/XiaoqiWang/GlintIQA でリリースされます。

要約(オリジナル)

Vision transformers (ViTs) excel in computer vision for modeling long-term dependencies, yet face two key challenges for image quality assessment (IQA): discarding fine details during patch embedding, and requiring extensive training data due to lack of inductive biases. In this study, we propose a Global-Local progressive INTegration network for IQA, called GlintIQA, to address these issues through three key components: 1) Hybrid feature extraction combines ViT-based global feature extractor (VGFE) and convolutional neural networks (CNNs)-based local feature extractor (CLFE) to capture global coarse-grained features and local fine-grained features, respectively. The incorporation of CNNs mitigates the patch-level information loss and inductive bias constraints inherent to ViT architectures. 2) Progressive feature integration leverages diverse kernel sizes in embedding to spatially align coarse- and fine-grained features, and progressively aggregate these features by interactively stacking channel-wise attention and spatial enhancement modules to build effective quality-aware representations. 3) Content similarity-based labeling approach is proposed that automatically assigns quality labels to images with diverse content based on subjective quality scores. This addresses the scarcity of labeled training data in synthetic datasets and bolsters model generalization. The experimental results demonstrate the efficacy of our approach, yielding 5.04% average SROCC gains on cross-authentic dataset evaluations. Moreover, our model and its counterpart pre-trained on the proposed dataset respectively exhibited 5.40% and 13.23% improvements on across-synthetic datasets evaluation. The codes and proposed dataset will be released at https://github.com/XiaoqiWang/GlintIQA.

arxiv情報

著者 Xiaoqi Wang,Yun Zhang
発行日 2024-08-07 16:34:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク