要約
対照学習は画質評価 (IQA) の分野を大幅に進歩させ、広く採用される手法として浮上しています。
対照学習の中核となるメカニズムには、品質が類似した (ポジティブ) サンプル間の距離を最小限に抑えながら、品質が似ていない (ネガティブな) サンプル間の距離を最大化することが含まれます。
成功にもかかわらず、現在の対照的学習方法は、局所多様体構造を保存することの重要性を無視することがよくあります。
この見落としにより、特徴空間内の具体例間に高度な類似性が生じ、効果的な区別と評価が妨げられる可能性があります。
この問題に対処するために、非参照画質評価 (NR-IQA) のローカル多様体学習と対照学習を統合する革新的なフレームワークを提案します。
私たちの方法は、与えられた画像から複数の作物をサンプリングし、視覚的に最も顕著な作物を特定することから始まります。
このクロップは、同じ画像からの他のクロップをポジティブ クラスとしてクラスタリングするために使用されます。一方、異なる画像からのクロップは、クラス間の距離を増やすためにネガティブ クラスとして扱われます。
ユニークなことに、私たちのアプローチでは、同じ画像からの顕著性のない作物もクラス内のネガティブ クラスとして考慮し、その特徴を維持します。
さらに、相互学習フレームワークを採用し、視覚的顕著領域を適応的に学習して識別するモデルの能力をさらに強化します。
私たちのアプローチは、7 つの標準データセットで最先端の手法と比較して優れたパフォーマンスを示し、PLCC 値 0.942 (TID2013 の 0.908 と比較) および 0.914 (LIVEC の 0.894 と比較) を達成しました。
要約(オリジナル)
Contrastive learning has considerably advanced the field of Image Quality Assessment (IQA), emerging as a widely adopted technique. The core mechanism of contrastive learning involves minimizing the distance between quality-similar (positive) examples while maximizing the distance between quality-dissimilar (negative) examples. Despite its successes, current contrastive learning methods often neglect the importance of preserving the local manifold structure. This oversight can result in a high degree of similarity among hard examples within the feature space, thereby impeding effective differentiation and assessment. To address this issue, we propose an innovative framework that integrates local manifold learning with contrastive learning for No-Reference Image Quality Assessment (NR-IQA). Our method begins by sampling multiple crops from a given image, identifying the most visually salient crop. This crop is then used to cluster other crops from the same image as the positive class, while crops from different images are treated as negative classes to increase inter-class distance. Uniquely, our approach also considers non-saliency crops from the same image as intra-class negative classes to preserve their distinctiveness. Additionally, we employ a mutual learning framework, which further enhances the model’s ability to adaptively learn and identify visual saliency regions. Our approach demonstrates a better performance compared to state-of-the-art methods in 7 standard datasets, achieving PLCC values of 0.942 (compared to 0.908 in TID2013) and 0.914 (compared to 0.894 in LIVEC).
arxiv情報
著者 | Timin Gao,Wensheng Pan,Yan Zhang,Sicheng Zhao,Shengchuan Zhang,Xiawu Zheng,Ke Li,Liujuan Cao,Rongrong Ji |
発行日 | 2024-06-27 15:14:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google