SAM-IQA: Can Segment Anything Boost Image Quality Assessment?

要約

画質評価 (IQA) は、正確な予測を達成するために大規模なデータセットでのトレーニングを必要とする困難なタスクです。
ただし、IQA データが不足しているため、深層学習ベースの IQA 手法は通常、一般化能力を強化するための特徴抽出器として大規模なデータセットでトレーニングされた事前トレーニング済みネットワーク (ImageNet でトレーニングされた ResNet ネットワークなど) に依存します。
この論文では、大規模なデータセットでトレーニングされた最近提案されたセグメンテーション モデルである Segment Anything のエンコーダーを、高レベルの意味論的特徴抽出に利用します。
ほとんどの IQA 手法は空間領域の特徴の抽出に限定されていますが、周波数領域の特徴はノイズとブラーをより適切に表現することが示されています。
したがって、抽出された特徴にそれぞれフーリエ畳み込みと標準畳み込みを適用することで、空間領域と周波数領域の両方の特徴を活用します。
提案されたすべてのコンポーネントの有効性を実証するために広範な実験が行われ、その結果、私たちのアプローチが 4 つの代表的なデータセットにおいて定性的および定量的の両方で最先端 (SOTA) よりも優れていることが示されました。
私たちの実験では、Segment Anything の強力な特徴抽出機能が確認され、IQA タスクで空間領域と周波数領域の特徴を組み合わせる価値が強調されました。
コード: https://github.com/Hedlen/SAM-IQA

要約(オリジナル)

Image Quality Assessment (IQA) is a challenging task that requires training on massive datasets to achieve accurate predictions. However, due to the lack of IQA data, deep learning-based IQA methods typically rely on pre-trained networks trained on massive datasets as feature extractors to enhance their generalization ability, such as the ResNet network trained on ImageNet. In this paper, we utilize the encoder of Segment Anything, a recently proposed segmentation model trained on a massive dataset, for high-level semantic feature extraction. Most IQA methods are limited to extracting spatial-domain features, while frequency-domain features have been shown to better represent noise and blur. Therefore, we leverage both spatial-domain and frequency-domain features by applying Fourier and standard convolutions on the extracted features, respectively. Extensive experiments are conducted to demonstrate the effectiveness of all the proposed components, and results show that our approach outperforms the state-of-the-art (SOTA) in four representative datasets, both qualitatively and quantitatively. Our experiments confirm the powerful feature extraction capabilities of Segment Anything and highlight the value of combining spatial-domain and frequency-domain features in IQA tasks. Code: https://github.com/Hedlen/SAM-IQA

arxiv情報

著者 Xinpeng Li,Ting Jiang,Haoqiang Fan,Shuaicheng Liu
発行日 2023-07-10 10:07:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク