Beyond MOS: Subjective Image Quality Score Preprocessing Method Based on Perceptual Similarity

要約

画質評価は主観的な実験で被験者によって提供された生の意見スコアに依存することが多く、ノイズが多く信頼性が低い場合があります。
この問題に対処するために、ITU-R BT.500、ITU-T P.910、ITU-T P.913 などの後処理手順が標準化され、元のオピニオン スコアがクリーンアップされました。
これらの方法ではアノテーターベースの統計的事前分布が使用されますが、画像自体に関する広範な情報が考慮されていないため、アノテーションの少ないシナリオではパフォーマンスが制限されます。
一般的に、画質データセットには似たようなシーンや歪みが含まれていることが多く、被験者が採点する際に妥当なスコアを獲得するには画像を比較することが避けられません。
そこで本論文では、画像間の知覚的類似性を利用して、注釈の少ないシナリオにおける主観的バイアスを軽減する主観的画質スコア前処理法知覚的類似性主観的前処理(PSP)を提案した。
具体的には、潜在意識参照スコアリングと呼ばれる、以前にスコア付けされた画像との知覚的類似性に基づく条件付き確率モデルとして主観的スコアリングをモデル化します。
参照画像は、画像の知覚奥行き特徴の正規化ベクトル内積ベースの最近傍検索によって取得される近傍辞書によって保存されます。
次に、前処理されたスコアは、類似性正則化 EMA と呼ばれる、潜在意識の参照スコアリングの指数移動平均 (EMA) によって更新されます。
複数のデータセット (LIVE、TID2013、CID2013) での実験では、この方法が主観的なスコアの偏りを効果的に除去できることが示されています。
さらに、実験では、前処理されたデータセットが下流の IQA タスクのパフォーマンスを非常に向上させることができることが証明されています。

要約(オリジナル)

Image quality assessment often relies on raw opinion scores provided by subjects in subjective experiments, which can be noisy and unreliable. To address this issue, postprocessing procedures such as ITU-R BT.500, ITU-T P.910, and ITU-T P.913 have been standardized to clean up the original opinion scores. These methods use annotator-based statistical priors, but they do not take into account extensive information about the image itself, which limits their performance in less annotated scenarios. Generally speaking, image quality datasets usually contain similar scenes or distortions, and it is inevitable for subjects to compare images to score a reasonable score when scoring. Therefore, In this paper, we proposed Subjective Image Quality Score Preprocessing Method perceptual similarity Subjective Preprocessing (PSP), which exploit the perceptual similarity between images to alleviate subjective bias in less annotated scenarios. Specifically, we model subjective scoring as a conditional probability model based on perceptual similarity with previously scored images, called subconscious reference scoring. The reference images are stored by a neighbor dictionary, which is obtained by a normalized vector dot-product based nearest neighbor search of the images’ perceptual depth features. Then the preprocessed score is updated by the exponential moving average (EMA) of the subconscious reference scoring, called similarity regularized EMA. Our experiments on multiple datasets (LIVE, TID2013, CID2013) show that this method can effectively remove the bias of the subjective scores. Additionally, Experiments prove that the Preprocesed dataset can improve the performance of downstream IQA tasks very well.

arxiv情報

著者 Lei Wang,Desen Yuan
発行日 2024-04-30 16:01:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク