Do image and video quality metrics model low-level human vision?

要約

SSIM、LPIPS、VMAFなどの画像およびビデオの品質メトリックは、評価されたコンテンツの知覚品質を予測することを目的としており、しばしば「知覚」であると主張されています。
しかし、人間の視覚認識を直接モデル化するメトリックはほとんどなく、ほとんどが手作りのフォーミュラまたはトレーニングデータセットに依存して知覚データとの調整を実現します。
このホワイトペーパーでは、低レベルの人間の視力のいくつかの側面をモデル化する能力を調べるフルリファレンス品質メトリックの一連のテストを提案します:コントラスト感度、コントラストマスキング、コントラストマッチング。
このテストは、新たに提案されたメトリックをさらに精査することを目的としています。
テストを使用して、33の既存の画像とビデオの品質メトリックを分析し、LPIPやMS-SSIMの能力やこのタスクにおけるVMAFのパフォーマンスの低下などの長所と短所を見つけます。
さらに、一般的なSSIMメトリックは高空間周波数の違いを強調しているが、そのマルチスケールの対応物であるMSSIMはこの欠点に対処していることがわかります。
このような発見は、既存の評価プロトコルを使用して簡単に作成することはできません。

要約(オリジナル)

Image and video quality metrics, such as SSIM, LPIPS, and VMAF, are aimed to predict the perceived quality of the evaluated content and are often claimed to be ‘perceptual’. Yet, few metrics directly model human visual perception, and most rely on hand-crafted formulas or training datasets to achieve alignment with perceptual data. In this paper, we propose a set of tests for full-reference quality metrics that examine their ability to model several aspects of low-level human vision: contrast sensitivity, contrast masking, and contrast matching. The tests are meant to provide additional scrutiny for newly proposed metrics. We use our tests to analyze 33 existing image and video quality metrics and find their strengths and weaknesses, such as the ability of LPIPS and MS-SSIM to predict contrast masking and poor performance of VMAF in this task. We further find that the popular SSIM metric overemphasizes differences in high spatial frequencies, but its multi-scale counterpart, MS-SSIM, addresses this shortcoming. Such findings cannot be easily made using existing evaluation protocols.

arxiv情報

著者 Dounia Hammou,Yancheng Cai,Pavan Madhusudanarao,Christos G. Bampis,Rafał K. Mantiuk
発行日 2025-03-20 15:57:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, eess.IV パーマリンク