Invariance of deep image quality metrics to affine transformations

要約

ディープ アーキテクチャは、主観的な画質を予測するための現在の最先端技術です。
通常、これらのモデルは、デジタル メディアに現れる可能性のあるさまざまな歪みを含むデータベース内の人間の意見と相関する能力に応じて評価されます。
ただし、これらはアフィン変換を監視しており、自然条件で実際に起こっている画像の変化をよりよく表現できる可能性があります。
人間は、デジタル的な変化とは対照的に、これらの自然な変化に対して特に不変である可能性があります。
この研究では、アフィン変換、特に回転、平行移動、スケーリング、スペクトル照明の変化に対する不変性を評価することにより、最先端のディープ画質メトリクスを評価します。
ここで、メトリックの不変性とは、特定の距離の値がしきい値を下回る場合、その距離を無視する (ゼロと見なす) 必要があるという事実を指します。
これは、メトリクスの非表示しきい値と呼ばれるものです。
我々は、任意の知覚メトリックに対してそのような不可視しきい値を割り当てる方法論を提案します。
この方法論には、あらゆるメトリックに共通の距離空間への変換と、この共通空間における閾値の心理物理学的測定が含まれます。
そうすることで、分析された指標を実際の人間の閾値と直接比較できるようになります。
不可視のしきい値に基づくこの強力なテストでは、最先端の指標のどれも人間のような結果を示さないことがわかりました。
これは、一般的な歪みの可視性を予測するためだけにモデルを調整すると、不変性や不可視閾値などの人間の視覚の他の特性が無視される可能性があることを意味します。

要約(オリジナル)

Deep architectures are the current state-of-the-art in predicting subjective image quality. Usually, these models are evaluated according to their ability to correlate with human opinion in databases with a range of distortions that may appear in digital media. However, these oversee affine transformations which may represent better the changes in the images actually happening in natural conditions. Humans can be particularly invariant to these natural transformations, as opposed to the digital ones. In this work, we evaluate state-of-the-art deep image quality metrics by assessing their invariance to affine transformations, specifically: rotation, translation, scaling, and changes in spectral illumination. Here invariance of a metric refers to the fact that certain distances should be neglected (considered to be zero) if their values are below a threshold. This is what we call invisibility threshold of a metric. We propose a methodology to assign such invisibility thresholds for any perceptual metric. This methodology involves transformations to a distance space common to any metric, and psychophysical measurements of thresholds in this common space. By doing so, we allow the analyzed metrics to be directly comparable with actual human thresholds. We find that none of the state-of-the-art metrics shows human-like results under this strong test based on invisibility thresholds. This means that tuning the models exclusively to predict the visibility of generic distortions may disregard other properties of human vision as for instance invariances or invisibility thresholds.

arxiv情報

著者 Nuria Alabau-Bosque,Paula Daudén-Oliver,Jorge Vila-Tomás,Valero Laparra,Jesús Malo
発行日 2024-07-29 11:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク