Invariance of deep image quality metrics to affine transformations

要約

ディープ アーキテクチャは、主観的な画質を予測するための現在の最先端技術です。
通常、これらのモデルは、デジタル メディアに現れる可能性のあるさまざまな歪みを含むデータベース内の人間の意見と相関する能力に応じて評価されます。
ただし、これらはアフィン変換を監視しており、自然条件で実際に起こっている画像の変化をよりよく表現できる可能性があります。
人間は、デジタル的な変化とは対照的に、これらの自然な変化に対して特に不変である可能性があります。
この研究では、アフィン変換、特に回転、平行移動、スケーリング、スペクトル照明の変化に対する不変性を評価することにより、最先端のディープ画質メトリクスを評価します。
私たちは、あらゆる知覚メトリックに不可視のしきい値を割り当てる方法論を提案します。
この方法論には、任意の測定基準によって測定された距離を、利用可能な主観的に評価されたデータベースに基づいた一般的な距離表現に変換することが含まれます。
その共通表現における絶対検出閾値を心理物理学的に測定し、それを各メトリックの各アフィン変換の物理単位で表現します。
そうすることで、分析された指標を実際の人間の閾値と直接比較できるようになります。
不可視のしきい値に基づくこの強力なテストでは、最先端の指標のいずれも人間のような結果を示さないことがわかりました。
これは、一般的な歪みの可視性を予測するためだけにモデルを調整すると、不変性や不可視閾値などの人間の視覚の他の特性が無視される可能性があることを意味します。

要約(オリジナル)

Deep architectures are the current state-of-the-art in predicting subjective image quality. Usually, these models are evaluated according to their ability to correlate with human opinion in databases with a range of distortions that may appear in digital media. However, these oversee affine transformations which may represent better the changes in the images actually happening in natural conditions. Humans can be particularly invariant to these natural transformations, as opposed to the digital ones. In this work, we evaluate state-of-the-art deep image quality metrics by assessing their invariance to affine transformations, specifically: rotation, translation, scaling, and changes in spectral illumination. We propose a methodology to assign invisibility thresholds for any perceptual metric. This methodology involves transforming the distance measured by an arbitrary metric to a common distance representation based on available subjectively rated databases. We psychophysically measure an absolute detection threshold in that common representation and express it in the physical units of each affine transform for each metric. By doing so, we allow the analyzed metrics to be directly comparable with actual human thresholds. We find that none of the state-of-the-art metrics shows human-like results under this strong test based on invisibility thresholds. This means that tuning the models exclusively to predict the visibility of generic distortions may disregard other properties of human vision as for instance invariances or invisibility thresholds.

arxiv情報

著者 Nuria Alabau-Bosque,Paula Daudén-Oliver,Jorge Vila-Tomás,Valero Laparra,Jesús Malo
発行日 2024-07-25 10:24:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク