要約
ディープ ネットワークは画質評価 (IQA) で有望なパフォーマンスを示していますが、ディープ モデルがどのように機能するかを調査した研究はほとんどありません。
この作業では、IQA 用の位置マスク トランスフォーマーが最初に開発されました。これに基づいて、画像の半分が画質にわずかに寄与する可能性があり、残りの半分は重要であることがわかります。
このような観察は、いくつかの CNN ベースの IQA モデルでは、画像領域の半分が画質を支配する可能性があるという一般化されています。
この観察に動機付けられて、3 つの意味尺度 (顕著性、頻度、オブジェクト性) が導出され、IQA における画像領域の重要度と高い一致を示します。
要約(オリジナル)
Deep networks show promising performance in image quality assessment (IQA), whereas few studies have investigated how a deep model works. In this work, a positional masked transformer for IQA is first developed, based on which we observe that half of an image might contribute trivially to image quality, whereas the other half is crucial. Such observation is generalized to that half of the image regions can dominate image quality in several CNN-based IQA models. Motivated by this observation, three semantic measures (saliency, frequency, objectness) are then derived, showing high accordance with importance degree of image regions in IQA.
arxiv情報
著者 | Junyong You,Yuan Lin,Jari Korhonen |
発行日 | 2023-01-30 13:52:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google