Adaptive Mixed-Scale Feature Fusion Network for Blind AI-Generated Image Quality Assessment

要約

テキストから画像への生成モデルおよび画像から画像への生成モデルの成熟度が高まるにつれて、AI 生成画像 (AGI) は広告、エンターテイメント、教育、ソーシャル メディアなどで大きな応用可能性を示しています。
生成モデルでは、関連する品質評価モデルを設計するためにほとんど努力が払われてきませんでした。
この論文では、AMFF-Net という AGI 用の新しいブラインド画質評価 (IQA) ネットワークを提案します。
AMFF-Net では、AGI の品質を「見た目の品質」「信頼性」「一貫性」の 3 つの側面から評価します。
具体的には、人間の視覚システムの特性に触発され、「視覚品質」と「信頼性」がローカルとグローバルの両方の側面によって特徴付けられるという観察に動機づけられて、AMFF-Net は画像を拡大および縮小し、拡大縮小された画像と元の画像を取得します。
マルチスケール特徴を取得するための入力として -size の画像を使用します。
その後、Adaptive Feature Fusion (AFF) ブロックを使用して、マルチスケール特徴と学習可能な重みを適応的に融合します。
さらに、画像とプロンプトの間の相関関係を考慮して、AMFF-Net はテキスト エンコーダーと画像エンコーダーからの意味特徴を比較して、テキストと画像の位置合わせを評価します。
私たちは 3 つの AGI 品質評価データベースに対して広範な実験を実施しました。その実験結果は、AMFF-Net が 9 つの最先端のブラインド IQA 手法よりも優れたパフォーマンスを獲得していることを示しています。
アブレーション実験の結果は、提案されたマルチスケール入力戦略と AFF ブロックの有効性をさらに実証しています。

要約(オリジナル)

With the increasing maturity of the text-to-image and image-to-image generative models, AI-generated images (AGIs) have shown great application potential in advertisement, entertainment, education, social media, etc. Although remarkable advancements have been achieved in generative models, very few efforts have been paid to design relevant quality assessment models. In this paper, we propose a novel blind image quality assessment (IQA) network, named AMFF-Net, for AGIs. AMFF-Net evaluates AGI quality from three dimensions, i.e., ‘visual quality’, ‘authenticity’, and ‘consistency’. Specifically, inspired by the characteristics of the human visual system and motivated by the observation that ‘visual quality’ and ‘authenticity’ are characterized by both local and global aspects, AMFF-Net scales the image up and down and takes the scaled images and original-sized image as the inputs to obtain multi-scale features. After that, an Adaptive Feature Fusion (AFF) block is used to adaptively fuse the multi-scale features with learnable weights. In addition, considering the correlation between the image and prompt, AMFF-Net compares the semantic features from text encoder and image encoder to evaluate the text-to-image alignment. We carry out extensive experiments on three AGI quality assessment databases, and the experimental results show that our AMFF-Net obtains better performance than nine state-of-the-art blind IQA methods. The results of ablation experiments further demonstrate the effectiveness of the proposed multi-scale input strategy and AFF block.

arxiv情報

著者 Tianwei Zhou,Songbai Tan,Wei Zhou,Yu Luo,Yuan-Gen Wang,Guanghui Yue
発行日 2024-04-23 16:02:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク