要約
この論文では、AI が生成した画像の写実的な画質を人間の視覚認識と高度に一致して評価するように設計された画像指標である Global-Local Image Perceptual Score (GLIPS) を紹介します。
FID や KID スコアなどの従来の指標は人間の評価と厳密には一致しません。
提案されたメトリクスには、局所的な類似性を評価するための高度なトランスフォーマーベースのアテンション メカニズムと、グローバルな分布の類似性を評価するための最大平均不一致 (MMD) が組み込まれています。
GLIPS のパフォーマンスを評価するために、フォトリアリスティックな画質に関する人体調査を実施しました。
さまざまな生成モデルにわたる包括的なテストにより、人間のスコアとの相関に関して、GLIPS が FID、SSIM、MS-SSIM などの既存の指標よりも一貫して優れていることが実証されました。
さらに、人間の評価基準に合わせてメトリクス スコアをより厳密に調整することで、メトリクス スコアの解釈可能性を高める洗練されたスケーリング手法である Interpolative Binning Scale (IBS) を導入します。
提案されたメトリックとスケーリングのアプローチは、AI 生成画像のより信頼性の高い評価を提供するだけでなく、画像生成テクノロジーの将来の機能強化への道筋も示唆します。
要約(オリジナル)
This paper introduces the Global-Local Image Perceptual Score (GLIPS), an image metric designed to assess the photorealistic image quality of AI-generated images with a high degree of alignment to human visual perception. Traditional metrics such as FID and KID scores do not align closely with human evaluations. The proposed metric incorporates advanced transformer-based attention mechanisms to assess local similarity and Maximum Mean Discrepancy (MMD) to evaluate global distributional similarity. To evaluate the performance of GLIPS, we conducted a human study on photorealistic image quality. Comprehensive tests across various generative models demonstrate that GLIPS consistently outperforms existing metrics like FID, SSIM, and MS-SSIM in terms of correlation with human scores. Additionally, we introduce the Interpolative Binning Scale (IBS), a refined scaling method that enhances the interpretability of metric scores by aligning them more closely with human evaluative standards. The proposed metric and scaling approach not only provides more reliable assessments of AI-generated images but also suggest pathways for future enhancements in image generation technologies.
arxiv情報
著者 | Memoona Aziz,Umair Rehman,Muhammad Umair Danish,Katarina Grolinger |
発行日 | 2024-05-15 15:19:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google