CLIP-AGIQA: Boosting the Performance of AI-Generated Image Quality Assessment with CLIP

要約

生成技術の急速な発展に伴い、AI 生成画像 (AIGI) は日常生活のさまざまな側面に広く適用されています。
ただし、技術が未熟であるため、生成される画像の品質にはばらつきがあるため、生成される画像の品質評価技術を開発することが重要です。
生成された画像の品質を評価するためにいくつかのモデルが提案されていますが、増え続ける生成画像の多様なカテゴリに直面すると、それらは不十分です。
したがって、生成された画像の品質を評価するための、より高度で効果的なモデルの開発が緊急に必要とされています。
最近の研究では、画質評価における視覚言語モデル CLIP の大きな可能性が探求され、自然画像の品質を評価する際に優れたパフォーマンスを発揮することがわかりました。
ただし、生成された画像への適用については十分に調査されていません。
このペーパーでは、この考えに基づいて、生成された画像の品質を評価する際の CLIP の可能性をさらに探求します。
当社は、CLIP にカプセル化された豊富なビジュアルおよびテキストの知識を活用して、生成された画像の品質評価のための CLIP ベースの回帰モデルである CLIP-AGIQA を設計します。
特に、CLIP のテキスト知識を品質評価に最大限に活用するために、マルチカテゴリの学習可能なプロンプトを実装します。
AGIQA-3K や AIGCIQA2023 など、いくつかの生成された画像品質評価ベンチマークに関する広範な実験により、CLIP-AGIQA が既存の IQA モデルよりも優れたパフォーマンスを示し、生成された画像の品質評価において優れた結果を達成することが実証されました。

要約(オリジナル)

With the rapid development of generative technologies, AI-Generated Images (AIGIs) have been widely applied in various aspects of daily life. However, due to the immaturity of the technology, the quality of the generated images varies, so it is important to develop quality assessment techniques for the generated images. Although some models have been proposed to assess the quality of generated images, they are inadequate when faced with the ever-increasing and diverse categories of generated images. Consequently, the development of more advanced and effective models for evaluating the quality of generated images is urgently needed. Recent research has explored the significant potential of the visual language model CLIP in image quality assessment, finding that it performs well in evaluating the quality of natural images. However, its application to generated images has not been thoroughly investigated. In this paper, we build on this idea and further explore the potential of CLIP in evaluating the quality of generated images. We design CLIP-AGIQA, a CLIP-based regression model for quality assessment of generated images, leveraging rich visual and textual knowledge encapsulated in CLIP. Particularly, we implement multi-category learnable prompts to fully utilize the textual knowledge in CLIP for quality assessment. Extensive experiments on several generated image quality assessment benchmarks, including AGIQA-3K and AIGCIQA2023, demonstrate that CLIP-AGIQA outperforms existing IQA models, achieving excellent results in evaluating the quality of generated images.

arxiv情報

著者 Zhenchen Tang,Zichuan Wang,Bo Peng,Jing Dong
発行日 2024-08-27 14:30:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク