Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment

要約

最近、テキスト プロンプト チューニングは、Contrastive Language-Image Pre-training (CLIP) モデルを自然な画質評価に適応させる際に感動的なパフォーマンスを示しました。
ただし、このようなユニモーダルなプロンプト学習方法は、CLIP モデルの言語ブランチを調整するだけです。
AGI は自然画像とは視覚的に異なるため、これでは CLIP モデルを AI 生成画像品質評価 (AGIQA) に適応させるには十分ではありません。
さらに、AGI とユーザー入力テキスト プロンプトの間の一貫性(AGI の知覚品質と相関する)は、AGIQA の指針として調査されていません。
このレターでは、CLIP-AGIQA と呼ばれる、視覚言語の一貫性によって誘導される視覚障害のある AGIQA のためのマルチモーダル プロンプト学習を提案します。
具体的には、CLIP モデルの言語ブランチと視覚ブランチに、それぞれ学習可能なテキストと視覚的なプロンプトを導入します。
さらに、テキストと画像の位置合わせの品質予測タスクを設計します。学習された視覚言語の一貫性に関する知識は、上記のマルチモーダル プロンプトの最適化をガイドするために使用されます。
2 つの公開 AGIQA データセットでの実験結果は、提案された方法が最先端の品質評価モデルよりも優れていることを示しています。
ソース コードは https://github.com/JunFu1995/CLIP-AGIQA で入手できます。

要約(オリジナル)

Recently, textual prompt tuning has shown inspirational performance in adapting Contrastive Language-Image Pre-training (CLIP) models to natural image quality assessment. However, such uni-modal prompt learning method only tunes the language branch of CLIP models. This is not enough for adapting CLIP models to AI generated image quality assessment (AGIQA) since AGIs visually differ from natural images. In addition, the consistency between AGIs and user input text prompts, which correlates with the perceptual quality of AGIs, is not investigated to guide AGIQA. In this letter, we propose vision-language consistency guided multi-modal prompt learning for blind AGIQA, dubbed CLIP-AGIQA. Specifically, we introduce learnable textual and visual prompts in language and vision branches of CLIP models, respectively. Moreover, we design a text-to-image alignment quality prediction task, whose learned vision-language consistency knowledge is used to guide the optimization of the above multi-modal prompts. Experimental results on two public AGIQA datasets demonstrate that the proposed method outperforms state-of-the-art quality assessment models. The source code is available at https://github.com/JunFu1995/CLIP-AGIQA.

arxiv情報

著者 Jun Fu,Wei Zhou,Qiuping Jiang,Hantao Liu,Guangtao Zhai
発行日 2024-06-24 13:45:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク