要約
AI 生成画像 (AGI) には、本質的にマルチモーダルな性質があります。
自然なシナリオに基づいた従来の画像品質評価 (IQA) とは異なり、AGI の品質評価 (AGIQA) では、画像とそのテキスト プロンプトの対応が考慮されます。
これはグラウンド トゥルース スコアと結びついており、単峰性 IQA メソッドを混乱させます。
この問題を解決するために、対応する画像とプロンプトの組み込みによる AGIQA のマルチモーダル フレームワークである IP-IQA (画像とプロンプトによる AGI 品質評価) を導入します。
具体的には、AGI とそれに対応するテキスト プロンプトをより深く理解するために、Image2Prompt という名前の新しい増分事前トレーニング タスクを提案します。
効果的かつ効率的な画像プロンプト融合モジュールと、新しい特別な [QA] トークンも適用されます。
どちらもプラグアンドプレイであり、画像とそれに対応するプロンプトの連携に有益です。
実験では、当社の IP-IQA が AGIQA-1k および AGIQA-3k データセットで最先端の性能を達成していることが実証されています。
コードが利用可能になります。
要約(オリジナル)
AI-Generated Images (AGIs) have inherent multimodal nature. Unlike traditional image quality assessment (IQA) on natural scenarios, AGIs quality assessment (AGIQA) takes the correspondence of image and its textual prompt into consideration. This is coupled in the ground truth score, which confuses the unimodal IQA methods. To solve this problem, we introduce IP-IQA (AGIs Quality Assessment via Image and Prompt), a multimodal framework for AGIQA via corresponding image and prompt incorporation. Specifically, we propose a novel incremental pretraining task named Image2Prompt for better understanding of AGIs and their corresponding textual prompts. An effective and efficient image-prompt fusion module, along with a novel special [QA] token, are also applied. Both are plug-and-play and beneficial for the cooperation of image and its corresponding prompt. Experiments demonstrate that our IP-IQA achieves the state-of-the-art on AGIQA-1k and AGIQA-3k datasets. Code will be available.
arxiv情報
著者 | Bowen Qu,Haohui Li,Wei Gao |
発行日 | 2024-03-27 16:02:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google