要約
最近、人間の知覚の観点から AI が生成した画像の品質を評価することを目的とした AIGC 画質評価 (AIGCIQA) が、コンピューター ビジョンの新しいトピックとして浮上しています。
ノイズ、ぼやけ、圧縮によって歪んだ元の画像から画像が派生する一般的な画質評価タスクとは異なり、AIGCIQA タスクでは通常、テキスト プロンプトを使用した生成モデルによって画像が生成されます。
AIGCIQA を推進するために、過去数年間に多大な努力が払われてきました。
しかし、既存の AIGCIQA 手法のほとんどは、生成された個々の画像から直接予測スコアを回帰し、これらの画像のテキスト プロンプトに含まれる情報を無視しています。
この見落としにより、これらの AIGCIQA メソッドのパフォーマンスが部分的に制限されます。
この問題に対処するために、テキストおよび画像エンコーダベースの回帰 (TIER) フレームワークを提案します。
具体的には、生成された画像とそれに対応するテキスト プロンプトを入力として処理し、テキスト エンコーダーと画像エンコーダーを利用して、これらのテキスト プロンプトと生成された画像からそれぞれ特徴を抽出します。
私たちが提案する TIER 手法の有効性を実証するために、AGIQA-1K、AGIQA-3K、AIGCIQA2023 など、いくつかの主流の AIGCIQA データベースで広範な実験を実施しました。
実験結果は、私たちが提案した TIER 手法が、ほとんどの場合、ベースラインと比較して優れたパフォーマンスを示していることを示しています。
要約(オリジナル)
Recently, AIGC image quality assessment (AIGCIQA), which aims to assess the quality of AI-generated images from a human perception perspective, has emerged as a new topic in computer vision. Unlike common image quality assessment tasks where images are derived from original ones distorted by noise, blur, and compression, in AIGCIQA tasks, images are typically generated by generative models using text prompts. Considerable efforts have been made in the past years to advance AIGCIQA. However, most existing AIGCIQA methods regress predicted scores directly from individual generated images, overlooking the information contained in the text prompts of these images. This oversight partially limits the performance of these AIGCIQA methods. To address this issue, we propose a text and image encoder-based regression (TIER) framework. Specifically, we process the generated images and their corresponding text prompts as inputs, utilizing a text encoder and an image encoder to extract features from these text prompts and generated images, respectively. To demonstrate the effectiveness of our proposed TIER method, we conduct extensive experiments on several mainstream AIGCIQA databases, including AGIQA-1K, AGIQA-3K, and AIGCIQA2023. The experimental results indicate that our proposed TIER method generally demonstrates superior performance compared to baseline in most cases.
arxiv情報
著者 | Jiquan Yuan,Xinyan Cao,Jinming Che,Qinyuan Wang,Sen Liang,Wei Ren,Jinlong Lin,Xixin Cao |
発行日 | 2024-01-08 12:35:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google