要約
テキストから画像への生成とテキストによる画像操作は、画像生成タスクの分野でかなりの注目を集めています。
しかし、これらのタスクにおける主流の評価手法は、入力テキストのすべての情報が生成された画像に正確に反映されているかどうかを評価することは難しく、主に入力テキストと生成された画像の全体的な整合性を評価することに重点が置かれています。
この論文では、入力テキストと生成された画像の整合性を個々のオブジェクトごとに評価する新しい評価指標を提案します。
まず、入力されたテキストに従って、chatGPT を利用して、生成された画像に対する質問を生成します。
その後、Visual Question Answering (VQA) を使用して、生成された画像と入力テキストの関連性を測定します。これにより、既存の手法と比較してより詳細な位置合わせの評価が可能になります。
さらに、非参照画像品質評価 (NR-IQA) を使用して、文字画像の位置合わせだけでなく、生成された画像の品質も評価します。
実験結果は、私たちが提案した評価アプローチが、これらの比率の調整を可能にしながら、より詳細なテキストと画像の位置合わせと画質を同時に評価できる優れた評価基準であることを示しています。
要約(オリジナル)
Text-to-image generation and text-guided image manipulation have received considerable attention in the field of image generation tasks. However, the mainstream evaluation methods for these tasks have difficulty in evaluating whether all the information from the input text is accurately reflected in the generated images, and they mainly focus on evaluating the overall alignment between the input text and the generated images. This paper proposes new evaluation metrics that assess the alignment between input text and generated images for every individual object. Firstly, according to the input text, chatGPT is utilized to produce questions for the generated images. After that, we use Visual Question Answering(VQA) to measure the relevance of the generated images to the input text, which allows for a more detailed evaluation of the alignment compared to existing methods. In addition, we use Non-Reference Image Quality Assessment(NR-IQA) to evaluate not only the text-image alignment but also the quality of the generated images. Experimental results show that our proposed evaluation approach is the superior metric that can simultaneously assess finer text-image alignment and image quality while allowing for the adjustment of these ratios.
arxiv情報
著者 | Mizuki Miyamoto,Ryugo Morita,Jinjia Zhou |
発行日 | 2024-11-15 13:32:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google