Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models

要約

拡散モデルは画像生成領域を活性化し、学術研究と芸術表現の両方で重要な役割を果たしています。
新しい拡散モデルの出現により、テキストから画像へのモデルのパフォーマンスを評価することがますます重要になっています。
現在の測定基準は、入力テキストと生成された画像を直接照合することに重点を置いていますが、クロスモーダル情報の非対称性により、信頼性の低い、または不完全な評価結果が生じます。
これを動機として、この研究では画像再生成タスクを導入し、T2I モデルに参照画像に従って画像を生成するタスクを課すことにより、テキストから画像へのモデルを評価します。
GPT4V を使用して、参照画像と T2I モデルのテキスト入力の間のギャップを埋め、T2I モデルが画像コンテンツを理解できるようにします。
生成された画像と参照画像の比較が簡単なので、この評価プロセスが簡素化されます。
現在利用可能な主要な拡散モデルを評価するために、多様なコンテンツと多様なスタイルの評価データセットにわたる 2 つの再生成データセットが導入されています。
さらに、MLLM ガイドによる反復的な生成と改訂を通じてコン​​テンツの理解を向上させることで、生成された画像の品質を向上させる ImageRepainter フレームワークを紹介します。
私たちの包括的な実験により、モデルの生成能力を評価する際のこのフレームワークの有効性が実証されました。
MLLM を活用することで、堅牢な T2M が参照画像によりよく似た画像を生成できることを実証しました。

要約(オリジナル)

Diffusion models have revitalized the image generation domain, playing crucial roles in both academic research and artistic expression. With the emergence of new diffusion models, assessing the performance of text-to-image models has become increasingly important. Current metrics focus on directly matching the input text with the generated image, but due to cross-modal information asymmetry, this leads to unreliable or incomplete assessment results. Motivated by this, we introduce the Image Regeneration task in this study to assess text-to-image models by tasking the T2I model with generating an image according to the reference image. We use GPT4V to bridge the gap between the reference image and the text input for the T2I model, allowing T2I models to understand image content. This evaluation process is simplified as comparisons between the generated image and the reference image are straightforward. Two regeneration datasets spanning content-diverse and style-diverse evaluation dataset are introduced to evaluate the leading diffusion models currently available. Additionally, we present ImageRepainter framework to enhance the quality of generated images by improving content comprehension via MLLM guided iterative generation and revision. Our comprehensive experiments have showcased the effectiveness of this framework in assessing the generative capabilities of models. By leveraging MLLM, we have demonstrated that a robust T2M can produce images more closely resembling the reference image.

arxiv情報

著者 Chutian Meng,Fan Ma,Jiaxu Miao,Chi Zhang,Yi Yang,Yueting Zhuang
発行日 2024-11-14 13:52:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク