VLEU: a Method for Automatic Evaluation for Generalizability of Text-to-Image Models

要約

Text-to-Image (T2I) モデルの進歩により、テキストの説明からの画像の生成が大幅に改善されました。
ただし、既存の評価指標では、一般化可能性にとって重要な、さまざまなテキスト プロンプトを処理するモデルの能力を適切に評価できません。
これに対処するために、Visual Language Evaluation Understudy (VLEU) と呼ばれる新しい指標を導入します。
VLEU は、大規模な言語モデルを使用して、T2I モデルのすべての入力テキストのセットであるビジュアル テキスト ドメインからサンプリングし、さまざまなプロンプトを生成します。
これらのプロンプトから生成された画像は、CLIP モデルを使用した入力テキストとの位置合わせに基づいて評価されます。VLEU は、ビジュアル テキストの周辺分布と、CLIP モデルによって生成された画像の条件付き分布の間のカルバック ライブラー発散を計算することにより、モデルの一般化可能性を定量化します。
モデル。
このメトリクスは、さまざまな T2I モデルを比較し、モデルの微調整中に改善を追跡するための定量的な方法を提供します。
私たちの実験は、さまざまな T2I モデルの一般化機能を評価する際の VLEU の有効性を実証し、VLEU をテキストから画像への合成における将来の研究に不可欠な指標として位置づけています。

要約(オリジナル)

Progress in Text-to-Image (T2I) models has significantly improved the generation of images from textual descriptions. However, existing evaluation metrics do not adequately assess the models’ ability to handle a diverse range of textual prompts, which is crucial for their generalizability. To address this, we introduce a new metric called Visual Language Evaluation Understudy (VLEU). VLEU uses large language models to sample from the visual text domain, the set of all possible input texts for T2I models, to generate a wide variety of prompts. The images generated from these prompts are evaluated based on their alignment with the input text using the CLIP model.VLEU quantifies a model’s generalizability by computing the Kullback-Leibler divergence between the marginal distribution of the visual text and the conditional distribution of the images generated by the model. This metric provides a quantitative way to compare different T2I models and track improvements during model finetuning. Our experiments demonstrate the effectiveness of VLEU in evaluating the generalization capability of various T2I models, positioning it as an essential metric for future research in text-to-image synthesis.

arxiv情報

著者 Jingtao Cao,Zheng Zhang,Hongru Wang,Kam-Fai Wong
発行日 2024-11-15 07:19:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, I.2.10 パーマリンク