TIAM — A Metric for Evaluating Alignment in Text-to-Image Generation

要約

合成画像の生成の進歩により、その品質を評価することが重要になってきている。画像のレンダリングを評価するためのメトリクスがいくつか提案されているが、プロンプトに基づいて画像を生成するText-to-Image(T2I)モデルにおいては、生成された画像がプロンプトの重要な内容とどの程度一致しているかといった付加的な側面を考慮することが極めて重要である。さらに、生成される画像は通常ランダムな始点から得られるが、この始点の影響は一般に考慮されていない。本稿では、プロンプトテンプレートに基づき、プロンプトで指定された内容と対応する生成画像との間の整合を調べるための新しい評価指標を提案する。これにより、指定されたオブジェクトの種類、数、色などの観点から、アライメントをより適切に特徴付けることができる。我々は、最近のT2Iモデルの様々な側面について研究を行った。我々のアプローチで得られた追加的な興味深い結果は、画像のシードとして使用されるノイズによって画質が大きく変化することである。また、プロンプト中の概念の数、それらの順序、およびそれらの(色)属性の影響も定量化した。最後に、我々の手法により、他よりも優れた画像を生成するいくつかの種を特定することができ、この控えめなトピックに関する新しい研究の方向性を開くことができる。

要約(オリジナル)

The progress in the generation of synthetic images has made it crucial to assess their quality. While several metrics have been proposed to assess the rendering of images, it is crucial for Text-to-Image (T2I) models, which generate images based on a prompt, to consider additional aspects such as to which extent the generated image matches the important content of the prompt. Moreover, although the generated images usually result from a random starting point, the influence of this one is generally not considered. In this article, we propose a new metric based on prompt templates to study the alignment between the content specified in the prompt and the corresponding generated images. It allows us to better characterize the alignment in terms of the type of the specified objects, their number, and their color. We conducted a study on several recent T2I models about various aspects. An additional interesting result we obtained with our approach is that image quality can vary drastically depending on the noise used as a seed for the images. We also quantify the influence of the number of concepts in the prompt, their order as well as their (color) attributes. Finally, our method allows us to identify some seeds that produce better images than others, opening novel directions of research on this understudied topic.

arxiv情報

著者 Paul Grimal,Hervé Le Borgne,Olivier Ferret,Julien Tourille
発行日 2024-01-02 21:18:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク