TIAM — A Metric for Evaluating Alignment in Text-to-Image Generation

要約

合成画像の生成が進歩したため、その品質を評価することが重要になっています。
画像のレンダリングを評価するためにいくつかの指標が提案されていますが、プロンプトに基づいて画像を生成する Text-to-Image (T2I) モデルでは、生成された画像が重要な画像とどの程度一致するかなどの追加の側面を考慮することが重要です。
プロンプトの内容。
さらに、生成された画像は通常、ランダムな開始点から生成されますが、この画像の影響は通常考慮されません。
この記事では、プロンプトで指定されたコンテンツと、対応する生成された画像の間の整合性を調査するために、プロンプト テンプレートに基づく新しい指標を提案します。
これにより、指定したオブジェクトのタイプ、数、色の観点から配置をより適切に特徴付けることができます。
私たちは、いくつかの最近の T2I モデルについて、さまざまな側面について調査を実施しました。
私たちのアプローチで得られたさらに興味深い結果は、画像のシードとして使用される潜在ノイズに応じて画質が大幅に変化する可能性があるということです。
また、プロンプト内の概念の数、その順序、およびそれらの (色) 属性の影響も定量化します。
最後に、私たちの方法により、他のものよりも優れた画像を生成するいくつかの潜在的なシードを特定することができ、この十分に研究されていないテーマに関する研究の新たな方向性が開かれます。

要約(オリジナル)

The progress in the generation of synthetic images has made it crucial to assess their quality. While several metrics have been proposed to assess the rendering of images, it is crucial for Text-to-Image (T2I) models, which generate images based on a prompt, to consider additional aspects such as to which extent the generated image matches the important content of the prompt. Moreover, although the generated images usually result from a random starting point, the influence of this one is generally not considered. In this article, we propose a new metric based on prompt templates to study the alignment between the content specified in the prompt and the corresponding generated images. It allows us to better characterize the alignment in terms of the type of the specified objects, their number, and their color. We conducted a study on several recent T2I models about various aspects. An additional interesting result we obtained with our approach is that image quality can vary drastically depending on the latent noise used as a seed for the images. We also quantify the influence of the number of concepts in the prompt, their order as well as their (color) attributes. Finally, our method allows us to identify some latent seeds that produce better images than others, opening novel directions of research on this understudied topic.

arxiv情報

著者 Paul Grimal,Hervé Le Borgne,Olivier Ferret,Julien Tourille
発行日 2023-07-11 09:23:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク