Hypernymy Understanding Evaluation of Text-to-Image Models via WordNet Hierarchy

要約

テキストから画像への合成は、品質の急速な向上と数多くの実用化により、最近広く注目を集めています。
ただし、テキストから画像へのモデルの言語理解機能はまだ十分に理解されていないため、特定のモデルがよく理解できる迅速な定式化について推論することが困難になっています。
この研究では、一般的なテキストから画像へのモデルが $\textit{hypernymy}$、つまり単語間の「is-a」関係を理解する能力を測定します。
WordNet のセマンティック階層と ImageNet で事前トレーニングされた既存の画像分類子に基づいて 2 つの自動メトリクスを設計します。
これらのメトリクスは両方とも、テキストから画像へのモデルの言語機能の広範な定量的比較を可能にし、モデルにとって未知であるため描画が難しい単語など、きめの細かい定性的な違いを見つける方法を提供します。
当社では、GLIDE、潜在拡散、安定拡散などの一般的なテキストから画像へのモデルを包括的に評価し、当社の指標がこれらのモデルの個々の強みと弱みをより深く理解する方法を示しています。

要約(オリジナル)

Text-to-image synthesis has recently attracted widespread attention due to rapidly improving quality and numerous practical applications. However, the language understanding capabilities of text-to-image models are still poorly understood, which makes it difficult to reason about prompt formulations that a given model would understand well. In this work, we measure the capability of popular text-to-image models to understand $\textit{hypernymy}$, or the ‘is-a’ relation between words. We design two automatic metrics based on the WordNet semantic hierarchy and existing image classifiers pretrained on ImageNet. These metrics both enable broad quantitative comparison of linguistic capabilities for text-to-image models and offer a way of finding fine-grained qualitative differences, such as words that are unknown to models and thus are difficult for them to draw. We comprehensively evaluate popular text-to-image models, including GLIDE, Latent Diffusion, and Stable Diffusion, showing how our metrics can provide a better understanding of the individual strengths and weaknesses of these models.

arxiv情報

著者 Anton Baryshnikov,Max Ryabinin
発行日 2023-10-13 16:53:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク