Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense?

要約

我々は、Commonsense-T2Iと呼ぶ、実生活の常識に適合する画像を生成するテキストから画像(T2I)生成モデルの能力を評価するための新しいタスクとベンチマークを提示します。
「電気のない電球」と「電気のない電球」など、わずかな違いはあるものの同一の一連のアクションワードを含む 2 つの敵対的なテキストプロンプトがあるとします。
「電気がついた電球」について、T2I モデルが視覚的常識的な推論を実行できるかどうかを評価します。
「電球が消灯している」と「電球が点灯している」に対応して適合する画像を生成します。
Commonsense-T2I は、予想される出力とともにペアごとのテキスト プロンプトを提供する、敵対的な課題を提示します。
データセットは専門家によって慎重に手作業で精選され、モデルの動作の分析を支援するために、常識的なタイプや予想される出力の可能性などのきめ細かいラベルで注釈が付けられます。
私たちはさまざまな最先端の (sota) T2I モデルのベンチマークを行ったところ、驚くべきことに、画像合成と実際の写真の間には依然として大きなギャップがあることがわかりました。DALL-E 3 モデルでさえ、48.92% しか達成できませんでした。
Commonsense-T2I および安定拡散 XL モデルでは、24.92% の精度しか達成できません。
私たちの実験では、GPT を強化したプロンプトではこの課題を解決できないことが示されており、そのような欠陥の考えられる理由についての詳細な分析が含まれています。
私たちは、Commonsense-T2I が T2I 常識チェックの高品質評価ベンチマークとして機能し、現実の画像生成の進歩を促進することを目指しています。

要約(オリジナル)

We present a novel task and benchmark for evaluating the ability of text-to-image(T2I) generation models to produce images that fit commonsense in real life, which we call Commonsense-T2I. Given two adversarial text prompts containing an identical set of action words with minor differences, such as ‘a lightbulb without electricity’ v.s. ‘a lightbulb with electricity’, we evaluate whether T2I models can conduct visual-commonsense reasoning, e.g. produce images that fit ‘the lightbulb is unlit’ vs. ‘the lightbulb is lit’ correspondingly. Commonsense-T2I presents an adversarial challenge, providing pairwise text prompts along with expected outputs. The dataset is carefully hand-curated by experts and annotated with fine-grained labels, such as commonsense type and likelihood of the expected outputs, to assist analyzing model behavior. We benchmark a variety of state-of-the-art (sota) T2I models and surprisingly find that, there is still a large gap between image synthesis and real life photos–even the DALL-E 3 model could only achieve 48.92% on Commonsense-T2I, and the stable diffusion XL model only achieves 24.92% accuracy. Our experiments show that GPT-enriched prompts cannot solve this challenge, and we include a detailed analysis about possible reasons for such deficiency. We aim for Commonsense-T2I to serve as a high-quality evaluation benchmark for T2I commonsense checking, fostering advancements in real life image generation.

arxiv情報

著者 Xingyu Fu,Muyu He,Yujie Lu,William Yang Wang,Dan Roth
発行日 2024-06-11 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク