要約
Text-to-Image(TTI)生成モデルは目覚ましい成功を収めているにもかかわらず、既存の研究では、これらのモデルが事実の情報を正確に伝えるかどうかという問題が見落とされています。
この論文では、生成モデルによって作成された画像が事実の内容を忠実に描写できないという幻覚の問題に焦点を当てます。
これに対処するために、視覚的質問応答 (VQA) を通じて生成された画像の事実性を測定する新しい自動評価指標である I-HallA (質問応答による幻覚評価) を導入します。
また、この目的のために厳選されたベンチマーク データセットである I-HallA v1.0 も紹介します。
このプロセスの一環として、精度を確保するために人間の判断を加えながら、複数の GPT-4 Omni ベースのエージェントを使用して高品質の質問と回答のペアを生成するパイプラインを開発します。
当社の評価プロトコルは、既存のテキストから画像へのモデルからの画像がこれらの質問に正しく応答できるかどうかをテストすることにより、幻覚画像を測定します。
I-HallA v1.0 データセットは、9 つのカテゴリにわたる 1.2K の多様な画像とテキストのペアで構成されており、さまざまな構成上の課題をカバーする 1,000 個の厳密に精選された質問が含まれています。
私たちは、I-HallA を使用して 5 つのテキストから画像へのモデルを評価し、これらの最先端のモデルが事実情報を正確に伝えられないことが多いことを明らかにしました。
さらに、人間の判断との強いスピアマン相関 (rho=0.95) を実証することで、指標の信頼性を検証します。
私たちは、ベンチマーク データセットと指標が、事実に基づいて正確なテキストから画像への生成モデルを開発するための基盤として機能すると信じています。
要約(オリジナル)
Despite the impressive success of text-to-image (TTI) generation models, existing studies overlook the issue of whether these models accurately convey factual information. In this paper, we focus on the problem of image hallucination, where images created by generation models fail to faithfully depict factual content. To address this, we introduce I-HallA (Image Hallucination evaluation with Question Answering), a novel automated evaluation metric that measures the factuality of generated images through visual question answering (VQA). We also introduce I-HallA v1.0, a curated benchmark dataset for this purpose. As part of this process, we develop a pipeline that generates high-quality question-answer pairs using multiple GPT-4 Omni-based agents, with human judgments to ensure accuracy. Our evaluation protocols measure image hallucination by testing if images from existing text-to-image models can correctly respond to these questions. The I-HallA v1.0 dataset comprises 1.2K diverse image-text pairs across nine categories with 1,000 rigorously curated questions covering various compositional challenges. We evaluate five text-to-image models using I-HallA and reveal that these state-of-the-art models often fail to accurately convey factual information. Moreover, we validate the reliability of our metric by demonstrating a strong Spearman correlation (rho=0.95) with human judgments. We believe our benchmark dataset and metric can serve as a foundation for developing factually accurate text-to-image generation models.
arxiv情報
著者 | Youngsun Lim,Hojun Choi,Hyunjung Shim |
発行日 | 2024-10-15 15:01:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google