要約
テキストから画像へのモデルの評価は難しいことで知られています。
テキストと画像の忠実性を評価するための最近の強力なアプローチは、QG/A (質問の生成と回答) に基づいています。これは、事前トレーニングされた基本モデルを使用して、プロンプトから一連の質問と回答を自動的に生成し、出力画像は次の基準に基づいてスコア付けされます。
視覚的な質問応答モデルで抽出されたこれらの回答がプロンプトベースの回答と一致しているかどうか。
この種の評価は、当然のことながら、基礎となる QG および QA モデルの品質に依存します。
私たちは、既存の QG/A 作業における信頼性に関するいくつかの課題を特定し、それに対処します。(a) QG の質問はプロンプトを尊重する必要があり (幻覚、重複、欠落を避ける)、(b) VQA の回答は一貫している必要があります (バイクが存在しないと主張しない)。
画像はバイクが青いとも主張しています)。
私たちは、形式的意味論にヒントを得た経験に基づいた評価フレームワークである Davidsonian Scene Graph (DSG) を使用してこれらの問題に対処します。
DSG は、任意の QG/A モジュールに適応できるようにモジュール式に実装された自動のグラフベースの QG/A です。
DSG は、依存関係グラフに整理されたアトミックでユニークな質問を生成します。これにより、(i) 適切なセマンティック カバレッジが保証され、(ii) 一貫性のない回答が回避されます。
さまざまなモデル構成 (LLM、VQA、および T2I) に関する広範な実験と人間による評価により、DSG が上記の課題に対処していることを経験的に実証しています。
最後に、1,060 個のプロンプトを含むオープンソースの評価ベンチマークである DSG-1k を紹介します。DSG-1k は、バランスの取れた分布で広範囲のきめ細かいセマンティック カテゴリをカバーします。
DSG-1k プロンプトと対応する DSG の質問をリリースします。
要約(オリジナル)
Evaluating text-to-image models is notoriously difficult. A strong recent approach for assessing text-image faithfulness is based on QG/A (question generation and answering), which uses pre-trained foundational models to automatically generate a set of questions and answers from the prompt, and output images are scored based on whether these answers extracted with a visual question answering model are consistent with the prompt-based answers. This kind of evaluation is naturally dependent on the quality of the underlying QG and QA models. We identify and address several reliability challenges in existing QG/A work: (a) QG questions should respect the prompt (avoiding hallucinations, duplications, and omissions) and (b) VQA answers should be consistent (not asserting that there is no motorcycle in an image while also claiming the motorcycle is blue). We address these issues with Davidsonian Scene Graph (DSG), an empirically grounded evaluation framework inspired by formal semantics. DSG is an automatic, graph-based QG/A that is modularly implemented to be adaptable to any QG/A module. DSG produces atomic and unique questions organized in dependency graphs, which (i) ensure appropriate semantic coverage and (ii) sidestep inconsistent answers. With extensive experimentation and human evaluation on a range of model configurations (LLM, VQA, and T2I), we empirically demonstrate that DSG addresses the challenges noted above. Finally, we present DSG-1k, an open-sourced evaluation benchmark that includes 1,060 prompts, covering a wide range of fine-grained semantic categories with a balanced distribution. We will release the DSG-1k prompts and the corresponding DSG questions.
arxiv情報
著者 | Jaemin Cho,Yushi Hu,Roopal Garg,Peter Anderson,Ranjay Krishna,Jason Baldridge,Mohit Bansal,Jordi Pont-Tuset,Su Wang |
発行日 | 2023-10-27 16:20:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google