Evaluating Text-to-Image Synthesis: Survey and Taxonomy of Image Quality Metrics

要約

言語と視覚の基盤モデルの組み合わせによって可能になったテキストから画像への合成の最近の進歩により、利用可能なツールが急増し、この分野への注目が高まっています。
テキストから画像への合成を行う場合、中心的な目標は、テキストと画像のコンテンツが確実に一致するようにすることです。
そのため、人間の判断を模倣することを目的とした評価指標が多数存在します。
ただし、テキストから画像への合成システムの評価は非常に微妙なため、どの指標を使用して評価すればよいかが不明瞭なことがよくあります。
この研究では、既存のテキストから画像への評価指標の包括的な概要を提供します。
私たちの調査結果に基づいて、これらの指標を分類するための新しい分類法を提案します。
私たちの分類法は、人間の好みに理想的に対応する 2 つの主要な品質基準、つまり構成性と一般性が存在するという前提に基づいています。
最終的に、私たちはテキストから画像への評価を行う実務者向けのガイドラインを導き出し、評価メカニズムの未解決の課題と、現在の指標の限界を表面化します。

要約(オリジナル)

Recent advances in text-to-image synthesis enabled through a combination of language and vision foundation models have led to a proliferation of the tools available and an increased attention to the field. When conducting text-to-image synthesis, a central goal is to ensure that the content between text and image is aligned. As such, there exist numerous evaluation metrics that aim to mimic human judgement. However, it is often unclear which metric to use for evaluating text-to-image synthesis systems as their evaluation is highly nuanced. In this work, we provide a comprehensive overview of existing text-to-image evaluation metrics. Based on our findings, we propose a new taxonomy for categorizing these metrics. Our taxonomy is grounded in the assumption that there are two main quality criteria, namely compositionality and generality, which ideally map to human preferences. Ultimately, we derive guidelines for practitioners conducting text-to-image evaluation, discuss open challenges of evaluation mechanisms, and surface limitations of current metrics.

arxiv情報

著者 Sebastian Hartwig,Dominik Engel,Leon Sick,Hannah Kniesel,Tristan Payer,Poonam Poonam,Michael Glöckler,Alex Bäuerle,Timo Ropinski
発行日 2024-04-15 09:10:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク