要約
AIベースのテキストから画像へのモデルは、現実的な画像の生成に優れているだけでなく、デザイナーに画像コンテンツをますます微調整した制御を提供します。
その結果、これらのアプローチは、シーンパラメーター(オブジェクト、材料、照明など)を正確に制御する従来のレンダリングテクニックに歴史的に捧げられてきたコンピューターグラフィックスの研究コミュニティ内で注目を集めています。
従来のレンダリングされた画像の品質は、SSIMやPSNRなどの十分に確立された画像品質メトリックを通じて評価されますが、テキストから画像の生成の独自の課題には、他の専用品質メトリックが必要です。
これらのメトリックは、全体的な画質を測定するだけでなく、画像が特定のテキストプロンプトをどの程度反映しているかを測定できる必要があります。これにより、シーンとレンダリングパラメーターの制御が織り交ぜられます。
この調査では、このようなテキストから画像への品質メトリックの包括的な概要を提供し、これらのメトリックを分類するための分類法を提案します。
私たちの分類法は、全体的な画質に寄与する2つの主要な品質基準、つまり構成品質と一般的な品質があるという仮定に基づいています。
メトリックに加えて、この調査では、メトリックが頻繁に計算される専用のテキスト間ベンチマークデータセットをカバーしています。
最後に、テキストから画像の生成の分野における制限とオープンな課題を特定し、テキストから画像への評価を実施する実務家のガイドラインを導き出します。
要約(オリジナル)
AI-based text-to-image models do not only excel at generating realistic images, they also give designers more and more fine-grained control over the image content. Consequently, these approaches have gathered increased attention within the computer graphics research community, which has been historically devoted towards traditional rendering techniques, that offer precise control over scene parameters (e.g., objects, materials, and lighting). While the quality of conventionally rendered images is assessed through well established image quality metrics, such as SSIM or PSNR, the unique challenges of text-to-image generation require other, dedicated quality metrics. These metrics must be able to not only measure overall image quality, but also how well images reflect given text prompts, whereby the control of scene and rendering parameters is interweaved. Within this survey, we provide a comprehensive overview of such text-to-image quality metrics, and propose a taxonomy to categorize these metrics. Our taxonomy is grounded in the assumption, that there are two main quality criteria, namely compositional quality and general quality, that contribute to the overall image quality. Besides the metrics, this survey covers dedicated text-to-image benchmark datasets, over which the metrics are frequently computed. Finally, we identify limitations and open challenges in the field of text-to-image generation, and derive guidelines for practitioners conducting text-to-image evaluation.
arxiv情報
著者 | Sebastian Hartwig,Dominik Engel,Leon Sick,Hannah Kniesel,Tristan Payer,Poonam Poonam,Michael Glöckler,Alex Bäuerle,Timo Ropinski |
発行日 | 2025-01-29 08:48:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google