要約
このペーパーでは、ゼロショットセットアップでテキストからイメージモデルを使用して、分類概念の画像を生成する可能性を検討します。
分類濃縮のためのテキストベースの方法は確立されていますが、視覚的次元の可能性は未開拓のままです。
これに対処するために、分類学の概念を理解し、関連する高品質の画像を生成するモデルの能力を評価する分類画像生成のための包括的なベンチマークを提案します。
ベンチマークには、LLM生成予測と並んで、コモンセンスとランダムにサンプリングされたWordNetコンセプトが含まれます。
12のモデルは、9つの新しい分類関連テキストからイメージへのメトリックと人間のフィードバックを使用して評価されます。
さらに、画像生成のためのGPT-4フィードバックを使用して、ペアワイズ評価の使用を開拓します。
実験結果は、モデルのランキングが標準のT2Iタスクと大きく異なることを示しています。
Playground-V2とフラックスはメトリックとサブセット全体で一貫してアウトパフォームし、検索ベースのアプローチのパフォーマンスが低下します。
これらの調査結果は、構造化されたデータリソースのキュレーションを自動化する可能性を強調しています。
要約(オリジナル)
This paper explores the feasibility of using text-to-image models in a zero-shot setup to generate images for taxonomy concepts. While text-based methods for taxonomy enrichment are well-established, the potential of the visual dimension remains unexplored. To address this, we propose a comprehensive benchmark for Taxonomy Image Generation that assesses models’ abilities to understand taxonomy concepts and generate relevant, high-quality images. The benchmark includes common-sense and randomly sampled WordNet concepts, alongside the LLM generated predictions. The 12 models are evaluated using 9 novel taxonomy-related text-to-image metrics and human feedback. Moreover, we pioneer the use of pairwise evaluation with GPT-4 feedback for image generation. Experimental results show that the ranking of models differs significantly from standard T2I tasks. Playground-v2 and FLUX consistently outperform across metrics and subsets and the retrieval-based approach performs poorly. These findings highlight the potential for automating the curation of structured data resources.
arxiv情報
著者 | Viktor Moskvoretskii,Alina Lobanova,Ekaterina Neminova,Chris Biemann,Alexander Panchenko,Irina Nikishina |
発行日 | 2025-03-13 13:37:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google