TeTIm-Eval: a novel curated evaluation data set for comparing text-to-image models

要約

テキストから画像へのモデルの評価と比較は、困難な問題です。
最近、この分野で大きな進歩があり、さまざまな産業部門の関心を集めています。
結果として、現場のゴールド スタンダードは、さまざまなタスクとアプリケーション コンテキストをカバーする必要があります。
この論文では、以下に基づいて、新しい評価アプローチが実験されています。
(ii) 定量的指標である CLIP スコア (iii) 与えられたテキストについて、実際の画像と生成された画像を区別する人間の評価タスク。
提案された方法は、最新のモデル、つまり、DALLE2、潜在拡散、安定拡散、GLIDE、および Craiyon に適用されています。
初期の実験結果は、人間の判断の精度が CLIP スコアと完全に一致していることを示しています。
データセットが公開されました。

要約(オリジナル)

Evaluating and comparing text-to-image models is a challenging problem. Significant advances in the field have recently been made, piquing interest of various industrial sectors. As a consequence, a gold standard in the field should cover a variety of tasks and application contexts. In this paper a novel evaluation approach is experimented, on the basis of: (i) a curated data set, made by high-quality royalty-free image-text pairs, divided into ten categories; (ii) a quantitative metric, the CLIP-score, (iii) a human evaluation task to distinguish, for a given text, the real and the generated images. The proposed method has been applied to the most recent models, i.e., DALLE2, Latent Diffusion, Stable Diffusion, GLIDE and Craiyon. Early experimental results show that the accuracy of the human judgement is fully coherent with the CLIP-score. The dataset has been made available to the public.

arxiv情報

著者 Federico A. Galatolo,Mario G. C. A. Cimino,Edoardo Cogotti
発行日 2022-12-15 13:52:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク