要約
テキストから画像へのモデルの現在の指標は通常、人間の実際の好みを不適切に表す統計指標に依存しています。
最近の研究では、人間の注釈が付けられた画像を介してこれらの好みを学習しようとしていますが、人間の好みの豊富なタペストリーを 1 つの全体的なスコアにまとめてしまいます。
ただし、人間がさまざまな側面で画像を評価すると、好みの結果は異なります。
したがって、人間の多次元の嗜好を学習するために、テキストから画像へのモデルを評価するための最初の多次元嗜好スコアリング モデルである多次元嗜好スコア (MPS) を提案します。
MPS は、これらの多様な好みを学習するために、CLIP モデルに好み条件モジュールを導入します。
これは、607,541 枚の画像上の 4 つの次元 (つまり、美しさ、セマンティックな調整、細部の品質、全体的な評価) にわたる 918,315 個の人間の好みの選択肢で構成される多次元人間の好み (MHP) データセットに基づいてトレーニングされています。
画像は、さまざまな最新のテキストから画像への変換モデルによって生成されます。
MPS は、4 次元の 3 つのデータセットにわたって既存のスコアリング方法よりも優れたパフォーマンスを示し、テキストから画像への生成を評価および改善するための有望な指標となります。
要約(オリジナル)
Current metrics for text-to-image models typically rely on statistical metrics which inadequately represent the real preference of humans. Although recent work attempts to learn these preferences via human annotated images, they reduce the rich tapestry of human preference to a single overall score. However, the preference results vary when humans evaluate images with different aspects. Therefore, to learn the multi-dimensional human preferences, we propose the Multi-dimensional Preference Score (MPS), the first multi-dimensional preference scoring model for the evaluation of text-to-image models. The MPS introduces the preference condition module upon CLIP model to learn these diverse preferences. It is trained based on our Multi-dimensional Human Preference (MHP) Dataset, which comprises 918,315 human preference choices across four dimensions (i.e., aesthetics, semantic alignment, detail quality and overall assessment) on 607,541 images. The images are generated by a wide range of latest text-to-image models. The MPS outperforms existing scoring methods across 3 datasets in 4 dimensions, enabling it a promising metric for evaluating and improving text-to-image generation.
arxiv情報
著者 | Sixian Zhang,Bohan Wang,Junqiang Wu,Yan Li,Tingting Gao,Di Zhang,Zhongyuan Wang |
発行日 | 2024-05-23 15:39:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google