要約
拡散モデルはテキストから画像への生成における最先端技術ですが、その知覚の変動性については十分に研究されていません。
この論文では、プロンプトがブラック ボックス拡散ベースのモデルの画像変動にどのような影響を与えるかを検証します。
我々は、既存の画像ペアの知覚距離からブートストラップされた、画像セットの変動性を人間が校正した尺度である W1KP を提案します。
現在のデータセットは最近の拡散モデルをカバーしていないため、評価用に 3 つのテスト セットを厳選しました。
当社の最良の知覚距離は、精度において 9 つのベースラインを最大 18 ポイント上回っており、当社のキャリブレーションは 78% の確率で段階的な人間の判断と一致します。
W1KP を使用して、プロンプトの再利用性を研究し、新しい画像がすでに生成された画像と類似しすぎる前に、Imagen プロンプトを 10 ~ 50 個のランダム シードに対して再利用できる一方、Stable Diffusion XL と DALL-E 3 は 50 ~ 200 回再利用できることを示しました。
最後に、実際のプロンプトの 56 の言語的特徴を分析し、プロンプトの長さ、CLIP 埋め込みノルム、具体性、語感が変動性に最も影響を与えることを発見しました。
私たちが知る限り、視覚言語学的観点から拡散変動性を分析したのは私たちが初めてです。
私たちのプロジェクトページは http://w1kp.com にあります。
要約(オリジナル)
Diffusion models are the state of the art in text-to-image generation, but their perceptual variability remains understudied. In this paper, we examine how prompts affect image variability in black-box diffusion-based models. We propose W1KP, a human-calibrated measure of variability in a set of images, bootstrapped from existing image-pair perceptual distances. Current datasets do not cover recent diffusion models, thus we curate three test sets for evaluation. Our best perceptual distance outperforms nine baselines by up to 18 points in accuracy, and our calibration matches graded human judgements 78% of the time. Using W1KP, we study prompt reusability and show that Imagen prompts can be reused for 10-50 random seeds before new images become too similar to already generated images, while Stable Diffusion XL and DALL-E 3 can be reused 50-200 times. Lastly, we analyze 56 linguistic features of real prompts, finding that the prompt’s length, CLIP embedding norm, concreteness, and word senses influence variability most. As far as we are aware, we are the first to analyze diffusion variability from a visuolinguistic perspective. Our project page is at http://w1kp.com
arxiv情報
著者 | Raphael Tang,Xinyu Zhang,Lixinyu Xu,Yao Lu,Wenyan Li,Pontus Stenetorp,Jimmy Lin,Ferhan Ture |
発行日 | 2024-06-12 17:59:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google