DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models

要約

拡散モデルの最近の進歩により、ユーザーは自然言語でテキスト プロンプトを作成することにより、高品質の画像を生成できます。
ただし、必要な詳細を含む画像を生成するには適切なプロンプトが必要であり、モデルがさまざまなプロンプトにどのように反応するか、および最適なプロンプトが何であるかが不明なことがよくあります。
研究者がこれらの重要な課題に取り組むのを支援するために、最初の大規模なテキストから画像へのプロンプト データセットである DiffusionDB を導入します。
DiffusionDB には、実際のユーザーが指定したプロンプトとハイパーパラメーターを使用して、Stable Diffusion によって生成された 1,400 万の画像が含まれています。
データセット内のプロンプトを分析し、これらのプロンプトの主要なプロパティについて説明します。
この人間が操作するデータセットの前例のない規模と多様性は、プロンプトと生成モデル間の相互作用の理解、ディープフェイクの検出、およびユーザーがこれらのモデルをより簡単に使用できるようにする人間と AI の相互作用ツールの設計において、刺激的な研究の機会を提供します。
DiffusionDB は、https://poloclub.github.io/diffusiondb で公開されています。

要約(オリジナル)

With recent advancements in diffusion models, users can generate high-quality images by writing text prompts in natural language. However, generating images with desired details requires proper prompts, and it is often unclear how a model reacts to different prompts and what the best prompts are. To help researchers tackle these critical challenges, we introduce DiffusionDB, the first large-scale text-to-image prompt dataset. DiffusionDB contains 14 million images generated by Stable Diffusion using prompts and hyperparameters specified by real users. We analyze prompts in the dataset and discuss key properties of these prompts. The unprecedented scale and diversity of this human-actuated dataset provide exciting research opportunities in understanding the interplay between prompts and generative models, detecting deepfakes, and designing human-AI interaction tools to help users more easily use these models. DiffusionDB is publicly available at: https://poloclub.github.io/diffusiondb.

arxiv情報

著者 Zijie J. Wang,Evan Montoya,David Munechika,Haoyang Yang,Benjamin Hoover,Duen Horng Chau
発行日 2022-11-15 17:31:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG パーマリンク