A Prompt Log Analysis of Text-to-Image Generation Systems

要約

拡散モデルの最近の発展により、テキストから画像への生成システムの驚くべき機能が解き放たれ、「プロンプト」として知られる特定の参照テキストに忠実な高品質の画像を合成できるようになりました。
これらのシステムは、公開されるとすぐに、研究者、クリエイター、および一般ユーザーから多くの注目を集めました。
根底にある生成モデルを改善するための多くの努力にもかかわらず、これらのシステムの実際のユーザーの情報ニーズを理解するための作業は限られています。たとえば、ユーザーが入力するプロンプトを大規模に調査することによってです。
このホワイト ペーパーでは、複数のテキストから画像への生成システムから収集された大規模なプロンプト ログの包括的な分析を率先して行います。
私たちの仕事は、Web 検索業界と研究の栄光に大きく貢献してきた一連の仕事である、Web 検索エンジンのクエリ ログの分析に似ています。
3 つの一般的なテキストから画像へのシステムに送信された 200 万を超えるユーザー入力プロンプトを大規模に分析します。
Web 検索クエリと比較して、テキストから画像へのプロンプトはかなり長く、多くの場合、独自の構造に編成されており、さまざまなカテゴリの情報ニーズを提示します。
ユーザーは、作成セッション内でより多くの編集を行う傾向があり、顕著な探索的パターンを示しています。
私たちの調査結果は、作成目的でテキストから画像への生成システムを改善する方法に関する具体的な意味を提供します。

要約(オリジナル)

Recent developments in diffusion models have unleashed the astonishing capabilities of text-to-image generation systems to synthesize high-quality images that are faithful to a given reference text, known as a ‘prompt.’ These systems, once released to the public, have immediately received tons of attention from researchers, creators, and common users. Despite the plenty of efforts to improve the underneath generative models, there is limited work on understanding the information needs of the real users of these systems, e.g., by investigating the prompts the users input at scale. In this paper, we take the initiative to conduct a comprehensive analysis of large-scale prompt logs collected from multiple text-to-image generation systems. Our work is analogous to analyzing the query log of Web search engines, a line of work that has made critical contributions to the glory of the Web search industry and research. We analyze over two million user-input prompts submitted to three popular text-to-image systems at scale. Compared to Web search queries, text-to-image prompts are significantly longer, often organized into unique structures, and present different categories of information needs. Users tend to make more edits within creation sessions, showing remarkable exploratory patterns. Our findings provide concrete implications on how to improve text-to-image generation systems for creation purposes.

arxiv情報

著者 Yutong Xie,Zhaoying Pan,Jinge Ma,Jie Luo,Qiaozhu Mei
発行日 2023-03-08 13:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, cs.IR パーマリンク