要約
テキストから画像への生成モデルは、自然言語プロンプトに基づいて高品質の画像を生成する強力な機能により、一般の人々の間で非常に人気を得ています。
ただし、自然言語の複雑さと曖昧さのため、目的の画像に対する効果的なプロンプトを開発するのは困難な場合があります。
この研究では、ユーザーが画像結果を探索し、入力プロンプトを改良するのに役立つ視覚分析システムである PromptMagician を提案します。
私たちのシステムのバックボーンは、ユーザー プロンプトを入力として受け取り、DiffusionDB から類似のプロンプト画像ペアを取得し、特別な (重要で関連性のある) プロンプト キーワードを識別するプロンプト推奨モデルです。
インタラクティブなプロンプトの絞り込みを容易にするために、PromptMagician は、取得した画像と推奨キーワードをクロスモーダルに埋め込むためのマルチレベルの視覚化を導入し、ユーザーがパーソナライズされた探索のための複数の基準を指定できるようにします。
2 つの使用シナリオ、ユーザー調査、および専門家へのインタビューは、当社のシステムの有効性と使いやすさを実証しており、このシステムが迅速なエンジニアリングを促進し、テキストから画像への生成モデルの創造性サポートを向上させることを示唆しています。
要約(オリジナル)
Generative text-to-image models have gained great popularity among the public for their powerful capability to generate high-quality images based on natural language prompts. However, developing effective prompts for desired images can be challenging due to the complexity and ambiguity of natural language. This research proposes PromptMagician, a visual analysis system that helps users explore the image results and refine the input prompts. The backbone of our system is a prompt recommendation model that takes user prompts as input, retrieves similar prompt-image pairs from DiffusionDB, and identifies special (important and relevant) prompt keywords. To facilitate interactive prompt refinement, PromptMagician introduces a multi-level visualization for the cross-modal embedding of the retrieved images and recommended keywords, and supports users in specifying multiple criteria for personalized exploration. Two usage scenarios, a user study, and expert interviews demonstrate the effectiveness and usability of our system, suggesting it facilitates prompt engineering and improves the creativity support of the generative text-to-image model.
arxiv情報
著者 | Yingchaojie Feng,Xingbo Wang,Kam Kwai Wong,Sijia Wang,Yuhong Lu,Minfeng Zhu,Baicheng Wang,Wei Chen |
発行日 | 2023-08-15 09:44:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google