要約
安定拡散などの生成テキストから画像へのモデルを使用すると、ユーザーはテキストによる説明、プロンプトに基づいて画像を生成できます。
プロンプトの変更は、ユーザーが生成されたイメージを必要に応じて変更するための主な手段です。
しかし、プロンプトを再定式化してイメージを変えることは依然として難しい試行錯誤の過程であり、それが新しい研究分野としてプロンプトエンジニアリングの出現につながりました。
プロンプトテキストの代わりにプロンプトの埋め込みを直接変更する方法を提案および分析します。
ユーザーの意図を考慮した、よりきめ細かく的を絞った制御が可能になります。
私たちのアプローチは、テキストから画像への生成モデルを連続関数として扱い、画像空間とプロンプト埋め込み空間の間で勾配を渡します。
さまざまなユーザー インタラクションの問題に対処することで、このアイデアを 3 つのシナリオに適用できます。 (1) 画像スタイルなどを測定できる、画像空間で定義されたメトリックの最適化。
(2) ユーザーが「近い」プロンプト埋め込みの方向の選択に沿って画像空間をナビゲートできるようにすることで、創造的なタスクにおけるユーザーの支援。
(3) プロンプトの埋め込みを変更して、ユーザーが特定のシードで見たことはあるが、プロンプトで説明するのが難しいと感じた情報を含めます。
私たちの実験は、記載された方法の実現可能性を実証しています。
要約(オリジナル)
Generative text-to-image models such as Stable Diffusion allow users to generate images based on a textual description, the prompt. Changing the prompt is still the primary means for the user to change a generated image as desired. However, changing the image by reformulating the prompt remains a difficult process of trial and error, which has led to the emergence of prompt engineering as a new field of research. We propose and analyze methods to change the embedding of a prompt directly instead of the prompt text. It allows for more fine-grained and targeted control that takes into account user intentions. Our approach treats the generative text-to-image model as a continuous function and passes gradients between the image space and the prompt embedding space. By addressing different user interaction problems, we can apply this idea in three scenarios: (1) Optimization of a metric defined in image space that could measure, for example, image style. (2) Assistance of users in creative tasks by enabling them to navigate the image space along a selection of directions of ‘near’ prompt embeddings. (3) Changing the embedding of the prompt to include information that the user has seen in a particular seed but finds difficult to describe in the prompt. Our experiments demonstrate the feasibility of the described methods.
arxiv情報
著者 | Niklas Deckers,Julia Peters,Martin Potthast |
発行日 | 2023-08-23 10:59:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google