要約
テキストから画像への生成の品質は継続的に向上していますが、その適用範囲の境界はまだ明確ではありません。
特に、より良い結果を達成することを目的としたテキスト入力の改良 (一般にプロンプト エンジニアリングと呼ばれます) は、これまでのところ、既存のテキストを使用した作業に向けられていないようです。
私たちは、テキストから画像への生成とプロンプト エンジニアリングを使用して、人気のおとぎ話の基本的なイラストを生成できるかどうかを調査します。
Midjourney v4 を使用して、私たちは 2 つの目的を持ってアクション リサーチに取り組んでいます。それは、5 つの人気のおとぎ話のそれぞれについて、5 つの信頼できるイラストを生成することを試みることと、既存のテキストから開始してそのイラストに到達する迅速なエンジニアリング プロセスを定義することです。
。
i) 最初のプロンプト、ii) 構成の調整、iii) スタイルの洗練、iv) バリエーションの選択という暫定的な 4 段階のプロセスに到達します。
また、生成モデルが特定のイラストで苦労する 3 つの理由についても説明します。それは、カウントの難しさ、ステレオタイプの構成によるバイアス、および過度に幻想的な状況を描写できないことです。
私たちの発見は特定の世代モデルに限定されるものではなく、将来のモデルにも一般化できることを目的としています。
要約(オリジナル)
The quality of text-to-image generation is continuously improving, yet the boundaries of its applicability are still unclear. In particular, refinement of the text input with the objective of achieving better results – commonly called prompt engineering – so far seems to have not been geared towards work with pre-existing texts. We investigate whether text-to-image generation and prompt engineering could be used to generate basic illustrations of popular fairytales. Using Midjourney v4, we engage in action research with a dual aim: to attempt to generate 5 believable illustrations for each of 5 popular fairytales, and to define a prompt engineering process that starts from a pre-existing text and arrives at an illustration of it. We arrive at a tentative 4-stage process: i) initial prompt, ii) composition adjustment, iii) style refinement, and iv) variation selection. We also discuss three reasons why the generation model struggles with certain illustrations: difficulties with counts, bias from stereotypical configurations and inability to depict overly fantastic situations. Our findings are not limited to the specific generation model and are intended to be generalisable to future ones.
arxiv情報
著者 | Martin Ruskov |
発行日 | 2023-08-25 14:12:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google