要約
テキストから画像への生成の品質は継続的に改善されていますが、その適用範囲はまだ明確ではありません。
特に、より良い結果を達成することを目的としたテキスト入力の改良 (一般にプロンプト エンジニアリングと呼ばれる) は、これまでのところ、既存のテキストでの作業に向けられていないようです。
テキストから画像への生成と迅速なエンジニアリングを使用して、人気のあるおとぎ話の基本的なイラストを生成できるかどうかを調査します。
Midjourney v4 を使用して、2 つの目的でアクション リサーチに取り組んでいます。5 つの人気のあるおとぎ話のそれぞれについて、5 つの信頼できるイラストを生成しようとすることと、既存のテキストから開始してそのイラストに到達する迅速なエンジニアリング プロセスを定義することです。
.
暫定的な 4 段階のプロセスに到達します。i) 初期プロンプト、ii) 構成の調整、iii) スタイルの改良、および iv) バリエーションの選択。
また、世代モデルが特定のイラストで苦労する 3 つの理由についても説明します。カウントの難しさ、ステレオタイプの構成からの偏り、過度に幻想的な状況を描写できないことです。
私たちの調査結果は、特定の世代モデルに限定されるものではなく、将来の世代モデルに一般化できるようにすることを目的としています。
要約(オリジナル)
The quality of text-to-image generation is continuously improving, yet the boundaries of its applicability are still unclear. In particular, refinement of the text input with the objective of achieving better results – commonly called prompt engineering – so far seems to have not been geared towards work with pre-existing texts. We investigate whether text-to-image generation and prompt engineering could be used to generate basic illustrations of popular fairytales. Using Midjourney v4, we engage in action research with a dual aim: to attempt to generate 5 believable illustrations for each of 5 popular fairytales, and to define a prompt engineering process that starts from a pre-existing text and arrives at an illustration of it. We arrive at a tentative 4-stage process: i) initial prompt, ii) composition adjustment, iii) style refinement, and iv) variation selection. We also discuss three reasons why the generation model struggles with certain illustrations: difficulties with counts, bias from stereotypical configurations and inability to depict overly fantastic situations. Our findings are not limited to the specific generation model and are intended to be generalisable to future ones.
arxiv情報
著者 | Martin Ruskov |
発行日 | 2023-02-17 15:49:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google