ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation

要約

テキストから画像への生成の実際の使用は、単純なモノリシック モデルから、複数の特殊なコンポーネントを組み合わせた複雑なワークフローへと進化しました。
ワークフローベースのアプローチは画質の向上につながる可能性がありますが、使用可能なコンポーネントが多数あること、コンポーネントの複雑な相互依存性、および生成プロンプトへの依存性があるため、効果的なワークフローを作成するには多大な専門知識が必要です。
ここでは、プロンプト適応型ワークフロー生成という新しいタスクを紹介します。その目的は、各ユーザー プロンプトに合わせてワークフローを自動的に調整することです。
私たちは、このタスクに取り組むための 2 つの LLM ベースのアプローチを提案します。1 つはユーザーの好みのデータから学習するチューニングベースの方法、もう 1 つは LLM を使用して既存のフローを選択するトレーニング不要の方法です。
どちらのアプローチも、モノリシック モデルやプロンプトに依存しない一般的なワークフローと比較して、画質の向上につながります。
私たちの研究は、プロンプト依存のフロー予測が、テキストから画像への生成品質を向上させるための新しい道を提供し、この分野の既存の研究の方向性を補完するものであることを示しています。

要約(オリジナル)

The practical use of text-to-image generation has evolved from simple, monolithic models to complex workflows that combine multiple specialized components. While workflow-based approaches can lead to improved image quality, crafting effective workflows requires significant expertise, owing to the large number of available components, their complex inter-dependence, and their dependence on the generation prompt. Here, we introduce the novel task of prompt-adaptive workflow generation, where the goal is to automatically tailor a workflow to each user prompt. We propose two LLM-based approaches to tackle this task: a tuning-based method that learns from user-preference data, and a training-free method that uses the LLM to select existing flows. Both approaches lead to improved image quality when compared to monolithic models or generic, prompt-independent workflows. Our work shows that prompt-dependent flow prediction offers a new pathway to improving text-to-image generation quality, complementing existing research directions in the field.

arxiv情報

著者 Rinon Gal,Adi Haviv,Yuval Alaluf,Amit H. Bermano,Daniel Cohen-Or,Gal Chechik
発行日 2024-10-02 16:43:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.GR パーマリンク