LLM Blueprint: Enabling Text-to-Image Generation with Complex and Detailed Prompts

要約

拡散ベースの生成モデルは、テキストから画像への生成を大幅に進化させていますが、複数のオブジェクトを含む複雑なシーンを説明する長く複雑なテキスト プロンプトを処理する際に課題に直面します。
これらのモデルは、短い単一オブジェクトの説明から画像を生成することに優れていますが、長くて精緻なテキスト入力内の微妙な詳細をすべて忠実にキャプチャするのに苦労することがよくあります。
これに応えて、我々は、前景オブジェクトの境界ボックス座標、個々のオブジェクトの詳細なテキスト説明、簡潔な背景コンテキストなどの重要なコンポーネントをテキスト プロンプトから抽出するために、Large Language Model (LLM) を活用する新しいアプローチを提案します。
これらのコンポーネントは、2 つのフェーズで動作するレイアウトから画像への生成モデルの基礎を形成します。
最初のグローバル シーン生成では、オブジェクト レイアウトと背景コンテキストを利用して初期シーンを作成しますが、多くの場合、プロンプトで指定されたオブジェクトの特性を忠実に表現するには不十分です。
この制限に対処するために、ボックス レベルのコンテンツを反復的に評価および調整してテキストの説明と一致させ、一貫性を確保するために必要に応じてオブジェクトを再構成する反復改良スキームを導入します。
複数のオブジェクトを特徴とする複雑なプロンプトに対する評価では、ベースライン拡散モデルと比較して再現率が大幅に向上していることが実証されています。
これはユーザー調査によってさらに検証され、複雑なテキスト入力から一貫性のある詳細なシーンを生成する際の私たちのアプローチの有効性が強調されています。

要約(オリジナル)

Diffusion-based generative models have significantly advanced text-to-image generation but encounter challenges when processing lengthy and intricate text prompts describing complex scenes with multiple objects. While excelling in generating images from short, single-object descriptions, these models often struggle to faithfully capture all the nuanced details within longer and more elaborate textual inputs. In response, we present a novel approach leveraging Large Language Models (LLMs) to extract critical components from text prompts, including bounding box coordinates for foreground objects, detailed textual descriptions for individual objects, and a succinct background context. These components form the foundation of our layout-to-image generation model, which operates in two phases. The initial Global Scene Generation utilizes object layouts and background context to create an initial scene but often falls short in faithfully representing object characteristics as specified in the prompts. To address this limitation, we introduce an Iterative Refinement Scheme that iteratively evaluates and refines box-level content to align them with their textual descriptions, recomposing objects as needed to ensure consistency. Our evaluation on complex prompts featuring multiple objects demonstrates a substantial improvement in recall compared to baseline diffusion models. This is further validated by a user study, underscoring the efficacy of our approach in generating coherent and detailed scenes from intricate textual inputs.

arxiv情報

著者 Hanan Gani,Shariq Farooq Bhat,Muzammal Naseer,Salman Khan,Peter Wonka
発行日 2023-10-16 17:57:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク