GLoD: Composing Global Contexts and Local Details in Image Generation

要約

拡散モデルは、テキストのプロンプトから高品質で多様な画像を合成する機能を実証しています。
しかし、グローバルなコンテキスト (オブジェクトのレイアウトやインタラクションなど) とローカルな詳細 (色や感情など) の両方を同時に制御することは依然として大きな課題です。
モデルは多くの場合、複数のオブジェクトを含む複雑な説明を理解できず、指定された視覚属性を間違ったターゲットに反映したり、無視したりします。
この論文では、トレーニングや微調整を必要とせずに、テキストから画像への生成においてグローバル コンテキストとローカルの詳細を同時に制御できる新しいフレームワークである Global-Local Diffusion (\textit{GLoD}) について説明します。
複数のグローバルおよびローカル プロンプトを対応するレイヤーに割り当て、それらのノイズを構成して、事前トレーニングされた拡散モデルを使用してノイズ除去プロセスをガイドします。
私たちのフレームワークは、他の不特定のアイデンティティを維持しながら、グローバル プロンプト内のオブジェクトをローカル プロンプトで条件付けする、複雑なグローバルとローカルの構成を可能にします。
私たちの定量的および定性的評価は、GLoD がユーザーが提供したオブジェクトのインタラクションとオブジェクトの詳細の両方に準拠した複雑な画像を効果的に生成することを示しています。

要約(オリジナル)

Diffusion models have demonstrated their capability to synthesize high-quality and diverse images from textual prompts. However, simultaneous control over both global contexts (e.g., object layouts and interactions) and local details (e.g., colors and emotions) still remains a significant challenge. The models often fail to understand complex descriptions involving multiple objects and reflect specified visual attributes to wrong targets or ignore them. This paper presents Global-Local Diffusion (\textit{GLoD}), a novel framework which allows simultaneous control over the global contexts and the local details in text-to-image generation without requiring training or fine-tuning. It assigns multiple global and local prompts to corresponding layers and composes their noises to guide a denoising process using pre-trained diffusion models. Our framework enables complex global-local compositions, conditioning objects in the global prompt with the local prompts while preserving other unspecified identities. Our quantitative and qualitative evaluations demonstrate that GLoD effectively generates complex images that adhere to both user-provided object interactions and object details.

arxiv情報

著者 Moyuru Yamada
発行日 2024-04-23 18:39:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク