Dense Text-to-Image Generation with Attention Modulation

要約

既存のテキストから画像への拡散モデルは、各テキスト プロンプトが特定の画像領域の詳細な説明を提供する高密度のキャプションを考慮して、リアルな画像を合成するのに苦労しています。
これに対処するために、シーン レイアウトの制御を提供しながら、このような高密度キャプションを処理するために事前トレーニングされたテキストから画像へのモデルを適応させるトレーニング不要の方法である DenseDiffusion を提案します。
まず、生成された画像のレイアウトと事前トレーニングされたモデルの中間注意マップの間の関係を分析します。
次に、レイアウトガイダンスに従ってオブジェクトを特定の領域に出現させる注意変調手法を開発します。
追加の微調整やデータセットを必要とせずに、自動評価スコアと人間による評価スコアの両方に関する高密度のキャプションが与えられた画像生成パフォーマンスを向上させます。
さらに、レイアウト条件で特別にトレーニングされたモデルを使用すると、同様の品質の視覚的結果が得られます。

要約(オリジナル)

Existing text-to-image diffusion models struggle to synthesize realistic images given dense captions, where each text prompt provides a detailed description for a specific image region. To address this, we propose DenseDiffusion, a training-free method that adapts a pre-trained text-to-image model to handle such dense captions while offering control over the scene layout. We first analyze the relationship between generated images’ layouts and the pre-trained model’s intermediate attention maps. Next, we develop an attention modulation method that guides objects to appear in specific regions according to layout guidance. Without requiring additional fine-tuning or datasets, we improve image generation performance given dense captions regarding both automatic and human evaluation scores. In addition, we achieve similar-quality visual results with models specifically trained with layout conditions.

arxiv情報

著者 Yunji Kim,Jiyoung Lee,Jin-Hwa Kim,Jung-Woo Ha,Jun-Yan Zhu
発行日 2023-08-24 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク