要約
画像生成タスクにおけるテキストから画像への拡散モデルの優れたパフォーマンスにもかかわらず、最近の研究では、生成された画像がテキスト プロンプトの意図した意味論的内容をキャプチャできない場合があるという問題が提起されており、この現象は多くの場合意味論的不整合と呼ばれます。
これに対処するために、ここでは新しいエネルギーベース モデル (EBM) フレームワークを紹介します。
具体的には、まず、ノイズ除去オートエンコーダーの各クロスアテンション層における潜在画像表現とテキスト埋め込みの EBM を定式化します。
次に、コンテキスト ベクトルの事後対数の勾配を取得します。これを更新して後続のクロスアテンション層に転送することで、エネルギー関数の入れ子になった階層を暗黙的に最小化します。
さらに、当社の潜在 EBM により、さまざまなコンテキストからのクロスアテンション出力の線形結合としてゼロショット構成生成が可能になります。
広範な実験を使用して、提案された方法が、マルチコンセプト生成、テキストガイドによる画像修復、実際の画像および合成画像の編集など、さまざまな画像生成タスクを処理するのに非常に効果的であることを実証します。
要約(オリジナル)
Despite the remarkable performance of text-to-image diffusion models in image generation tasks, recent studies have raised the issue that generated images sometimes cannot capture the intended semantic contents of the text prompts, which phenomenon is often called semantic misalignment. To address this, here we present a novel energy-based model (EBM) framework. Specifically, we first formulate EBMs of latent image representations and text embeddings in each cross-attention layer of the denoising autoencoder. Then, we obtain the gradient of the log posterior of context vectors, which can be updated and transferred to the subsequent cross-attention layer, thereby implicitly minimizing a nested hierarchy of energy functions. Our latent EBMs further allow zero-shot compositional generation as a linear combination of cross-attention outputs from different contexts. Using extensive experiments, we demonstrate that the proposed method is highly effective in handling various image generation tasks, including multi-concept generation, text-guided image inpainting, and real and synthetic image editing.
arxiv情報
著者 | Geon Yeong Park,Jeongsol Kim,Beomsu Kim,Sang Wan Lee,Jong Chul Ye |
発行日 | 2023-06-26 01:03:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google