Divide & Bind Your Attention for Improved Generative Semantic Nursing

要約

安定拡散 (SD) など、新たに登場した大規模なテキストから画像への生成モデルは、忠実度の高い圧倒的な結果を示しています。
目覚ましい進歩にもかかわらず、現在の最先端モデルは入力プロンプトに完全に準拠した画像を生成するのに依然として苦労しています。
これまでの研究である Attend & Excite では、生成意味看護 (GSN) の概念を導入し、推論時間中の相互注意を最適化し、意味論をより適切に組み込むことを目的としていました。
これは、「猫と犬」などの単純なプロンプトの生成において有望な結果を示しています。
ただし、より複雑なプロンプトを処理する場合、その有効性は低下します。また、不適切な属性バインディングの問題には明示的に対処しません。
複数のエンティティが関係する複雑なプロンプトやシナリオによってもたらされる課題に対処し、属性バインディングの改善を実現するために、Divide & Bind を提案します。
GSN に 2 つの新しい損失目標、つまり新しい出席損失と拘束損失を導入します。
私たちのアプローチは、複雑なプロンプトから改善された属性調整により目的のオブジェクトを忠実に合成する能力で際立っており、複数の評価ベンチマークにわたって優れたパフォーマンスを示します。
その他のビデオや最新情報は、プロジェクト ページ \url{https://sites.google.com/view/divide-and-bind} でご覧いただけます。

要約(オリジナル)

Emerging large-scale text-to-image generative models, e.g., Stable Diffusion (SD), have exhibited overwhelming results with high fidelity. Despite the magnificent progress, current state-of-the-art models still struggle to generate images fully adhering to the input prompt. Prior work, Attend & Excite, has introduced the concept of Generative Semantic Nursing (GSN), aiming to optimize cross-attention during inference time to better incorporate the semantics. It demonstrates promising results in generating simple prompts, e.g., “a cat and a dog”. However, its efficacy declines when dealing with more complex prompts, and it does not explicitly address the problem of improper attribute binding. To address the challenges posed by complex prompts or scenarios involving multiple entities and to achieve improved attribute binding, we propose Divide & Bind. We introduce two novel loss objectives for GSN: a novel attendance loss and a binding loss. Our approach stands out in its ability to faithfully synthesize desired objects with improved attribute alignment from complex prompts and exhibits superior performance across multiple evaluation benchmarks. More videos and updates can be found on the project page \url{https://sites.google.com/view/divide-and-bind}.

arxiv情報

著者 Yumeng Li,Margret Keuper,Dan Zhang,Anna Khoreva
発行日 2023-07-20 13:33:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク