Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis

要約

text-to-image (T2I) モデルは優れた生成機能を示しますが、入力プロンプト内の意味的に関連するオブジェクトや属性を正確にバインドできないことがよくあります。
これはセマンティック バインディングと呼ばれる課題です。
以前のアプローチでは、T2I モデル全体の集中的な微調整が必​​要か、ユーザーまたは大規模な言語モデルに生成レイアウトを指定する必要があり、複雑さが増していました。
このペーパーでは、セマンティック バインディングを、特定のオブジェクトをその属性に関連付けるか (属性バインディングと呼ばれる)、またはオブジェクトを他の関連するサブオブジェクトにリンクするタスク (オブジェクト バインディングと呼ばれる) として定義します。
私たちは、関連するトークンを 1 つの複合トークンに集約することでセマンティック バインディングを強化する、トークン マージング (ToMe) と呼ばれる新しい方法を導入します。
これにより、オブジェクト、その属性、およびサブオブジェクトがすべて同じクロス アテンション マップを共有することが保証されます。
さらに、複雑なテキストプロンプトを持つメインオブジェクト間の潜在的な混乱に対処するために、補完的な戦略としてエンドトークンの置換を提案します。
レイアウトが決定される T2I 生成の初期段階でのアプローチをさらに改良するために、エントロピー損失とセマンティック結合損失という 2 つの補助損失を組み込み、複合トークンを繰り返し更新して生成の整合性を向上させます。
私たちは ToMe の有効性を検証するために広範な実験を実施し、T2I-CompBench および私たちが提案する GPT-4o オブジェクト バインディング ベンチマークのさまざまな既存の方法と比較しました。
私たちの方法は、以前の方法では対処できないことが多かった、複数のオブジェクトと属性が関係する複雑なシナリオで特に効果的です。
コードは \url{https://github.com/hutaihang/ToMe} で公開されます。

要約(オリジナル)

Although text-to-image (T2I) models exhibit remarkable generation capabilities, they frequently fail to accurately bind semantically related objects or attributes in the input prompts; a challenge termed semantic binding. Previous approaches either involve intensive fine-tuning of the entire T2I model or require users or large language models to specify generation layouts, adding complexity. In this paper, we define semantic binding as the task of associating a given object with its attribute, termed attribute binding, or linking it to other related sub-objects, referred to as object binding. We introduce a novel method called Token Merging (ToMe), which enhances semantic binding by aggregating relevant tokens into a single composite token. This ensures that the object, its attributes and sub-objects all share the same cross-attention map. Additionally, to address potential confusion among main objects with complex textual prompts, we propose end token substitution as a complementary strategy. To further refine our approach in the initial stages of T2I generation, where layouts are determined, we incorporate two auxiliary losses, an entropy loss and a semantic binding loss, to iteratively update the composite token to improve the generation integrity. We conducted extensive experiments to validate the effectiveness of ToMe, comparing it against various existing methods on the T2I-CompBench and our proposed GPT-4o object binding benchmark. Our method is particularly effective in complex scenarios that involve multiple objects and attributes, which previous methods often fail to address. The code will be publicly available at \url{https://github.com/hutaihang/ToMe}.

arxiv情報

著者 Taihang Hu,Linxuan Li,Joost van de Weijer,Hongcheng Gao,Fahad Shahbaz Khan,Jian Yang,Ming-Ming Cheng,Kai Wang,Yaxing Wang
発行日 2024-11-11 17:05:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク