TF-TI2I: Training-Free Text-and-Image-to-Image Generation via Multi-Modal Implicit-Context Learning in Text-to-Image Models

要約

テキストから画像への拡張（T2I）であるテキストアンドイメージからイメージ（TI2I）は、画像入力をテキスト指示と統合して画像生成を強化します。
既存のメソッドは、多くの場合、オブジェクトやスタイルなどの特定の要素に焦点を当てた画像入力を部分的に利用するか、複雑でマルチイメージの指示で生成品質の低下を経験します。
これらの課題を克服するために、追加のトレーニングを必要とせずにSD3などの最先端のT2Iモデルを適応させるトレーニングなしのテキストとイメージからイメージ（TF-TI2I）を紹介します。
私たちの方法は、MM-DITアーキテクチャを活用しており、テキストトークンがビジョントークンから視覚情報を暗黙的に学習できることを指摘しています。
参照画像から凝縮された視覚表現を抽出し、参照コンテキストマスキングを通じて選択的情報共有を促進することにより、この相互作用を強化します。この手法により、コンテキストトークンの使用が命令関連の視覚情報に閉じ込められます。
さらに、当社の勝者は、すべてのビジョントークンに最も適切な参照を優先することにより、分布シフトを緩和します。
Ti2i評価のギャップに対処するために、Ti2iに合わせて既存のT2Iメソッドと互換性のある包括的なベンチマークであるFG-Ti2iベンチも導入します。
私たちのアプローチは、さまざまなベンチマークにわたって堅牢なパフォーマンスを示しており、複雑な画像生成タスクの処理における有効性を確認しています。

要約(オリジナル)

Text-and-Image-To-Image (TI2I), an extension of Text-To-Image (T2I), integrates image inputs with textual instructions to enhance image generation. Existing methods often partially utilize image inputs, focusing on specific elements like objects or styles, or they experience a decline in generation quality with complex, multi-image instructions. To overcome these challenges, we introduce Training-Free Text-and-Image-to-Image (TF-TI2I), which adapts cutting-edge T2I models such as SD3 without the need for additional training. Our method capitalizes on the MM-DiT architecture, in which we point out that textual tokens can implicitly learn visual information from vision tokens. We enhance this interaction by extracting a condensed visual representation from reference images, facilitating selective information sharing through Reference Contextual Masking — this technique confines the usage of contextual tokens to instruction-relevant visual information. Additionally, our Winner-Takes-All module mitigates distribution shifts by prioritizing the most pertinent references for each vision token. Addressing the gap in TI2I evaluation, we also introduce the FG-TI2I Bench, a comprehensive benchmark tailored for TI2I and compatible with existing T2I methods. Our approach shows robust performance across various benchmarks, confirming its effectiveness in handling complex image-generation tasks.

arxiv情報

著者	Teng-Fang Hsiao,Bo-Kai Ruan,Yi-Lun Wu,Tzu-Ling Lin,Hong-Han Shuai
発行日	2025-03-19 15:03:19+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

TF-TI2I: Training-Free Text-and-Image-to-Image Generation via Multi-Modal Implicit-Context Learning in Text-to-Image Models

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー