要約
テキストからイメージ(T2I)の世代は、高品質の画像の作成において顕著な進歩を遂げましたが、根本的な課題は残っています。画質を損なうことなく、テキスト配置に自然に対応する背景を作成します。
この機能は、コンテンツとテキストの間の明確な視覚的階層が不可欠なグラフィックデザインのような実際のアプリケーションにとって重要ではありません。
以前の作業は、主に既存の静的画像内にレイアウトを配置することに焦点を当てており、テキストに優しい背景を生成するためのT2Iモデルの可能性が未開拓の可能性を残しています。
テキストに優しい画像生成のための空白の地域でのトレーニングなしの動的な背景適応であるTextCengenを提示します。
画質を低下させるテキスト領域での注意を直接軽減する代わりに、バックグラウンドの最適化の前に競合するオブジェクトを再配置します。
私たちの方法は、クロスアテンションマップを分析して、テキスト領域と重複する矛盾するオブジェクトを識別し、フォース指向のグラフアプローチを使用して再配置を導き、その後、スムーズな背景を確保するための制約を除く注意が続きます。
私たちの方法はプラグアンドプレイであり、セマンティックの忠実度と視覚品質の両方のバランスをとりながら、追加のトレーニングを必要としません。
提案されたテキストフレンドリーなT2Iベンチマークで評価された4つのシードデータセットにわたって27,000の画像のベンチマークでは、TextCengenは、CLIPスコアと提案された視覚視テキストの一致メトリック(VTCM)によって測定されたセマンティックフィデリティの98%を維持しながら、テキスト領域で23%低い顕著性オーバーラップを達成することにより、既存の方法を上回ります。
要約(オリジナル)
Text-to-image (T2I) generation has made remarkable progress in producing high-quality images, but a fundamental challenge remains: creating backgrounds that naturally accommodate text placement without compromising image quality. This capability is non-trivial for real-world applications like graphic design, where clear visual hierarchy between content and text is essential. Prior work has primarily focused on arranging layouts within existing static images, leaving unexplored the potential of T2I models for generating text-friendly backgrounds. We present TextCenGen, a training-free dynamic background adaptation in the blank region for text-friendly image generation. Instead of directly reducing attention in text areas, which degrades image quality, we relocate conflicting objects before background optimization. Our method analyzes cross-attention maps to identify conflicting objects overlapping with text regions and uses a force-directed graph approach to guide their relocation, followed by attention excluding constraints to ensure smooth backgrounds. Our method is plug-and-play, requiring no additional training while well balancing both semantic fidelity and visual quality. Evaluated on our proposed text-friendly T2I benchmark of 27,000 images across four seed datasets, TextCenGen outperforms existing methods by achieving 23% lower saliency overlap in text regions while maintaining 98% of the semantic fidelity measured by CLIP score and our proposed Visual-Textual Concordance Metric (VTCM).
arxiv情報
著者 | Tianyi Liang,Jiangqi Liu,Yifei Huang,Shiqi Jiang,Jianshen Shi,Changbo Wang,Chenhui Li |
発行日 | 2025-05-13 15:33:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google