Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model

要約

最近、拡散ベースの画像生成方法は、その優れたテキストから画像への生成機能で評価されていますが、多言語シーンのテキスト画像を正確に生成するという課題に依然として直面しています。
この問題に取り組むために、私たちは、あらゆる言語に対応したトレーニング不要のシーン テキスト生成フレームワークである Diff-Text を提案します。
私たちのモデルは、任意の言語のテキストとシーンのテキストによる説明が与えられると、写実的な画像を出力します。
このモデルはレンダリングされたスケッチ イメージを事前イメージとして利用するため、事前トレーニングされた安定拡散の潜在的な多言語生成機能が呼び出されます。
生成された画像内のオブジェクトの配置に対するクロスアテンションマップの影響からの観察に基づいて、シーンテキストの不合理な配置問題に対処するために、クロスアテンションレイヤーへの局所的な注意制約を提案します。
さらに、テキスト領域の位置をさらに調整し、より正確なシーン テキスト生成を実現するために、コントラストのある画像レベルのプロンプトを導入します。
実験により、私たちの方法がテキスト認識の精度と前景と背景の混合の自然さの両方において既存の方法よりも優れていることが実証されました。

要約(オリジナル)

Recently, diffusion-based image generation methods are credited for their remarkable text-to-image generation capabilities, while still facing challenges in accurately generating multilingual scene text images. To tackle this problem, we propose Diff-Text, which is a training-free scene text generation framework for any language. Our model outputs a photo-realistic image given a text of any language along with a textual description of a scene. The model leverages rendered sketch images as priors, thus arousing the potential multilingual-generation ability of the pre-trained Stable Diffusion. Based on the observation from the influence of the cross-attention map on object placement in generated images, we propose a localized attention constraint into the cross-attention layer to address the unreasonable positioning problem of scene text. Additionally, we introduce contrastive image-level prompts to further refine the position of the textual region and achieve more accurate scene text generation. Experiments demonstrate that our method outperforms the existing method in both the accuracy of text recognition and the naturalness of foreground-background blending.

arxiv情報

著者 Lingjun Zhang,Xinyuan Chen,Yaohui Wang,Yue Lu,Yu Qiao
発行日 2023-12-19 15:18:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク