RepText: Rendering Visual Text via Replicating

要約

現代のテキストからイメージへの生成モデルは、視覚的に魅力的な画像を作成する際に顕著なブレークスルーを達成していますが、正確で柔軟なタイポグラフィ要素、特に非ラチンアルファベットを生成する能力は抑制されたままです。
これらの制限に対処するために、テキストの理解はテキストレンダリングには十分な条件であるが、必要な条件ではないという素朴な仮定から始めます。
これに基づいて、reptextを提示します。これは、事前に訓練された単一言語のテキストからイメージへの生成モデルに、ユーザー指定のフォントで正確にレンダリングする、またはより正確に複製された多言語の視覚テキストを、実際に理解する必要なく、複製する能力を持つことを目的としています。
具体的には、コントロールネットから設定を採用し、レンダリングされたテキストの言語不可知論的グリフと位置をさらに統合して、調和のとれた視覚テキストを生成できるようにし、ユーザーがニーズに合わせてテキストコンテンツ、フォント、ポジションをカスタマイズできるようにします。
精度を向上させるために、テキストの知覚的損失が拡散損失とともに採用されます。
さらに、レンダリングプロセスを安定させるために、推論フェーズでは、ランダムな初期化の代わりにノイズの多いグリフ潜在性で直接初期化し、領域マスクを採用して、背景の歪みを避けるためにテキスト領域のみに特徴の注入を制限します。
既存の作業に関連する補強材の有効性を検証するために広範な実験を実施しました。当社のアプローチは、既存のオープンソース方法よりも優れており、ネイティブの多言語クローズドソースモデルに匹敵する結果を達成します。
より公平にするために、最終的にその限界についても徹底的に議論します。

要約(オリジナル)

Although contemporary text-to-image generation models have achieved remarkable breakthroughs in producing visually appealing images, their capacity to generate precise and flexible typographic elements, especially non-Latin alphabets, remains constrained. To address these limitations, we start from an naive assumption that text understanding is only a sufficient condition for text rendering, but not a necessary condition. Based on this, we present RepText, which aims to empower pre-trained monolingual text-to-image generation models with the ability to accurately render, or more precisely, replicate, multilingual visual text in user-specified fonts, without the need to really understand them. Specifically, we adopt the setting from ControlNet and additionally integrate language agnostic glyph and position of rendered text to enable generating harmonized visual text, allowing users to customize text content, font and position on their needs. To improve accuracy, a text perceptual loss is employed along with the diffusion loss. Furthermore, to stabilize rendering process, at the inference phase, we directly initialize with noisy glyph latent instead of random initialization, and adopt region masks to restrict the feature injection to only the text region to avoid distortion of the background. We conducted extensive experiments to verify the effectiveness of our RepText relative to existing works, our approach outperforms existing open-source methods and achieves comparable results to native multi-language closed-source models. To be more fair, we also exhaustively discuss its limitations in the end.

arxiv情報

著者 Haofan Wang,Yujia Xu,Yimeng Li,Junchen Li,Chaowei Zhang,Jing Wang,Kejia Yang,Zhibo Chen
発行日 2025-04-28 12:19:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク