High Fidelity Scene Text Synthesis

要約

シーン テキストの合成には、指定されたテキストを任意の画像上にレンダリングすることが含まれます。
現在の方法では通常、このタスクをエンドツーエンドの方法で定式化しますが、トレーニング中に効果的なキャラクターレベルのガイダンスが欠けています。
さらに、単一のフォント タイプで事前トレーニングされたテキスト エンコーダは、実際のアプリケーションで遭遇する多様なフォント スタイルに適応するのに苦労しています。
その結果、これらの方法は、特に多文体的なシナリオにおいて、文字の歪み、繰り返し、欠落という問題が発生します。
この目的を達成するために、本論文では高忠実度のシーンテキスト合成のための DreamText を提案する。
私たちの重要なアイデアは、拡散トレーニング プロセスを再構築し、このタスクに合わせたより洗練されたガイダンスを導入し、文字レベルでモデルの注意を明らかにして修正し、テキスト領域の学習を強化することです。
この変換は、離散変数と連続変数の両方を含むハイブリッド最適化の課題を引き起こします。
この課題に効果的に取り組むために、私たちはヒューリスティックな代替最適化戦略を採用しています。
その一方で、テキスト エンコーダーとジェネレーターを共同でトレーニングして、トレーニング データセットに存在する多様なフォントを包括的に学習して利用します。
この共同トレーニングは代替最適化プロセスにシームレスに統合され、キャラクターの埋め込み学習とキャラクターの注意力の再評価との間の相乗関係を促進します。
具体的には、各ステップではまず、クロスアテンション マップから潜在的なキャラクター生成位置情報を潜在キャラクター マスクにエンコードします。
これらのマスクは、現在のステップで特定の文字の表現を更新するために利用されます。これにより、ジェネレータは後続のステップで文字の注意を修正できるようになります。
定性的結果と定量的結果の両方が、我々の方法が最先端技術よりも優れていることを示しています。

要約(オリジナル)

Scene text synthesis involves rendering specified texts onto arbitrary images. Current methods typically formulate this task in an end-to-end manner but lack effective character-level guidance during training. Besides, their text encoders, pre-trained on a single font type, struggle to adapt to the diverse font styles encountered in practical applications. Consequently, these methods suffer from character distortion, repetition, and absence, particularly in polystylistic scenarios. To this end, this paper proposes DreamText for high-fidelity scene text synthesis. Our key idea is to reconstruct the diffusion training process, introducing more refined guidance tailored to this task, to expose and rectify the model’s attention at the character level and strengthen its learning of text regions. This transformation poses a hybrid optimization challenge, involving both discrete and continuous variables. To effectively tackle this challenge, we employ a heuristic alternate optimization strategy. Meanwhile, we jointly train the text encoder and generator to comprehensively learn and utilize the diverse font present in the training dataset. This joint training is seamlessly integrated into the alternate optimization process, fostering a synergistic relationship between learning character embedding and re-estimating character attention. Specifically, in each step, we first encode potential character-generated position information from cross-attention maps into latent character masks. These masks are then utilized to update the representation of specific characters in the current step, which, in turn, enables the generator to correct the character’s attention in the subsequent steps. Both qualitative and quantitative results demonstrate the superiority of our method to the state of the art.

arxiv情報

著者 Yibin Wang,Weizhong Zhang,Jianwei Zheng,Cheng Jin
発行日 2024-05-23 15:35:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク