Improving Diffusion Models for Scene Text Editing with Dual Encoders

要約

タイトル:デュアルエンコーダーを使用したシーンテキスト編集の拡張

要約:
– シーンテキスト編集は、画像内の特定のテキストを変更または挿入することを含む難しいタスクであり、自然で現実的な外観を維持することが重要です。
– これまでの多くのアプローチは、スタイル転送モデルに依存しており、テキスト領域を切り取って画像転送モデルに送信します。 これらの方法は、テキストスタイルを変更する能力に制限があり、画像にテキストを挿入することができません。
– 最近のディフュージョンモデルの進歩により、テキスト条件付き画像編集でこれらの制限を克服することができる可能性が示されています。
– しかし、現在のディフュージョンモデルは、正しいテキストのレンダリングとテキストスタイルの制御に苦戦していることが示されています。
– この問題に対処するために、私たちは、デュアルエンコーダーデザインを使用したプリトレーニング済みディフュージョンモデルを改良するDIFFSTEを提案しています。
– キャラクターエンコーダーは、より良いテキストの可読性のために、インストラクションエンコーダーはより良いスタイル制御のために含まれます。
– 指示調整フレームワークは、指定されたスタイルまたは背景の周囲のテキストのスタイルで対応する画像へのマッピングを学習するために、私たちのモデルをトレーニングするために導入されます。
– このようなトレーニング方法により、私たちの手法には以下の3つのシナリオでZero-shot汎化能力があります。これらのシナリオには、未知のフォント変化でテキストの生成、異なるフォントを混ぜて新しいフォントを構築すること、そしてよりリラックスした形の自然言語を指示語として使用することが含まれます。
– 私たちは5つのデータセットで私たちのアプローチを評価し、テキストの正確さ、画像の自然さ、スタイルの管理可能性に優れたパフォーマンスを示しました。私たちのコードは公開されています。 https://github.com/UCSB-NLP-Chang/DiffSTE

要約(オリジナル)

Scene text editing is a challenging task that involves modifying or inserting specified texts in an image while maintaining its natural and realistic appearance. Most previous approaches to this task rely on style-transfer models that crop out text regions and feed them into image transfer models, such as GANs. However, these methods are limited in their ability to change text style and are unable to insert texts into images. Recent advances in diffusion models have shown promise in overcoming these limitations with text-conditional image editing. However, our empirical analysis reveals that state-of-the-art diffusion models struggle with rendering correct text and controlling text style. To address these problems, we propose DIFFSTE to improve pre-trained diffusion models with a dual encoder design, which includes a character encoder for better text legibility and an instruction encoder for better style control. An instruction tuning framework is introduced to train our model to learn the mapping from the text instruction to the corresponding image with either the specified style or the style of the surrounding texts in the background. Such a training method further brings our method the zero-shot generalization ability to the following three scenarios: generating text with unseen font variation, e.g., italic and bold, mixing different fonts to construct a new font, and using more relaxed forms of natural language as the instructions to guide the generation task. We evaluate our approach on five datasets and demonstrate its superior performance in terms of text correctness, image naturalness, and style controllability. Our code is publicly available. https://github.com/UCSB-NLP-Chang/DiffSTE

arxiv情報

著者 Jiabao Ji,Guanhua Zhang,Zhaowen Wang,Bairu Hou,Zhifei Zhang,Brian Price,Shiyu Chang
発行日 2023-04-12 02:08:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク