AnyText: Multilingual Visual Text Generation And Editing

要約

普及モデルに基づく Text-to-Image は、最近目覚ましい成果を上げています。
現在の画像合成技術は非常に進歩しており、忠実度の高い画像を生成することができますが、生成された画像内のテキスト領域に焦点を当てると、まだ見劣りする可能性があります。
この問題に対処するために、画像内の正確で一貫したテキストのレンダリングに重点を置いた拡散ベースの多言語ビジュアル テキスト生成および編集モデルである AnyText を導入します。
AnyText は、補助潜在モジュールとテキスト埋め込みモジュールという 2 つの主要な要素を備えた拡散パイプラインで構成されています。
前者は、テキスト グリフ、位置、マスクされたイメージなどの入力を使用して、テキスト生成または編集のための潜在的な特徴を生成します。
後者では、ストローク データを埋め込みとしてエンコードするための OCR モデルを採用し、トークナイザーからの画像キャプションの埋め込みとブレンドして、背景とシームレスに統合されるテキストを生成します。
筆記精度をさらに高めるために、トレーニングにテキスト制御拡散損失とテキスト知覚損失を採用しました。
AnyText は複数の言語で文字を書くことができます。私たちの知る限り、これは多言語ビジュアル テキストの生成に取り組んだ最初の作品です。
AnyText は、テキストを正確にレンダリングまたは編集するために、コミュニティの既存の拡散モデルにプラグインできることは言及する価値があります。
広範な評価実験を実施した結果、私たちの方法は他のすべてのアプローチを大幅に上回りました。
さらに、複数言語の OCR 注釈が付いた 300 万個の画像とテキストのペアを含む、初の大規模多言語テキスト画像データセット AnyWord-3M にも貢献しています。
AnyWord-3M データセットに基づいて、ビジュアル テキスト生成の精度と品質を評価するための AnyText-ベンチマークを提案します。
私たちのプロジェクトは、テキスト生成テクノロジーの開発を改善および促進するために、https://github.com/tyxsspa/AnyText でオープンソース化されます。

要約(オリジナル)

Diffusion model based Text-to-Image has achieved impressive achievements recently. Although current technology for synthesizing images is highly advanced and capable of generating images with high fidelity, it is still possible to give the show away when focusing on the text area in the generated image. To address this issue, we introduce AnyText, a diffusion-based multilingual visual text generation and editing model, that focuses on rendering accurate and coherent text in the image. AnyText comprises a diffusion pipeline with two primary elements: an auxiliary latent module and a text embedding module. The former uses inputs like text glyph, position, and masked image to generate latent features for text generation or editing. The latter employs an OCR model for encoding stroke data as embeddings, which blend with image caption embeddings from the tokenizer to generate texts that seamlessly integrate with the background. We employed text-control diffusion loss and text perceptual loss for training to further enhance writing accuracy. AnyText can write characters in multiple languages, to the best of our knowledge, this is the first work to address multilingual visual text generation. It is worth mentioning that AnyText can be plugged into existing diffusion models from the community for rendering or editing text accurately. After conducting extensive evaluation experiments, our method has outperformed all other approaches by a significant margin. Additionally, we contribute the first large-scale multilingual text images dataset, AnyWord-3M, containing 3 million image-text pairs with OCR annotations in multiple languages. Based on AnyWord-3M dataset, we propose AnyText-benchmark for the evaluation of visual text generation accuracy and quality. Our project will be open-sourced on https://github.com/tyxsspa/AnyText to improve and promote the development of text generation technology.

arxiv情報

著者 Yuxiang Tuo,Wangmeng Xiang,Jun-Yan He,Yifeng Geng,Xuansong Xie
発行日 2023-12-15 12:51:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク